最近遇到的问题与优化

推文502

背景

前几周，运营做营销活动推文，推文后，我们我们没有收到任何的系统报警。业务反馈，用户进不去页面，有的还报502。what？

抓紧时间排查。

cpu 正常
网络链接正常（单机ng的有效链接1000，单机流量200mb）
链路请求正常（10分钟内超过2秒的接口不到1000条，大部分还都是银行卡相关的）
数据库也正常

都正常啊，怎么就502了?看下ng的超时日志，最近10分钟内，单机也就几百个，不应该怎么慢啊。

不对，突然想起来在打开后端系统的有点卡顿。

难道是网络带宽耗尽了？

马上找运维看了下公网带宽，才200mb，而且是弹性的，也没问题。又重新想了整体的链路。我们的链路如下：

从ng到业务系统，没有任何问题，三种监控手段，没有一个报警。

那只有前面了

外网入口，没问题
高防，没问题（后端反馈给高防，10分钟有将近2万条502）
waf（当时安全负责人请假，没有看到这块）

然后，我们让运维一个个的节点给我们看流量和使用率。

最后发现在waf，cpu 使用率高达80%，但是load却高达8~12，tcp链接数达到了17万。

最终定位到问题。

原因是前段时间进行了降配，waf平常流量的情况cpu使用率能达到30%到40%，推文+营销流量翻了好几倍，导致waf的cpu负载过高，在waf那一层就将链接拒了。其次开发从公有云迁移专有云时，把外网的健康检查也给去了。

一次token失效查询

我们系统的逻辑是这样的。

最开始我们的系统是不支持租户的，只有租户A 的业务，在2018年我们进行了租户化改造。当时定义的规范是：

业务数据进行租户化隔离（通过租户路由到不同的数据库）；
公共配置数据共源；

背景：在2019年的时候，我们孵化了业务B，一直到今年我们的业务核心还是在业务A 渠道，业务B渠道，没怎么管，流量99.9%都是在业务A,在业务B上线以后做过数据初始化工作；

大概在9月份的时候，业务人员在走业务A流程的时候反馈一个问题，没登录提示token失效，登录以后都正常，当时测试验证的时候没有复现，再说从本身的业务逻辑来说，用户不登录在我们这确实什么都没法操作，当时这个问题就搁置了。然后9月底流量开始往业务B上导，

自从推文502后，就开始让技术分析各种可能影响性能的问题。

从数据里发现了一个不需要token验证的接口周期性的出现token失效，这个绝对不正常。

然后我们开始排查:

梳理代码，发现图上的逻辑；
当时第一个想法是不是主从数据库不一致的问题，或者哪个数据库的磁盘有问题导致的？开发确认都没有问题；
当时还是不放心，就让加了日志验证；
同时继续撸代码，发现缓存的时候做了序列化的操作，而且还有数据还嵌套了，当时就想起之前遇到的一个问题，fastjson序列化数据丢失（后来想想也不应该，如果丢失就不会周期性的出现），同时猜测还有可能是反序列化的时候丢失；
同时在想，是不是哪里有定时任务在更新这个缓存导致的（排查代码，发现没有，甚至还更换缓存key的操作）；
先不管，先把日志加上，上线观察下日志；
上完线在等数据样本的时候，又回想了下，以上那几个问题的可能性微乎其微，如果有那就是必现的问题；
然后进去kibana去看数据，点开一条数据，无意间瞅到了租户id，就想这个问题是共性问题？还是只是某租户上的？
然后发现出问题的都是业务A的租户id
然后观察到出问题之前调用写入的都是业务B
这个时候有点眉目了，翻代码，发现api系统把配置表也做了租户化；
从DB里查询时按租户区分，往redis写和查询时未加租户id；
业务B从19年到现在表里的数据没有任何改动；
业务A一直在往里加数据，两边差了近30条；
先把租户A的数据同步到租户B
后续再把公共配置表抽出来，全局共用

签章优化

我们做的信贷业务，之前因为历史原因，机构有三个签章由我们调用机构完成（按业务结构我们不应该关注这个，应该由机构统一处理）；

最近单量较大，机构签章这块经常超时，放款的时效性不能保证；

和开发聊了下这块的业务；

业务逻辑也很简单，如下图

合同服务调用生成任何和签章结果查询
xxljob 每分钟调用抽取任务去签章
外部调用都是通过feign调用
项目里配置的hystrix是feign的全局策略

当时这里有两个问题：

分布式调度每分钟批量去签章，要么处理能及时处理，然后cpu空闲，要么不能及时处理，任务越压越多；
解决方案一：直接用消息队列去承载任务，将定时去掉，这样通过高峰填谷的方式充分利用cpu以及后端服务的性能，能及时处理（这个改造需要相关系统的配置）；
解决方案二：动态调整抽取任务数，每次任务处理完以后，计算任务的处理时效，最大程度的利用cpu资源（这个改造需要动态适应，逻辑较多）；
解决方案三：任务启动以后直接while循环，处理一批以后接着处理下一批次，没有任务就休眠一段时间，分布式调度也不去掉，只是改为任务监测，发现任务停止了，启动任务；
以上三个方案都是临时方案，直至机构将签章任务迁移走；
项目中配置的feign的hystrix
解决：只有签章才用hystrix，查询不做限制（毕竟成功后会落入本地库）
当签章超时时，任务积压，会堵塞签章查询（因为异常的签章会走feign调用机构），会阻塞查询；
利用hystrix熔断签章，同时也会熔断查询

后续针对这种资源共享的地方都得好好的排查下，特别是涉及到以下：

线程池还是
数据源（核心与非核心共用，saas业务共用不区分）
定时任务
熔断策略，一定要是接口维度的，禁止使用全局共享

最近遇到的问题与优化

推文502

背景

一次token失效查询

签章优化

相关文章：