众所周知,目前前端的错误监控在实际工作中越来越重要,好处如下:
区别于传统的靠用户反馈机制开发人员被动接收排查问题的模式来说。流程更短,体验更佳。
目前,转转的前端错误监控体系都是基于 Sentry
建立的。之前我们也或对比或使用过业内比较成熟的几个监控产品,例如 Badjs
, FrontJS
, Fundebug
等。但要么就是用起来繁琐,要么就是不开源,最后我们选择了 Sentry
,目前经过一段时间的使用来看 Sentry
是相对比较成熟且完整的前端错误监控方案了,已经基本能满足我们的项目要求。
不过对于商业团队来说,我们会更加注重线上质量,还有处理问题的效率(效率即生命),每一个商户对我们来说都是非常重要的,我们不能因为频繁的线上问题,还有处理问题效率上让商户觉得我们很 山寨
。
所以进行了一系列的优化升级,从 项目改造优化—>上报信息优化—>sentry配置优化
。
从7月份我们上线了以下这套策略以后,我们能把线上用户发现错误控制在了平 2
个以内,收益明显。
下面会具体说一下我们的方案策略。
我们总结了使用 Sentry
过程中遇到的一些问题,如下:
收集信息混乱(所有错误信息混杂在一起);
定位问题相对较慢;
影响范围评估难;
错误频率无法统计;
部分监控缺失(不能全方位监控);
小程序缺少监控;
接口缺少监控;
404请求缺少监控;
预警邮件过于频繁(容易让开发人员接收疲劳);
当然,相对以前没有错误监控来说,已经能够很好的使用了。
但是,如果能把这些问题都解决了,那么我们不止线上质量和处理效率的还可以更进一步的提升,而且还能在开发阶段避免部分问题,先于用户发现问题,还能为我们大前端产出一套公共解决方案。
侵入项目,虽然前端实际工作中一直以对业务无侵入为研究方向。但在实际的业务中偶尔的侵入业务去做一些处理是很有必要的,给业务带来的收益也是可观的,我们能做的就是尽量少的侵入业务代码,导致污染。以下是我们对项目的改造策略:
以 react
为例,我们做了以下处理,vue也是类似方案:
以上方案不止能有效捕获错误,区分错误级别,还能有效防止子组件错误影响整体页面渲染,导致白屏,简直一举两得。
为什么我们要做接口监控?
因为我们有同一请求包 SDK
,所以处理起来异常简单。
优势:
例如:快速查看错误根据 tags
的分布
重写错误上报方法
让上报的错误信息使用更方便,辅助信息更完善。
其中:
当然默认的错误上报也同时发送,也可以设置 tags
和 extra
,主要是为了捕获主动上报漏掉的错误。
最终我们把重写的方法抽离成了可供大转转前端使用的公共 SDK
。
最终 sentry
列表展示
Before: 所有信息混杂,同类型错误无分类,没有进行日期的错误区分,看不到错误变化趋势
After:所有错误信息分组合并,提供更多有效tag帮助快速定位
isSendMail=1
标签控制isSendMail=1
的频率例如,同一个用户只要页面白屏错误,和其他同类型错误在页面浏览期间超过3次也设置 isSendMail=1
以上那么做了以后,整体的邮件错误频率能得到很大的降低,集中开发人员的经历去解决我们更关注的错误,实现上报即重点。更多的规则可以更具前端上报的标签去做更多的处理,来减少报警频率。
由于这套兼容方案是其他组同学,还有支撑组同学完成,所以这里我展示一下兼容的原理设计图,具体的后续升级策略与上面所述一致。
收益如何?
晚上10点上线一个新需求有收到邮件,在ios10里面有问题,迅速评估出了影响范围。
根据用户id快速找到了错误信息
此问题发现传参有问题,但前端代码并没有逻辑问题,最后跟踪到了其他发布入口,发现中台提供的发布功能上md5参数会丢失。
跟后端配合排查,发现其中一个参数长度过长,超过了数据库存储限制。
目前我们已经要求全部需求上线后必须关注 Sentry
报错,以免错误暴露给用户造成不好的影响。
发现前端同时多次请求,后端接口未加锁造成入库异常,类似的风险代码发现了很多,包括一些代码边界值的判断等等,最终我们整理了一套前端开发风险规范,并且开发了一套 pre-commit
规则来对风险代码进行校验(校验的并不是代码风格,语法等,这里要是有兴趣可以安排相关同学整理分享一下),规避风险代码,减少线上错误。
每一次排查错误对我们来说都是一次收获,很多问题是可以提前规避的,就算避免不了我们也可以借助 Sentry
去更高效的解决。
最后,拥抱问题,才能让我们更加成长。
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8