抖音创作工具防劣化实践

2344次阅读  |  发布于3年以前

基础介绍

为什么做防劣化

应用性能问题主要影响 2 个点,一个是用户体验,再一个就是业务数据。为了避免性能问题带到线上,所以我们需要在线下建立一套性能防劣化机制,尽早地定位导致劣化的代码并及时修复。抖音创作工具部门自研了一套防劣化系统 Koopa,在最近的几个双月中拦截到了不少线下的劣化。

自动化平台

机架管理

由于拍摄编辑视频依赖真机,大部分情况下性能数据的获取也需要真机的操作,所以有机房/机架的建设的工作。通过在不同的地区/国家的中小型机柜,做分布式的管理。在不同的场景和环境下进行测试。

设备管理

关于设备管理的技术实现,是通过电脑客户端 Agent 做手机的心跳获取手机的心跳状态上报到服务端,来看测试机是否在线。

任务调度

Koopa 的调度模块 greenwood 通过与 IES 基础技术的 Saf 平台通信来对任务进行调度,完成任务的分发,拿到任务结果数据的回调,进而产出对比报告。

大盘看板

Koopa/Saf 对大盘数据做了监控展示,通过任务看板来看到每天任务的执行数量以及任务的执行情况,从而可以及时发现异常。

设备驱动

通过 libmobiledevice 对设备进行控制,如卸载安装 ipa 等操作,然后通过 WDA 来对测试设备进行控制来运行测试用例。

ipa 重签名

通过用开发证书对 ipa 进行重签名来绕过统一描述文件的步骤,避免人工干预。并且在这里动态注册 device ID,做到安装 app 自动化。

测试用例

自动化框架设计上主要参考了腾讯的 QTA 测试框架,在用例维护成本上有过一些实践,可以不需要使用传统的 python 脚本而通过录制来生成测试用例。

弹框处理

以往通过修改测试用例来应对新增的弹框成本较大,主要问题在于弹框出现的时机,重叠且顺序不确定。Koopa 自研了一套 AI 识别方案,通过图像识别技术来对屏幕中的各种弹窗进进行处理,大大节约了用例维护成本。

防劣化的流程与手段

防劣化的主要流程归结为:

  1. 明确指标,配置阈值;
  2. 产出报告,发现劣化;
  3. 劣化归因,定位问题;
  4. 问题修复,及时合入;

首先可以对一些性能指标参数设定一定的阀值。同样可以通过自定义接口,来判断每个指标或者是指标之间的关系。

定位劣化的手段主要是通过火焰图和 bytrace diff,相对来说火焰图比较直观,问题肉眼可见。 通过 hook iOS 中的 objc_msgSend 或者其他性能分析工具来找出发生劣化所相应的方法,从而进行修复。防劣化的机制主要有:

Daily check

每天定时跑相应的脚本,通过每天的 build 版本和 alpha 版本或者上一个 alpha 版本的数据对比,主要用于检测灰度期间新引入的劣化。

Pipeline 二分查找

在 pipline 中对 commit 出包和基准包的数据进行对比,并将结果通知到所对应的人员。针对多仓 MR,只监控相关业务仓库有无变更。

AB测试

新的业务需求在新功能放量上往往会有 AB,在需要进行 AB 测试的地方对分别开启 A/B 功能的版本和基准包数据进行对比,从而发现 AB 特定 value 下的劣化。

版本测试

由于 pipeline 测试对比有个阈值,这个阈值不能太小,不然误报率会很高。所以针对轻微的劣化需要用别的策略去拦截。对同一台设备上对不同的版本进行数据对比,来测试版本之间可能存在的微小的劣化。

劣化归因

Signpost

寻找劣化的原因最简单的是使用 Instruments 中的 time profile 结合 Signpost ,这主要是用于手动去定位到所产生劣化的对应的地方。这个方式主要的问题就是操作繁琐,电脑不能太差,而且需要新增一部分代码。

Hook objc_msgSend

通过 hook oc 中的 objc_msgSend 函数来生成火焰图,来找到对应产生劣化的方法,此方法主要问题是侵入性较强,只能适用于 OC 的方法,而且 hook 本身会增加方法的耗时,会影响异步回调。

ByTrace

bytrace 是字节 test infra 自研的性能检测工具,能够跑出单个任务的火焰图,也支持 2 个任务的 diff,Koopa 已经接入使用,技术原理主要是通过逆向 Instruments 工具,监听手机 lockdown 进程来在拿到测试机的性能数据。相比 hook 的优势在于无侵入而且数据精确。

提升服务稳定性

硬件的提升

对 Mac 中 CPU、内存、磁盘进行监控,通过压力测试将一台 Mac 上挂载的测试机控制在10台左右。对测试机的健康状态进行监控,合理分配任务。对错误码进行分段,如果某类错误,及时接入。对 job 增加重试机制。

成功率提升

增加测试设备稳定性,定期对测试设备进行重启。自动点击系统弹窗,并通过 AI 识别来处理一部分弹窗。对登录进行自动化,对测试账号加入白名单。

指标波动治理

通过 Mock 来保证每次任务中数据的一致性。对指标进一步细化,并且剔除数据的异常值。对业务架构进行优化,对埋点进行进一步优化。下面主要通过三个具体的例子来看如何对业务进行优化的:

业务架构改进

我们对组件化方案做了优化,通过调整各种不同的组件的加载顺序,延迟加载比如将一些非必要的组件放到首帧滞后来进行加载,以及懒加载部分业务组件和插件,从而加速首帧渲染绘制。

Camera首帧

通过将 GL IO 和 PROCESS 之间的一些操作进行延迟或者异步,减少主线程所占用的时间从而减轻 CPU 的压力。

Player首帧

将贴纸、特效按需加载,解码时机提前,不依赖 AVPlayerItem 的状态,修改 FFMPEG 源码绕过软解,通过 Timer 驱动渲染。不过这些手段在高端机中只有修改 FFMPEG 会产生明显的正面影响,其他影响较小,在低端机上效果明显。

更多

防劣化定位问题的技术手段有很多,这里没有提到插桩,原因是其他使用插桩方案的团队遇到的问题是精度有限,我们也还在调研当中。防劣化只是 Koopa 的部分能力,在其他方向的自动化上我们也有一些尝试,比如 MR AI 随机稳定性测试,埋点验证,多媒体 SDK 性能防劣化,特效功能验证,安全自动化,专项测试等等。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8