当通用优化已完成,我们应该做什么? --- 飞书文档移动端优化实践

483次阅读  |  发布于3年以前

背景

去年下半年业务高速迭代,大量新 feature 上线,但同时带来的问题是首屏耗时数据日渐上涨,同学们纷纷表示"移动端文档打开越来越慢,太影响工作效率了"。

于是去年年底我做了下优化:

视频 1 视频 2

线上用户数据:

可见,无论是用户体验还是指标数据都有了明显的优化。

是不是我有神秘的魔法?并没有,甚至可以说魔法已经用完了。为什么这么说呢?我们先看飞书文档移动端(以下简称为 Doc )的现状:

1 . **业界公认有效的通用优化基本已经完成。**在大部分场景都可以实现:

2 . **业务复杂。**经历了 4 年迭代的大型前端项目,历史问题多。 3 . **文档应用的业务特点导致优化困难。**文档应用内容由用户自定义,因此影响打开性能的因素非常多,如长度、内容、设备性能、网络情况、用户使用习惯等等。

第一条和第三条叠加特别致命,意味着只能根据文档应用的特点做优化,而且这样的针对性优化还存在困难且没有现成的经验,那么优化项的效果难以衡量。此外还有一个难题:不能做大型技术改造,原因是 PC 与移动端存在代码复用,改造成本过高,人力上不允许。

那么摆在我面前的任务便是:在不影响质量的前提下,用尽可能少的代码量优化性能。那么工作的重点是:寻找优化项安全地做优化。

怎么找有效的优化项?

做性能优化时,找优化项才是最难的,解决问题反而比较简单。

前置步骤:我该优化哪里?

在找优化前,我们首先要知道自己要优化什么。而上手业务最快的方式是画图:如图为 Doc 的打开流程:

那可以哪一个流程是可以被优化的呢?在回答这个问题前,我们先看看前人为 Doc 做了什么优化。

我们在前面说过,大多数场景下, Doc 可以做到:

因此优化空间相对较大的节点只有如下图绿框所示中的一小块,而且这一小块也已存在大量优化。

还记得上面说的吗?我的人力只允许我做较小的优化,那么问题就转换为:

我们下面开始介绍如何解决这两个问题。

1 . 科学分析

我司对外的主要印象是:数据推动决策。那么,可以让数据驱动性能优化吗?这肯定可以的。

比如,某天我突然想到一个 idea:“文档内容非常丰富,针对内容进行优化?”,但是怎么验证这个想法是否靠谱呢?

首先是找数据,通过 Tea (Toutiao Event Analyze) ,我找到了文档打开耗时与各因素的关系:文档大小,block 类型,用户设备性能变化,缓存预加载比例,Webview 预加载比例等等。

但问题也来了:茫茫数据的海洋里,能猜想出无数的优化点,哪个优化点是有效的?可以分成两步:

分析一下

面对茫茫数据海洋,我选择两个符合直觉的线索进行分析:

文档长度

"打开 PV 的文档长度分布"与"不同长度文档的打开耗时"

可以看出:

分析收益

如果大文档耗时可以优化掉 500ms,这样大盘数据的平均耗时可降低 50ms(500ms*10%),看起来变化并不太明显。而且这个目标几乎是不可能的,因为由图中数据可以看出,降低 500ms 意味着耗时比中小文档还要小。

结论

优化大文档成本高,而且耗时优化少,ROI 低。

文档内容

Doc 有很多 block,比如 Table,@人名,Sheet,文件卡片,图片等等。这些 block 也会影响首屏性能。

遗憾的是,由于设计埋点时缺少考虑,我们没法直观地通过 TEA 分析各类型 block 对首屏耗时的影响。

我们换个角度,收集数据:

虽然无法完全确定优化效果,但分析下来是一个非常值得尝试的点。那就来到了下一步:

试一试

我花了点时间进行优化,将 Table 在首屏的渲染耗时降为原来 50%,上线后观察大盘数据:

大盘前端平均耗时下降了 100ms。因此说明:优化渗透率超过 30% 的 block 是个比较有效的点。

那么类似的 block 有哪些呢?

这样后续的优化计划便可以开始制定了,而且优化效果可预测,项目风险低。

2 . 数据挖掘

通过上述章节的方法能解决大多数用户的问题,但 Doc 作为一个 toB 应用,P99 用户的性能也是我们关注的重点,我们需要更细粒度的分析方法来解决这部分用户的问题,我们应该怎么做呢?

我们先举个例子,在文档这一场景,我们凭经验可以推断出:

那如果有一批线上用户的打开耗时违反了上面的经验呢?新的优化点!

但这里有两个问题:

通过 TEA 我们能找到可以筛选出"使用高端手机且打开文档耗时较长"的用户 id。

而分析问题,则需要使用日志。

日志

首先,怎么记录日志呢?

追查首屏性能至少需要以下信息:

**注意:**不能在日志中收集用户隐私,文档内容,作者信息等都是信息红线。

分析问题

大多数情况下都可以通过复现来解决:

  1. 制作一篇与日志内描述的内容差不多的文档;
  2. bytest (内部云真机平台) 上找一台性能差不多的手机打开该文档。

大多数情况下都可以找到问题,前提是需要:

可能有人会问:为什么不直接请求用户协助?如前面所说,日志收集的信息非常有限,而且通过日志定位用户是违规的。

那么,通过上面两种方法就能搞定优化了?还有更追求极致的方法吗?

3 . 聚沙成塔

思考一个灵魂问题:

10ms 的优化有没有意义?

下图是 Doc 打开流程的的 performance trace,火焰图最下方非常细碎(<10ms),简单看没有发现明显性能问题。难道要把每个细碎的小块都要看一遍?一个个优化掉?

对,真要一个个看。这就是 Doc 性能现状之一,性能优化需要 10ms,10ms 地啃回来的。那问题是:

这样工作量也太大了吧?

确实很大,而且最可怕的是,做完不一定有用。同时,追求极致不等于不计成本,我们需要聪明一点。那么,如何区分一个 10ms 的价值?

还是**利用**数据! 我们简单分析一下:

再考虑下:

10 个高 ROI 的 10ms 优化有意义吗?

这意味着首屏平均耗时降低 100ms,在现在的 Doc 中已经非常可观的优化了,可谓是“聚沙成塔”。

怎么安全地做优化

Doc 有很多问题:

那么如何优化性能且不影响质量呢?

质量保障机制

Doc 的质量保障机制:

质量保障机制很重要,但每个团队都不一样,这里我就不详细说了。

分析修改的影响范围

但这只适合影响范围较小的代码,如果影响范围不明呢?这里介绍几种方法。

相对安全的修改

延后渲染

Doc 每块内容都相对独立,延后渲染(懒加载)不存在风险,但需要注意:同步代码改为异步代码除外。

他懒我也懒

如果某段逻辑是已经异步的,那执行实际再延后一点也是安全的,举个例子:

async function  init() {
    await import('./code');
    longTask();
}

init 发生在首屏,由于移动端 Doc 的机制,前端代码都在本地,所以 longTask 会在当前任务的下个微任务执行,即会阻塞首屏。

longTask 能不能延迟都首屏后执行?

我们分析一下:

因此可以这么修改:

async function  init() {
    await import('./code');
    await sleep(500);
    longTask();
}

增加 sleep 让 longTask 延后到首屏后执行。

危险的修改怎么办

有时候明明觉得自己的优化可行,收益也不错,但碍于影响范围没法估计,保证质量的信心不够,但不上线又有点不甘心该怎么办?

可以通过以下方法提高保证质量:

总结

这篇文档我们介绍了 Doc 移动端的优化方法。以数据与事实为基础分析出高 ROI 优化项,以实现在"通用优化"已完成后的进一步优化。此外还介绍了如何在历史问题繁多,业务复杂的文档中保证优化项实现的质量。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8