idlecenter是闲鱼服务端元老级应用,在2013年6月idlecenter写下了第一行代码,随后陪伴闲鱼走过了8年的时间。
随着闲鱼业务规模的不断庞大,业务复杂度的不断增加,idlecenter逐渐暴露出一些问题:
直接引发的影响是研发效率:多个团队几十个研发共同维护上百个业务,每次发布都会有十几个分支,每增加一个分支,都会面临代码冲突的风险。据统计一次应用发布构建加部署需要半个小时,分支冲突解决需要二十分钟,严重影响开发效率。
长远影响:
为了解决idlecenter的各种问题,我们从7月份开始对idlecenter进行拆分迁移。到目前我们idlecenter整体迁移进度过半,人力投入成本不到20d,迁移零故障。
本文把我们这次迁移的思路和实践经验沉淀下来,希望能为做应用迁移的同学提供一些思路。
迁移总体分为两个部分:
在开发期的代码迁移环节,我们需要思考的问题是:
这里我们沉淀了关于代码迁移的普适性原则:
明确迁移的边界,这里的边界包含两个部分:迁移方案的局限性、迁移粒度
明确迁移方案的局限性,明确支持迁移的服务与不支持迁移的服务。例如在我们这次迁移过程中,明确了对消费端服务RPC框架版本的要求,明确了不支持消息的迁移。在做迁移服务梳理的时候,我们就需要初步识别并择出这部分边界外的服务,在代码迁移过程中,也要留意是否有遗漏的没有排除干净的服务。
明确迁移粒度,固定迁移的粒度后能够将应用垂直进行拆解,合理规划应用拆分后的边界。例如在我们方案中,迁移明确的以RPC服务为粒度,做迁移梳理时每个迁移模块的都是一个垂直的RPC服务,每个RPC服务的归属领域清晰,同时迁移方案调研时能明确的从RPC服务出发,来输出一个横向解决所有RPC服务迁移的解决方案。
关注拆分本身,迁移过程保持新老应用代码的一致性,需要做到:
不做代码重构。代码迁移过程也是一次代码review过程,中间或许会发现以前写的代码不优雅不简洁,或有设计缺陷,这时我们应该做的是保持代码的一致性。线上运行的代码往往有QA的测试用例与回归验证覆盖,保证风险收敛在可控的范围内。而迁移过程的每一行代码变更,都有可能成为逃逸在测试用例与回归验证外的“地雷”。
不夹带私货。这与不做代码重构略有重叠,说的是代码迁移过程要干净,杜绝在代码迁移过程中顺带实现额外的业务逻辑,做“功能拓展”。
要迁的干净,代码迁移不仅包含应用内的代码,还需要关注应用外的与应用绑定的配置与逻辑:
中间件相关配置:例如应用上的RPC框架配置,数据库中间件配置,开关配置,配置中心的配置等都需要关注是否和应用绑定,在代码迁移的时候也要将相关配置迁出
中台相关配置:例如闲鱼可能依赖了关键词过滤中台,将代码迁移过程,也需要迁移中台相关配置,为新应用配置中台权限。
在运行期的流量迁移环节,我们主要考虑的两个问题是:
太高昂的迁移成本会为迁移项目的推进增加很多阻力,因此在方案调研阶段,需要关注迁移成本问题。我们在方案调研阶段明确了目标:
最终我们设计了基于HSF路由功能的平迁方案。
HSF全称High-Speed Service Framework, 是一个集团内的RPC框架。直接对标的产品是Dubbo。其运行机制总体如下:
引用自hsf-guide文档
涉及核心组件:
我们方案复用了HSF框架中的服务调用路由规则能力。通过路由规则介入服务消费方的选址逻辑,完成服务提供方的流量迁移。
基于HSF的平迁方案,我们实现了:
最终体现在人力成本上的结果是:迁移成本降到最低,一个人一个星期可以完成一个服务的迁移上线。
解决了迁移成本的问题后,我们需要解决迁移最重要的问题:稳定性保障。
关于流量迁移过程的稳定性,我们的思路是复用集团内部沉淀的安全生产方法论——安全生产三板斧:可灰度、可观测、可回滚。围绕安全生产三板斧构建稳定性体系。
可灰度实际就是对HSF平迁方案的灰度能力做验证,确保应用在平迁过程中流量分布能符合预期。我们需要考虑的问题有:
其次,我们需要验证HSF平迁方案的可回滚能力:
针对以上待验证点,我们在测试环境做方案POC验证,输出了《HSF平迁方案可行性报告》。简单总结验证结果:
可灰度与可回滚能力解决了发布过程中影响面可控的问题。而可观测性是我们稳定性保障的最后一道屏障。可观测性是否准确细致决定了我们灰度平迁过程能否平稳落地。
在我们实践中可观测性建设分为两个部分:
在稳定性体系的建设下,我们最终实现了迁移零故障的成绩。
最后,要做好应用迁移还有非常重要的一点:做好checklist。提前制定好迁移步骤,切流放量节奏;每次放量时能对影响面有大概量级的评估,在上线前能在测试环境完整演练一遍流程。这里我列出我们程的checklist模板:
迁移确认
RPC框架版本、与路由规则互斥的其他规则
中间件配置、中台配置迁出确认
新应用权限确认
消费端服务消费场景
消费场景、QPS量级
资源评估
监控告警配置
回归策略
应急预案
发布流程
切流时间、切流权重
影响请求量
切流路由规则
Copyright© 2013-2020
All Rights Reserved 京ICP备2023019179号-8