浅谈日志中台不重不丢的实现

368次阅读  |  发布于2年以前

导读:日志数据的生命周期包含日志采集、接入、传输、应用等各个环节。数据的稳定性对于公司报表建设、决策分析、转化策略效果都有至关重要的影响。全文旨在介绍百度日志中台当前的现状,公司内部应用推广情况。尤其在数据准确性的建设上,进行深入的探讨。数据产生到最终业务应用中各个环节的稳定性建设,包括:数据上报时效性优化、接入持久化的思考、数据流式计算过程中的不重不丢建设等。

一 简述

1.1 中台定位

日志中台是针对打点数据的一站式服务,实现打点数据的全生命周期管理,只需简单开发就能快捷完成日志数据采集、传输、管理以及查询分析等功能,适用于产品运营分析、研发性能分析、运维管理等业务场景,帮助APP端、服务端等客户探索数据、挖掘价值、预见未来。

1.2 接入情况

日志中台已覆盖了厂内大多数重点产品,其中包括:百度APP全打点、小程序、矩阵APP等,接入方面收益如下:

1.3 名词解释

客户端:指用户可以直接使用的软件系统,通常部署在用户手机或PC等终端设备上。例如百度APP、小程序等。

服务端:用于响应客户端发起的网络请求的服务,通常部署在云服务器上。

日志中台:此处特指端日志中台,包括端日志全生命周期的能力建设。包括打点SDK / 打点server/ 日志管理平台等核心组件。

打点SDK:负责打点日志的采集、封装、上报等功能。根据不同的日志生产端,分为APP端SDK、H5端SDK,根据场景区分为通用点位SDK、性能SDK、小程序SDK等,用户根据需求可以集成不同的SDK。

打点server:日志接收服务端,是日志中台服务端最核心的模块。

特征/模型服务:日志中台将需要进行策略模型计算的点位信息实时转发给下游<策略推荐中台>。特征/模型服务是<策略推荐中台>的入口模块。

1.4 服务全景图

日志服务主要包括基础层、管理平台、业务数据应用、产品支撑几个层面。围绕着各个层级,在2021.6月,制定&发布了百度客户端日志上报规范。

二、日志中台核心目标

如前文介绍,日志中台承载着百度内所有APP日志打点、站在数据生产的最前沿,在保证功能覆盖全、接入快速&灵活的基础上,面临的最重要核心挑战是数据的准确性。整个数据从产出、日志中台接入处理、下游应用,一切数据质量问题需要日志中台承载。而数据的准确性可以拆解为2部分:

而做到系统层面的近乎100%的不重不丢,需要面临较多的难题。

2.1 日志中台架构

接入日志中台打点数据从端上生产至在线服务到最终(实时/离线)转发至下游,需要经过如下几个环节:

2.2 面临的问题

从上面日志中台架构来看,存在如下问题:

三、不重不丢实现

3.1 数据不丢的理论基础

3.1.1 唯2丢失数据理论

3.1.2 日志中台架构优化方向

数据接入层面:

下游转发层面:

3.2 架构拆解

基于日志中台现状分析,结合日志打点服务的唯2理论,我们针对日志中台对现有架构进行问题拆解和架构重构。

3.2.1 打点server服务拆解(优化接入层数据丢失)

基于以上不重不丢的理论,日志接入层进行了如下几个方面的建设,尽可能做到数据不重不丢。

3.2.1.1 日志优先持久化

日志中台现有的扇出数据,需要优先进行持久化,这是日志接入层基本要求。而实时流方面,在保证业务数据转发分钟级延迟的情况下,要做到数据“尽可能不丢”。

  1. 持久化:接入层在真正业务处理之前,优先将数据持久化处理,“尽可能”先保证数据不丢失。
  2. 实时流:避免直接对接消息队列,优先采用落盘+minos转发消息队列方式,保证数据至多分钟级延迟的情况下,尽量不丢。

3.2.1.2 巨型服务拆解&功能下沉

为降低日志服务过多的功能迭代带来的稳定性风险,同时需要满足下游业务灵活订阅的需求,需要保证日志中台扇出的合理性。我们将在线服务进一步拆解:

因此,将日志服务进一步拆解,如下图所示:

3.2.1.3 流式计算思考

为了保证严格数据流稳定性,需要依赖流式计算架构,在解决数据在业务计算过程中完全的不重不丢同时,满足业务不同场景获取数据的诉求。针对日志中台特点,我们对流式计算处理架构进入如下设计:

3.2.2 打点SDK数据上报优化(解决端上报数据丢失)

客户端打点,因端所处的环境问题,会存在一定的数据丢失风险。尤其当打点调用并发较高时候,数据不可能第一时间全部发送到服务端。因此,客户端需要将业务打点数据暂存本地的数据库,然后异步进行消息发送至服务端,以达到异步发送、优先本地持久化不丢的保证。但是,APP可以在任何情况下退出、卸载,那数据在本地停留越久,对业务数据价值越小,更容易丢失,所以我们需要针对数据上报进行如下方向的优化:

通过客户端发送逻辑不断优化,在时效性上也取得了巨大收益。收敛率双端提升2%+。

四、展望

前文介绍了日志中台服务在打点数据准确性保障方面,做的一些努力。当然,后面我们还会继续深挖系统的风险点,如:

希望,日志中台持续不断优化,为业务准确使用打点数据做出贡献。

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8