数据结构论坛

首页 » 分类 » 问答 » 爱奇艺杜益凡数据口径多,埋点质量低,难治
TUhjnbcbe - 2023/8/8 21:08:00
治疗白癜风那最好 https://yyk.39.net/bj/zhuanke/89ac7.html

分享嘉宾:杜益凡爱奇艺高级经理

编辑整理:甘雨鑫上海财经大学

出品平台:DataFunTalk

导读:本次分享题目为爱奇艺数据中台的数据治理实践,希望能给大家在数据治理相关的工作中提供参考。主要介绍:

爱奇艺数据中台简介

数据治理

生产治理

后续规划

01

爱奇艺数据中台简介

爱奇艺从最初的单一视频网站发展至今,业务早已不仅只有视频业务。现已涵盖了内容生态的多种业务,以及内容相关的周边业务。随着业务变得越来越复杂多样,数据对于平时的运营和决策也变得越来越重要。

1.为什么要建设数据中台做数据治理

在平时的数据工作中,我们遇到了如下问题:

接入成本高:新业务或新场景所需数据要人工申请资源权限、采集、计算、同步、展示等。这个过程耗时长、效率低、易出错。

使用门槛高:在一些数据工作中,需要人员有专业的数据基础能力。

埋点质量低:埋点投递缺少标准化和流程管控的机制,导致埋点数据质量差。

数据可靠性低:数据不可靠会降低生产过程中业务的数据分析效率,最终对业务决策造成严重的影响。不仅会使数据链路过程很长,还会引入很多数据质量、生产时间延迟的问题,直接影响后续核心报表、推荐模型的优化。

跨业务难度大:缺少统一的数据建设规划、标准和规范,数据链路和数据生产的环节很难有一个标准化的过程。导致多个业务的数据难以融合,难以获取更大的数据价值,造成数据获取难度提高。

口径不一致:在使用过程中,各业务定义的计算口径不一致,导致数据使用和分析上的差异,降低业务数据分析的效果和效率,进而对业务决策造成比较严重的影响。

数据资产模糊:未对公司的数据资产做整体管理时,会导致对数据资产的级别及类型模糊,从而难以发挥数据的优势。

资源成本高:耗费了很多计算、存储、人力资源,却未带来相应的价值,导致资源的浪费。

2.爱奇艺数据流向

以埋点数据(Pingback)为主的各种数据源,经过数据层的收集,到Hadoop集群或实时的Kafka流中。再经过实时或离线的处理形成各种各样的数据表或实时数据,被下游的各种数据服务和数据应用所使用。

这张数据流向图是我们在建立了数据中台后,经过了一系列的数据治理,形成的一套较好的数据流向,其中已经涵盖了数据中台各个组成部分的支持,也运用了整体数据治理的能力。

在这套数据治理体系搭建完成之前,每个团队都负责其业务线的数据处理、报表开发、数据分析及模型处理。这种模式在单个体系类问题不大,但如果最终要输出并给横向的团队使用,比如做整体的推荐、运营、用户画像时,由于每个团队或业务线所覆盖的业务场景不一样,所以每个团队在处理数据的能力和标准也不一样,这样输出数据的质量和口径也就参差不齐,就会导致下游使用时各方面成本急剧增加。特别是当业务快速发展到一定程度时,问题就会显露出来。因此,建立数据中台对数据进行治理势在必行。

3.爱奇艺数据中台的组成

上图展示的是我们数据中台大致的组成。中台建设完成后,我们在组织架构上需要一个团队支撑,把数据的通用能力抽象出来,并且统一维护这套通用能力,把通用能力附加在每一条业务线上,把每条业务线及其输出的数据做一套标准化、流程化的数据体系,提供给下游使用。中台化让下游应用效率和口径有明显的提升。我们做中台化的建设目标就是避免烟囱式和重复建设,实现抽象通用的公用能力。在此背景下,我们有一项重要的工作就是提供标准和规范,让大家以统一的标准去开展工作,这样的标准化流程产出的数据或其它技术能力可以快速复用。

再回到这张图上,我们数据中台最底层的是统一的云服务,包括了大数据平台(最底层的Hadoop,Spark基础服务)、调度引擎(对资源进行统一调配,对工作流进行统一调度使用)。在此基础上,建立了统一数据生产/接入,包含数据源的管理服务、离线采集、实时采集,以及对来自各数据源的数据进行数据集成。同时提供了统一的数据开发平台Babel,在这个平台中可以对数据的离线处理进行开发,以及对数据的实时处理进行流计算的开发。在此基础上引入了AI能力,将AI算法进行包装,提供统一接入的AI开发平台。在统一数据接入和开发之上,形成了统一数据层,其主要提供数据湖和数据仓库。对于不需要建设数据仓库的比较离散的数据,比如QOS,还有自定义的埋点,将其放在数据湖中供业务使用。对于需要进行业务数据建模,形成整体数据仓库体系的数据,会对其进行统一的建模和ETL处理,形成统一的数据仓库。在统一数据层的基础上建立了统一数据服务,为业务前台提供规范化和配置化的API服务,还包括元数据的服务(提供数据资产的元数据服务能力,便于业务前台进行集成)、推理服务(可自动化发布在线推理服务,实现AI的全托管能力)。在这些模块的基础上,就可以进行统一的数据治理,主要

1
查看完整版本: 爱奇艺杜益凡数据口径多,埋点质量低,难治