数据仓库是大数据技术应用的重要体现方式之一,而今天我们就通过案例分析来了解一下,数据仓库开发架构包含哪些层次。
数据仓库主要分为STG、ODS、DWD、DWS、ADS和DIM共6个层次,数据从底层开始,向上层进行传递、转换、重组等操作,可以理解为,根据数据分析业务的需要,对原有的OLAP多维数据,进行维度和指标的重新组合。层次的具体描述如下:
STG原始数据层:用来表示原始数据在数据仓库的落地,数据结构和原始系统发送上来的保持一致。
ODS数据操作层:用于原始数据在数据平台的落地。数据从数据结构、数据之间的逻辑关系上都与原始数据层基本保持一致。在源数据装入这一层时,要进行诸如业务字段提取或去掉不用字段、脏数据处理等等。
DWD数据明细层:用于源系统数据在数据平台中的永久存储。它用以支撑DWS层和ADS层无法覆盖的需求,比如像用户购买详单类业务需求。这一层主要解决一些数据质量问题和数据的完整度问题。
DWS数据服务层:数据汇总层,该层会在DWD层的数据基础上。对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。按照业务划分,如流量、产品、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
ADS应用数据层:该层存放数据产品个性化的统计指标数据,一般以某个业务应用为出发点进行建设,ADS层只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用。面向实际的业务数据需求,以DWD或者DWS层的数据为基础,组成各种统计报表。
DIM维度层:主要存储公共的属性数据,比如产品类别、地理位置、时间详情等信息。综上所述,数据仓库建设的主要工作,就是对原始业务数据进行汇聚,进行分层次的数据处理,生成业务需要的数据,提供给前端业务使用。