企业大数据仓库架构的建设思路 - 数据

TUhjnbcbe - 2023/7/9 20:51:00

「来源:｜企业数字化咨询ID：gh_afd51cd」

须知

后台回复，申请加入资料分享技术交流群

本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性，构建更贴合大数据应用的数据仓库。

总体思路

随着互联网规模不断的扩大，数据也在爆炸式地增长，各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征，该如何构建数据仓库呢？我认为应该从稳定、可信、丰富、透明四个关键词入手。其中，稳定要求数据的产出稳定、有保障；可信意味着数据的质量要足够高；丰富是指数据涵盖的业务面要足够丰富；透明要求数据构成流程体系是透明，让用户放心使用。

我们之所以选择基于大数据平台构建数据仓库，是由大数据平台丰富的特征决定的：

强大的计算和存储能力，使得更扁平化的数据流程设计成为可能，简化计算过程多样的编程接口和框架，丰富了数据加工的手段丰富的数据采集通道，能够实现非结构化数据和半结构化数据的采集各种安全和管理措施，保障了平台的可用性

仓库架构设计原则包括四点：

第一自下而上结合自上而下的方式，保障数据搜集的全面性；

第二高容错性，随着系统耦合度的增加，任何一个系统出现问题都会对数仓服务产生影响，因此在数仓构建时，高容错性是必不可少的因素；

第三数据质量监控需要贯穿整个数据流程，毫不夸张地说，数据质量监控消耗的资源可以等同于数据仓库构建的资源；

第四无需担心数据冗余，充分利用存储换易用。

模型设计

构建数仓的首要步骤就是进行模型设计。

维度莫建模或实体关系建模

常见的模型设计思路包括维度建模和实体关系建模。维度建模实施简单，便于实时数据分析，适用于业务分析报表和BI；实体关系建模结构较复杂，但它便于主体数据打通，适合复杂数据内容的深度挖掘。

每个企业在构建自己数仓时，应该根据业务形态和需求场景选择合适的建模方式。对于应用复杂性企业，可以采用多种建模结合的方式，例如在基础层采用维度建模的方式，让维度更加清晰；中间层采用实体关系建模方式，使得中间层更容易被上层应用使用。

星型模型和雪花模型

除了建模方式之外，在星型模型和雪花模型的选择上也有可能让使用者左右为难。事实上，两种模型是并存的，星型是雪花模型的一种。理论上真实数据的模型都是雪花模型；实际数据仓库中两种模型是并存的。

由于星型模型相对结构简单，我们可以在数据中间层利用数据冗余将雪花模型转换成星型模型，从而有利于数据应用和减少计算资源消耗。

数据分层

在确定建模思路和模型类型之后，下一步的工作是数据分层。数据分层可以使得数据构建体系更加清晰，便于数据使用者快速对数据进行定位；同时数据分层也可以简化数据加工处理流程，降低计算复杂度。

我们常用的数据仓库的数据分层通常分为集市层、中间层、基础数据层上下三层结构。由传统的多层结构减少到上下三层结构的目的是为了压缩整体数据处理流程的长度，同时扁平化的数据处理流程有助于数据质量控制和数据运维。

在上下三层的结构的右侧，我们增加了流式数据，将其添加成数据体系的一部分。这是因为当前的数据应用方向会越来越

数据结构论坛