3、数仓为什么要分层?
3.1、清晰数据结构:每一个数据都有对应的作用域,方便定位和理解
3.2、数据血缘回溯:快速准确定位问题,清楚那个数据集市或者应用层的问题
3.3、减少重复开发:规范数据分层,开发公用层中间层数据,减少重复计算
3.4、复杂问题简单化:将一个复杂的任务分解为多个步骤,每一层只处理单个步骤!便于维护数据的准确性,当数据出现问题,不用修复所有的数据
3.5、屏蔽原始数据的异常:真实的底层数据和统计分析数据解耦
3.6、屏蔽业务的影响:不必改一次业务就需要重新接入数据
4、实际生产中对于实时数仓是如何做数据质量管理的,如果同一指标离线与实时计算结果不一致,该怎么处理?
实时数据质量监控
在实时数仓中,我们主要