在做数据治理战略实施的时候,我们最常听到的一句话是“元数据管理是企业数据治理的基础”,如何进行元数据管理是不同企业在进行全面数字化转型需要考虑的一个重要事情。本文主要探讨一般的企业如何开展元数据管理工作。
WHAT何为元数据
元数据最简单的定义是“描述数据的数据”,是为了描述数据的相关信息而存在的数据,例如记录数据的存储位置、模型定义、生命周期、血缘关系等信息。
但刚接触这个定义,还是不好理解元数据和数据的关系。举两个例子:
如果将图书馆里面的某一本书当作数据,那么所有用来形容这本书的数据比如书名、书的作者、书的所属类别等都是这本书的元数据。
也可以说元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。通过户口本中的元数据,我们不仅能够了解一个人的基本信息,还能够了解其家庭关系。
在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。对于企业而言,元数据是跟企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。
WHY为什么做元数据管理
元数据管理是大数据平台建设的重要组成部分,是企业实现数据资产,资产服务化的重要基础,在数据管理大环境下和数据安全、数据质量、数据架构、数据模型等有着千丝万缕的关系,也是是业务和技术互通的桥梁。因此元数据建设的好坏会对企业整体数据以及管理带来重要的影响。
从功能角度,元数据管理有两个方面的用处:
1、一图在手,天下我有
通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息、数据和人之间的关系信息、数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。
2、追根溯源,发现数据问题本质
企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。
从使用对象的角度,元数据管理对不同人有不同的作用:
1、对技术人员而言,元数据管理平台将分散、存储结构差异大的资源信息进行描述、定位、检索、评估、分析五大操作,以描述和分类的形式实现对信息的格式化,从而为机器处理创造了可能,大大降低了数据治理的人工成本。正因如此,元数据管理已经成为很多大型数据治理项目的基础。
2、对业务人员而言,元数据管理平台通过对业务指标、业务含义、业务规则、取数口径、影响范围等信息进行各方位管控,协助他们快速了解业务相关内容,进行数据资产的管理。
HOW如何搭建元数据管理平台
元数据管理系统的业务需求
元数据对各阶段数据顺利流动具有重要意义,因此建立一个集中管理元数据的系统对于企业数据管理与使用十分必要。针对大数据平台在数据管理方面存在的问题,元数据管理系统存在如下业务需求:
统一定义业务术语和业务指标及其相关关系,解决数据歧义问题;
视图化展示数据资产、数据管理团队及其责任关系;
管理和维护数据源变化、数据流程变更、数据生命周期,实现数据清理和优化;
监控数据使用,统计数据影响,展示数据血缘,控制数据质量;
开放元数据基础数据能力,提供元数据服务支撑。
元数据管理系统的功能设计
基于业务需求,对元数据管理系统的功能模块分为:
元数据获取模块:各阶段元数据的统一收集、存储和输出。包括自动获取和手工获取两部分。
元数据存储模块:包括存储元数据以及元模型。
元数据功能模块:包括元数据基础操作(查询、新增、修改和删除等管理操作)、元数据分析(包括业务指标一致性分析、数据血统分析、数据影响分析等)、元数据权限管理以及元数据服务封装等。
元数据应用模块:包括元数据基础能力开放、报表指标优化清理应用、指标运算关系分析应用等。
元数据管理系统实践探索
亿信华辰元数据管理平台EsPowerMeta是基于B/S架构的软件平台,架构分为5层,数据源层、采集层、数据层、功能层和访问层。下图为亿信华辰元数据管理产品的整体架构图。
△亿信华辰元数据管理平台架构图
数据源层:是指元数据管理平台所支持的元数据来源的方式。提供直连多种不同类型的数据源,包括:数据库类型、ETL类型、文件类型、业务系统类型等。
采集层:针对不同数据源提供丰富的适配器,实现端到端的自动化采集。同时支持适配器扩展,实现最大限度的自动化采集。
数据层:是基于关系数据库的元数据存储,用于实现元数据和元模型的数据的物理存储。元模型存储了元数据的属性要求和存储格式要求。元数据存储了从各个系统中采集而来的元数据信息。
功能层:提供了元数据管理产品的基本功能,包括元模型增删改查及版本发布功能、元数据增删改查及版本管理、元数据变更管理、元数据分析应用、元数据检核以及产品的系统管理功能。
访问层:用于给用户提供访问控制服务。元数据产品面向的主要用户群有三类:技术设计人员、业务分析人员、以及系统的运维人员。通过门户访问和后台访问,可以实现多种角色的访问控制。同时访问层还提供了多种形式的接口服务,可以很方便的与其它IT系统进行集成。
主要功能有:
1、全面的采集适配器
平台内置丰富的适配器,全面保障各类源头的元数据自动化采集,一键采集对接,同时可支持适配器快速扩展。亿信华辰元数据管理平台不仅适配各种数据库、各类ETL、各类数据仓库和报表产品,还适配各类结构化或半结构化数据源。
2、规范的元模型管理
亿信华辰元数据管理平台元模型以MetaObjectFacility(MOF)规范为基础,支持XMI格式的元模型导入和导出,同时内置大量技术元数据、业务元数据的元模型,用户可直接使用。
△元模型查看界面
3、丰富的元数据分析应用
亿信华辰元数据管理平台提供了丰富的分析应用,包括:血缘分析、影响分析、全链分析、关联度分析、属性差异分析、元数据对比分析、重复元数据分析、元数据对比分析、重复元数据分析、同时支持将分析结果进行导出和收藏保存。
△全链分析
4、实时的元数据变更监控
亿信华辰元数据管理平台可实时对元数据变更进行监控,并提供变更订阅功能,将用户关心的元数据的变更情况定期发送到用户邮箱。
△变更查询界面
5、出色的元数据检核机制
亿信华辰元数据管理平台提供元数据质量检核功能,包括一致性检核、属性填充率检核和组合关系检核,是保障元数据质量的重要手段之一。
△自动检核任务
6、其它功能
包括诸如元数据版本管理、元数据检索、元数据的监控、元数据门户等功能,并提供丰富的服务接口支持与外部系统进行交互。
结语:元数据管理可借助工具使管理工作变的相对快速和简单一些,选好工具,是成功的一半。在搭建企业级元数据管理平台时,通常会针对需求并基于基础产品定制开发。因此业务驱动对元数据管理系统的实施十分重要,在具体建设时,可根据需求逐步迭代开发。