数字化时代,不少企业开始数字化转型,开始收集整理数据,但在使用途中,通常会发生数据泄露,安全没办法得到保障;数字管理混乱,查找困难,无效失效数据偏多;数据流程复杂,流程不畅,无法有效赋能业务。
这些问题本质,都是元数据管理不善引起的,这时候企业的数据不仅不能变成数字资产,反而变成数据负债。
这篇文章,我们就重点学习一下元数据管理,带大家从0到1,了解元数据起源,概念,分类,元数据管理步骤,以及在数据治理方面的应用体系。
一、什么是元数据?
1.元数据起源
元数据,英文名叫meta,起源于年,用来表明更加抽象的事。元数据,在历史上被称为图书馆目录信息。
公司的数据可以看作图书馆的书籍,我们管理公司数据类似于管理一个大的图书馆。
现实生活中,我们需要通过书籍分类区域,书名,简介,作者,出版社,出版时间等信息,对书籍进行排序归类;新增书籍,减少书籍,借书还书,均需要记录,以保证书籍易查找,不会丢失。
同理,企业想要管理数据,则和我们管理图书馆类似,必须对数据进行分类,定义,创建数据处理流程,保障数据的安全隐私,监督数据流通等,这些问题都是属于元数据管理的范畴。
2.元数据概念
那么何为元数据呢?元数据,官方定义,是关于数据的组织,数据域及其关系的信息。简单来说,元数据是对潜在信息的信息,是关于数据的更高层次抽象,是对数据的描述。
比如我们通过简历了解一个人,需要用姓名,性别,民族,年龄,身份证号,职业等方向来描述一个人。姓名,性别,民族这些,就是描述一个人的元数据。如果没有这些元数据,我们就无法了解区分这个人。
同理,对于数字18,我们可以理解为成交了18个单子?产品重量18公斤?产品运货时间18天?还是部门有18个人?这个数值具体代表什么,含义不清楚。
我们发现,如果没有数据的类型,名称,数据关系这些元数据管理,那么数据无法被组织有效准确理解分析,数据价值无法发挥,数据反而变成组织的数据负债。
所以,元数据,是发挥数据价值的前提,是数据治理的基石!
3.元数据管理不善常见问题
很多企业,因元数据管理不善,易发生以下3个问题:
(1)组织存在冗余的数据和数据管理流程
比如企业没有对用户数据进行更新分类删减,导致很多无效用户数据一直占用企业资源;没有合理的数据管理流程,产品部想了解销售数据,但数据流程繁琐,导致组织效率降低,
(2)数据来龙去脉不清晰
当业务部门发现数据错误时,无法发现数据的源头在哪里,数据流通引发的结果在哪里,无法快速解决问题。
(3)数据安全,数据隐私等问题发生频繁
部门和个人访问权限,访问流程不清楚,追责机制不清晰,易导致公司机密信息泄露,引发数据安全问题。
二、元数据分类和管理目标
1.元数据分类
根据元数据的来源渠道,我们通常把元数据分为3类,分别是业务元数据,操作元数据,技术元数据。
(1)业务元数据
业务元数据,指的是描述业务含义,业务规则等,让人更好理解和使用的元数据,为后续的数据分析和应用提供支撑。
常见的业务元数据有:
术语名称,定义,缩写,计算口径
数据概念模型和逻辑模型
数据血缘和影响分析
数据的安全或敏感级别
业务规则引擎的规则,数据质量检测规则,数据挖掘算法
(2)技术元数据
技术元数据,指的是对数据结构化,方便数据库对数据进行识别,存储,传输和交换的元数据。
技术元数据,可以帮助开发人员明确数据存储和结构,为应用开发奠定基础,也可以让业务人员,快速了解数据的来龙去脉,支持数据血缘追溯和影响分析。
常见的技术元数据有:
物理数据库名称,列名称,列属性,备注,约束信息等
数据存储类型,位置,数据存储文件格式或数据压缩类型等
数据访问权限,组和角色
字段级血缘关系,ETL抽取加载转换信息
调度依赖关系,进度和数据更新频率
(3)操作元数据
操作元数据,是描述数据的操作管理属性,它可以明确数据管理的部门,责任人,使用者,数据责任明晰,为数据安全管理奠定了基础。
常见的操作元数据有:
数据所有者,使用者
数据访问方式,访问时间,访问限制
数据处理作业的结果,系统执行日志
数据备份,归档人,归档时间
2.元数据管理目标
通过对元数据进行分类,我们搭建出元数据管理体系,就可以处理企业组织海量数据,明确其位置,具体含义,流通方向,访问记录等,对数据有一个系统的管理。
企业建立元数据管理系统,主要为实现以下3个目标:
(1)搭建业务术语知识体系,赋予数据意义,实现数据知识信息共享
元数据管理系统对各种数据,通过业务,技术,操作3个方面,进行分类和定义,赋予意义,让使用者均看得懂。
(2)提高数据整合和溯源能力
元数据管理系统对所有的关键数据,进行系统整合和处理,用户可以通过元数据管理系统对数据追本溯源,了解业务处理规则,数据流通情况等。
(3)建立数据质量稽核体系
元数据管理系统通过建立筛选,核实,管理,报警,监控的机制,为数据质量和安全保驾护航,企业再也不用担心发生数据泄露,数据隐私等问题。
三、元数据管理5大步骤
我们已经知道了元数据既然这么重要,那么一个企业,应该如何从0到1搭建元数据管理体系呢?主要有5个步骤。
元数据管理步骤流程图
1.定义元数据战略
第一步,定义元数据战略。企业需要启动元数据战略计划,把关键利益相关方和部门都参与进来,评估现有的元数据资源和信息架构,对关键员工重点访谈,制定合理的战略目标。
管理层要优化和确认未来愿景,开发可以满足管理现阶段的元数据环境长期目标的元数据架构,最后发布元数据战略,制定阶段目标,以及具体的实施路径。
2.理解元数据需求
第二步,是理解元数据需求。元数据管理解决方案,需要由功能需求点满足。
元数据具体功能需求点,有更新频次,同步情况,历史信息,访问权限,存储结构,继承要求,运维要求,管理要求,质量要求和安全要求。企业根据实际情况,按照以下需求方向做,可搭建出一个数据管理体系。
3.定义元数据架构
第三步,定义元数据架构。元数据管理系统,需要对数据进行采集,流通,存储和处理,对数据的处理需要数据架构支撑。
元数据架构,通常分为3类,包括集中式,分布式和混合式,不同技术框架满足不同情境需求,企业根据自身情况因地制宜选择。
(1)集中式架构
集中式架构,指的是有一个集中的元数据系统,可以接收来自各个渠道的元数据,集中加工处理给其他场景提供服务。类似于我们自己做饭,自己买菜,统一处理加工,能够保证饭菜质量。
集中式架构优点是元数据统一管理,增强了数据统一性和一致性,提高了元数据质量,有利于元数据标准化统一管理和应用。缺点是,系统需要保证自身存储和其他元数据的一致性,需要处理大量数据,增加了流程处理复杂度和工作量。
(2)分布式架构
分布式架构,没有自己的元数据存储,使用的时候,直接查询其他数据源的元数据。类似于我们自己不做饭,想吃什么,就去相应的饭店,虽然简单方便,但无法保证饭店饭菜质量。
分布式架构的优点是,元数据总能保持最新且有效,查询简单;缺点则是统一性无法保证,各个数据源没有经过整合和标准化,且查询能力受限于元数据系统的可用性影响。
(3)混合式架构
混合式架构,是一种折中式方案,元数据从数据源进入存储存储库,但存储库设计只考虑用户新增加的,高度标准化以及手工获取的元数据。
混合式数据架构只存储经过特定处理的元数据,可以缩短系统处理流程,减少工作量,保证元数据的质量和一致性,同时也能保证元数据最新且有效状态,查询简单。
这三类架构各有千秋,但为了更好发挥数据价值,就需要对元数据标准化、集中整合化、统一化管理,如果企业做功能较为完善的数据资产管理平台可采用集中式元数据架构。
4.创建和维护元数据
第四步,则是创建和维护元数据。数据系统,要从企业范围内梳理和整合元数据,把技术元数据,与业务,流程和管理元数据集成在一起,使元数据处理变得规范统一,方便理解和分析。
5.查询,报告和分析元数据
第五步,是查询,报告和分析元数据。元数据是一个宝贵的资产,可以用于商务智能BI,商业决策方向。
元数据存储库,应具有前端应用程序,并支持查询和获取功能,从而满足以上各类数据资产管理的需求。
四、元数据应用
1.数据资产地图
数据资产地图,是按数据域对企业数据资源进行盘点和分类,由元数据字典自动生成的企业数据资产的全景地图。
数据资产地图可以告诉我们,企业有哪些数据,如何找到数据,可以用数据干什么。通常情况下,数据资产地图,用可视化方式展示各类元数据和数据处理过程,满足不同业务分析需求。
2.元数据血缘关系
元数据血缘关系,指的是不同数据之间的联系。当我们发现一个下游的错误数据,可以通过血缘关系追本溯源,快速找到上游的数据来源,了解数据处理过程,找到数据错误的原因。
3.元数据影响度分析
元数据影响度分析,可以告诉我们数据去了哪里,经过哪些加工和处理,哪些应用,数据库,或者部门使用了这个数据。
当数据出现问题的时候,可以迅速了解错误数据的传播链条,产生了什么影响,快速解决错误数据导致的错误结果。
血缘关系,是数据遇到问题,向上找问题,在乎的是数据错误导致的原因;而影响度分析,是数据出现问题,快速找到错误数据影响的业务和部门,在乎的是数据错误的导致结果。
五、小结
元数据管理如此重要,是企业数据治理的前提,而管理元数据需要一个元数据平台。亿信华辰睿治产品,可以提供元数据采集,访问,管理,分析等全流程,已服务上千家政企用户。
睿治产品后台
亿信华辰睿治数据治理平台的元数据管理模块提供了丰富的元数据分析功能,包括血缘分析、影响分析、全链分析、关联度分析、属性值差异分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确的对数据资产进行清理、维护与使用!