数据盘点的解决方案是为了完成数据准备的环节,帮助企业搭建良好的大数据平台,并帮助后期的数据应用快速引入需要的数据,从而实现数据应用的快速建设。但是数据准备也是需要仔细规划设计其具体步骤和过程才能获得最佳效果。
具体而言,由于企业IT系统的多样性(一个单一企业可能用后数十甚至数百个不同的IT系统),如果一次性都进行梳理和调研,将在前期准备过程花费大量时间且迟迟见不到最终的效果(赛迪智库的调研分析发现,大数据项目中有80%的时间都花在了数据准备阶段)。但是不做数据的基础梳理和调研又无法真正实现后续对数据的利用和数据价值的挖掘。
最佳的实践方式是——“小步快跑”。用书面一点的语言就是快速迭代。什么意思呢?一个全企业范围的数据梳理可能跨度能够达到数年甚至10年以上,但是过去的一些数据应用建设,没有用这么长的时间也实现了基本的数据应用建设,所以初期的数据准备并不需要把所有的系统、所有的数据都整理之后才能建设应用。但是由于过去建设数据应用的时候往往没有从企业一盘棋的角度,没有一个盘点或数据资源系统对应,仅仅建设了数据应用,在该应用建设过程中的数据准备环节的成果往往在该应用建设完成后就被冰封了,得不到复用,导致其付出回报低。通过数据盘点或数据资源系统的建设,能够有效保留这个过程的成果,供后续其他应用建设使用,则能获得更好的投入产出。
具体来讲建议的步骤如下:
通过技术层面的汇聚能力先完成数据的汇聚。如果不进行深入的数据梳理和业务含义的定义,这个过程可以很快。采用的方式不仅仅能够帮助对数据实时同步更新,保持这个原生数据融合库与主生产系统数据的一致性,还能感知到两端数据结构的差异,通过这个过程了解到主生产系统的升级变化(理论上这个过程应该通过组织管理的手段来实现,但是过去的经验告诉我们很少有应用开发商能够非常有计划的进行应用系统的升级,那么通过组织管理的方式往往是应用升级了很多次,但是下游的数据消费方仍然不知道。导致的结果可能是数据的不准确,或者突然的数据断供),在了解了变化的基础上能够让数据梳理不干扰影响主生产系统的情况下来完成。
建立长效的数据标准委员会。该委员会不需要通过短期项目的方式集中完成数据标准的制订,但是应该基于数据盘点系统的成果,定期完成数据状态与标准的回顾。这里形成的数据标准应该用于主题融合库的数据结构管理,逐步形成主题数据的标准,该标准可以成为指导新应用建设、从大数据的数据供给服务中获取数据的指导。通过数据供给服务版本的管理能够在兼容已有的数据服务供给情况下不断升级服务能力。
通过对数据服务的在线统计能力来分析数据服务的使用情况,对已经建立的数据服务进行评价,能够帮助数据平台的管理者重新审视数据汇聚、业务术语定义以及后续数据供给服务的情况,修订之前的建设策略。