第四期第2讲
第四期第2讲于年4月30日如期举行,本期讲师是海英人才获得者、瑞风协同技术带头人和首席技术官王可先生。他年毕业于北航计算机专业,在国产工业软件领域持续耕耘30多年,主持和参与了计划、国家支撑计划、国家重点预研计划等十多项重大项目。曾获得省部级科技进步一等奖、二等奖、三等奖等共7项荣誉。重点研究方向包括:产品数据建模、协同设计、几何建模、三维CAD软件、综合保障和系统仿真。在其带领团队进行产品研发和技术规划的同时,还兼任全国标准化技术委员会委员、中国图学学会专业委员会委员。
随着信息技术的不断进步,全世界每天都在产生海量的数据,在数据爆炸式增长的DT时代,各行各业对信息科技的依赖性不断增强,大数据也在支撑企业业务发展中发挥着越来越重要的作用,工业大数据的存储管理、分析挖掘能力将成为未来制造业企业的核心竞争能力。在本期课程中,王总重点分享了大数据技术概述、大数据存储管理技术及应用、大数据分析挖掘技术及应用和大数据技术应用案例四个方面内容。
一、大数据技术概述
对大数据的认识主要可以从三个方面来体现:
1、大数据的概念
专业概念:Volume(巨量)、Variety(多样性)、Velocity(高速)、Value(价值)
通俗理解:海量数据+多种形式的非规则数据
2、大数据来源及兴起
信息技术的普及
互联网的应用(移动应用、web2.0…)
对数据采集、处理的日益重视,数据驱动、数据资产、数据交付
3、大数据的价值认识和未来发展
在电信、金融等领域,大数据技术应用带来更多商机
在制造业、交通、医疗等领域,大数据和人工智能技术的应用,逐步升华大数据的商业价值
二、大数据存储管理技术
大数据存储与传统存储存在一定区别。传统存储主要分为结构化数据和非结构化数据;大数据存储分为结构化数据、半结构化数据和非结构化数据。工业大数据存储方式通常有以下四种:
1、设计数据的存储
架构数据:关系数据库
设计方案/产品数模:关系数据库+文档数据库(传统PLM升级)
2、试验/仿真类数据存储
通道采集数据:列存储数据库
遥测采集数据:文档数据库/键-值类数据库
关联描述数据:XML/Jason,键-值类数据库
3、制造类数据存储
工艺设计数据:结构化表+专用工艺文件,组合方式
质量检测数据:专用文档数据/键-值类数据库
4、产品运维类数据存储
运维监测数据:表+图像/数据库+文档数据库
训练考核数据:组合方式
工业大数据中心通常涵盖数据汇总、分析挖掘、知识应用和业务支持,其中数据汇总承担着把所有数据汇集起来进行融合的职责。全数据管理包括数据建模、数据收集、数据存储、数据治理和数据访问五个方面。工业大数据中心主要由院级/所级/外场级、数据结构+业务数据实体、数据实体三个方面的数据构成。工业大数据中心有四种组合存储方式,即关系数据库+文档系统、结构化数据、半结构化数据和非结构化数据。工业数据中心的定位是数据汇总和数据应用。
三、大数据分析挖掘技术
数据分析和数据挖掘区别在于,数据分析是统计类计算和推导类计算,而数据挖掘是未知规律发现、未知关联发现和类别(分类、识别类)的预测。数据挖掘基本分为预测类、剖析/解析类两大类,它的基本过程为:业务理解、数据理解、数据准备、建模训练、模型评估、模型发布和应用迭代。数据挖掘的主流算法分为剖析类方法和预测类方法两大类。其中,剖析类方法分为属性筛选、聚类分析和关联分析;预测类算法分为分析预测、回归预测和时序预测。数据挖掘的主流方法是神经网络方法,它是模拟生物的神经结构,是多层次、多因素的算法;它的特点是可以大规模并行处理、分布式处理,并拥有自学习能力。工业大数据的挖掘分析由大数据存储、数据仓库/算法模型组成。它的建模训练分为:预处理-特征提取、建模/调参/训练、发布模型三部分。其挖掘应用有数据预处理、模型应用和发布结果。
四、大数据应用案例分享
最后,王总为大家介绍了两个大数据技术应用案例,即产品大数据中心建设的数据治理(业务数据资源的汇集管理和数据分析挖掘)和大型电子产品的状态评估(根据产品历史数据和现场采集数据进行快速状态评估)。