认识工业大数据什么是工业大数据?我们先看看维基百科的说法:“工业大数据(Industrialbigdata)是构成工业人工智能的重要元素,指由工业设备高速产生的大量数据,对应不同时间下的设备状态,是物联网中的讯息。此一词语在年随着工业4.0的概念而出现,也和信息技术行销流行的大数据有关,工业大数据也意味着工业设备产生的大量数据有其潜在的商业价值。工业大数据会配合工业互联网的技术,利用原始资料来支援管理上的决策。”百度百科是这样说的:“工业大数据是指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。其以产品数据为核心,极大延展了传统工业数据范围,同时还包括工业大数据相关技术和应用。其主要来源可分为以下三类:第一类是生产经营相关业务数据。第二类是设备物联数据。第三类是外部数据。”不同的说法体现了对工业大数据不同的认知角度。但毋庸置疑的是,工业大数据为创新制造业企业的研发、生产、运营、维保、营销等提供了全方位支撑!工业大数据如此重要,我们当然要立刻开展基于工业大数据的分析、挖掘工作,以便从中获取重要的价值。且慢,工业数据具有不同于关系型业务数据的特殊性,使其难以直接使用现有数据分析工具。工业大数据的特点经典数据分析方法通常面向关系表数据结构(DataFrame)。无论是业务信息化系统中具有复杂数据关联的表结构,还是面向分析专用的冗余数据宽表都会用到这一数据结构。它们同样具有下面这些特征:
1、数据按行与列的方式放置,每条数据为一行,一行数据分为若干列,所有数据具有相同的列数,这些列表示了记录的不同属性。2、各行数据在同一列具有相同的数据类型,各列之间可以不同。3、各列数据类型通常为基本类型,即数值型、文本型、布尔型等。4、各行数据之间具有独立性,没有依赖关系。关系表数据结构既是关系型数据库所使用的基本逻辑模型,也是包括Excel、SPSS、R、Python—pandas、Spark等诸多数据分析处理软件与框架所使用的数据模型,有大量数据分析方法针对这一数据结构。而工业制造领域常见的数据类型是信号数据,这种数据并不很适合使用关系表数据结构去进行表达。信号数据是工业大数据的重要构成部分,其一般直接或间接来源工业设备本身,是反应工业设备现状的重要参考。在设备故障诊断和健康预测(即PHM)应用中具有重要的价值。和关系表数据相比,它存在以下特点:1、每条信号数据内所有数据值均为同一类型数字,通常为浮点数值。2、信号数据中数值的次序非常重要,其中包含关键信息。3、一条信号数据内可以包含数百万乃至更多标量值,通常难以用关系型数据库逐一存储。4、针对工业信号数据存在着大量经典算法,以数字信号处理算法为主,这些算法与经典数据分析算法有很大差异。5、大量机器学习、深度学习方法难以直接应用于原生信号数据形式。可见,由于上述原因,面向关系表数据的处理、分析工具难以直接应用工业信号数据类型。换言之,当前工业信号分析领域的困境是:缺少面向工业信号数据的“数据分析+机器学习”应用平台。面向工业大数据的分析工具为解决工业大数据分析困境,Tempo大数据分析平台开发提供了面向工业信号数据的专用分析工具包,该工具包是TempoAI为工业赋能的专用扩展功能之一。通过该工具包,我们能快速便捷的使用拖曳方式,完成对信号的各种经典变换处理。更重要的是,本工具打通了主流及前沿的数据分析方法和机器学习技术应和工业信号类数据之间的壁垒。现在工业工程师、质量工程师和PHM系统运维的小伙伴们可以将大量优秀的数据分析方法直接应用于工业现场数据挖掘。
TempoAI的信号处理工具包功能强大,下面我们看一下它具体都能做些什么吧。1、支持多种信号数据存储形式的输入与输出
2、支持多种数字信号数据预处理操作支持将信号数据按照不同的分割方法进行切分,支持按照分帧、分贝、时段、功率、平稳性、自适应分割方法。
3、支持多种数字信号处理方法拖曳式使用
4、支持多种面向信号数据的特征工程方法通过特征工程方法,可以将信号数据转化为一系列特征量描述,从而便于用户经典数据分析方法对其进行分析、建模等研究。
5、支持信号数据类型与关系表数据类型的相互转换
6、支持信号数据处理与特征提取功能自定义信号处理扩展节点支持用户通过选择自定义的信号处理算法将信号数据进行处理,使信号数据处理更灵活更便捷。(自定义功能扩展需要管理授权)
工业信号处理工具包在TempoAI里的位置是这样的:
如下图所示,平台新增了信号分析模块,将极大提高平台对工业数据的兼容能力,尤其是工业信号数据,也为后续工业信号分析项目的大数据解决方案提供可能。
扩展后的技术路线主要包含三个层次:1、最上层表示机器学习流程其余CRISP-DM流程(跨行业数据挖掘标准流程)基本保持一致。2、最下层就是经典数字信号处理流程平台内置了信号处理、信号变换、信号特征提取、谱分析以及信号滤波五大核心模块,此外平台集成了信号读入和信号输出两个基本节点,这样就可以实现经典信号分析流程端到端解决方法的畅通。3、信号分析和机器学习融合在平台上体现为S端口(信号数据)和D端口(关系型数据)的连接。目前融合的核心组件是信号特征提取和S转D。前者通过信号特征提取,完成机器学习或深度学习建模中特征工程的任务。后者完成信号数据机理分析结果的关系型转存。
“信号分析+机器学习”其核心思路是基于信号分析算子完成信号数据的特征工程的功能。在实际使用信号分析工具包进行数据分析时,信号处理算法节点与数据分析节点的结合一般是下面这个样子的。(红框中是信号处理节点部分)
一个示例现在我们用一个工业数据分析的例子来实际看一下信号处理工具包的使用。某风力发电机结构由三相感应发电机、冷却箱和单级行星齿轮箱组成。齿轮的前后支撑都是深沟球类型的轴承,容易发生故障。现有以下需求:基于发电机组中发电机前轴承的振动信号实现轴承故障特征自适应提取和复合特征提取。1、轴承故障特征自适应提取分析说明:振动信号的时域信号存在在强弱不等的冲击波形,但由于大量背景噪声的干扰,使得这些冲击的规律性和特征性不明显。但其频域信号中,高频成分较为丰富。实现路线:小波变换+信号特征提取
过程简介:样例数据和数据转信号节点完成关系型数据向信号数据的转变,然后基于离散小波变换,通过指定小波基函数和分解层数,对原信号数据实现多尺度的细分,最后基于这些细分信号数据,提取对应的信号特征。2、复合特征提取分析说明:此时的振动信号频谱图很难看到明显的故障信息。实现路线:经验模态分解+信号特征提取(或小波变换+信号特征提取)过程简介:虽然与上述子问题的实现路线一致,但是侧重点不同。这里信号特征提取只是辅助验证,重点在于经验模态分解(或小波变换)的分解和重构。以经验模态分解为例:
当前信号被分成了6个模态函数和1个残差余量。从波形图上我们发现IMF1和MIF2的振动频率比较相近,IMF3~IMF6比较相近。所以据此,我们可以将相近的模态函数进行简单相加(这里通过希尔伯特黄变换实现)形成新的信号,这些新信号的特征就是我们想要的符合特征。当分解层数较多时,各IMF分量比较接近时,我们可以选用信号特征提取中的特征帮助实现对其的分组(如以分贝、加速度级等)。
这样,我们就获得了这一类风机的典型运行工况特征。将这些特征提取出来后,就可以使用统计分析去发现风机运行的规律,或者将大量风机运行数据积累形成训练数据,构建人工智能模型,以发现风机的运行异常等。总而言之,TempoAI的信号处理工具包解决了工业大数据分析中遇到的数据分析方法难以直接应用的问题,使得深入挖掘工业大数据,发现工业大数据价值变得便捷易行。感兴趣的朋友们,请赶快尝试吧!