从上世纪80年代开始,伴随着数据库技术的发展和新应用的提出,数据挖掘技术应运而生。数据挖掘是一种能从海量的、随机的、不完整的、复杂的数据中提取出对人们可能潜在和有用的信息和知识的过程,其中涉及到许多技术的处理。通过数据挖掘技术来处理大量的数据内容极大地提高人们处理的信息的效率,从中获取大量有价值的信息和知识来帮助人们进行决策工作。该文章讲述了数据挖掘的七个过程,以及5种数据挖掘方法。
数据挖掘过程
数据挖掘过程分为7个部分:
1)定义挖掘目标
清晰明确的挖掘目标是进行数据挖掘的前提,同时也是能够最大限度地发挥数据挖掘作用的关键。
2)数据取样
针对数据挖掘目标如何选取样本。在选取样本时有三大原则,即时效性、可靠性和相关性。必须保证选择的样本数据是最新的、真实可靠并且与挖掘目标是高度相关的。同时选择数据的简明性,精选数据。
3)数据探索
进一步对数据进行分析探究,为了保证预测质量需要对选取的样本数据进行探索、审核和必要的加工处理是必要的。
数据探索主要有:相关分析、异常分析、周期性分析、缺失值分析和样本交叉验证。
4)数据预处理
由于样本数据量一般较为庞大,数据结构较为复杂,样本数据维度过高,有缺失值,重复记录,不一致等等。对样本进行预处理也是必要的。
5)模式发现
数据预处理之后,开始构建挖掘模型,在建模之前要考虑本次的目标是数据挖掘哪方面的应用,针对具体的应用类别选取合适的算法。
6)模型构建
模型构建包括选择什么挖掘算法,模型构建思路,具体操作过程是怎么样的
7)模型评价
对数据挖掘的结果进行评价,对其中的不足之处以及可取之处进行总结,并不断改进。
挖掘方法
数据挖掘方法:
1)分类和回归技术
这两种方法是数据挖掘中使用最多的最频繁的两种。要想良好的使用分类技术要提前明确数据的类别。回归分析是用属性的历史数据预测未来的趋势,找出各个数据间的相关关系。
2)聚类分析
聚类分析从大体上讲就是根据数据之间的相似之处进行数据分类。它是在没用明确数据类别前提下进行的。
3)关联规则
应用最为广泛的数据挖掘技术,是从错综复杂的数据中发现事物之间可能存在的关联或者联系,这些关系比较隐晦。
4)时序模式
时序模式与回归模式有许多相似之处,但不同于的时序模式的属性值是随时间变化的。因而考虑的是复杂多变的数据在时间维度的关系。
5)异常检测
又称为偏差检测,主要用来发现与其他大部分对象不同的异常或者变化。异常检测在金融诈骗中发挥着巨大作用。