数据挖掘从概念到应用 - 数据 - Powered by Discuz!NT Archiver

TUhjnbcbe - 2021/7/2 9:28:00

北京哪个医院医治白癜风最好 http://wapyyk.39.net/bj/zhuanke/89ac7.html

01什么是数据挖掘

数据挖掘(DataMining,DM)是在大型数据库中发掘有用信息和知识的过程。数据挖掘技术用来探查各种数据源（数据库，数据仓库，Web等)，发现先前未知的有用模式和知识。数据挖掘还可以基于数据建模分析预测未来的结果，比如顾客在网上或实体店的消费金额。

并非所有的信息发现任务都被视为数据挖掘。例如查询任务：在数据库中查找个别记录，或查找含特定关键字的网页。这是因为这些任务可以通过与数据库管理系统或信息检索系统的简单交互来完成。

数据挖掘是数据库中知识发现（KnowledgeDiscoveryinDatabase，KDD）不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程，如图1所示。该过程包括一系列转换步骤，从数据预处理到数据挖掘结果的后处理。

▲图1数据库中知识发现（KDD）过程

输入数据可以以各种形式存储（平面文件、电子表格或关系表），并且可以存储在集中式数据库中，或分布在多个数据站点上。预处理（preprocessing）的目的是将原始输入数据转换为适当的格式，以便进行后续分析。

数据预处理涉及的步骤包括融合来自多个数据源的数据，清洗数据以消除噪声和重复的观测值，选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样，数据预处理可能是整个知识发现过程中最费力、最耗时的步骤。

02数据挖掘要解决的问题

面临大数据应用带来的挑战时，传统的数据分析技术经常遇到实际困难。下面是一些具体的问题，它们引发了人们对数据挖掘的研究。

1.可伸缩

由于数据产生和采集技术的进步，数太字节（TB）、数拍字节（PB）甚至数艾字节（EB）的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集，则算法必须是可伸缩的。许多数据挖掘算法采用特殊的搜索策略来处理指数级的搜索问题。为实现可伸缩可能还需要实现新的数据结构，才能以有效的方式访问每个记录。

例如，当要处理的数据不能放进内存时，可能需要核外算法。使用抽样技术或开发并行和分布式算法也可以提高可伸缩程度。

2.高维性

现在，常常会遇到具有成百上千属性的数据集，而不是几十年前常见的只具有少量属性的数据集。

例如，考虑包含不同地区的温度测量结果的数据集，如果在一个相当长的时间周期内反复地测量，则维数（特征数）的增长正比于测量的次数。为低维数据开发的传统数据分析技术通常不能很好地处理这类高维数据。此外，对于某些数据分析算法，随着维数（特征数）的增加，计算复杂度会迅速增加。

3.异构数据和复杂数据

通常，传统的数据分析方法只处理包含相同类型属性的数据集，或者是连续的，或者是分类的。随着数据挖掘在商务、科学、医学和其他领域的作用越来越大，越来越需要能够处理异构属性的技术。

近年来，出现了更复杂的数据对象。这种非传统类型的数据如：含有文本、超链接、图像、音频和视频的Web和社交媒体数据，具有序列和三维结构的DNA数据，由地球表面不同位置、不同时间的测量值（温度、压力等）构成的气候数据。

为挖掘这种复杂对象而开发的技术应当考虑数据中的联系，如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子关系。

4.数据的所有权与分布

有时，需要分析的数据不会只存储在一个站点，或归属于一个机构，而是地理上分布在属于多个机构的数据源中。这就需要开发分布式数据挖掘技术。分布式数据挖掘算法面临的主要挑战包括：如何降低执行分布式计算所需的通信量；如何有效地统一从多个数据源获得的数据挖掘结果；如何解决数据安全和隐私问题？

5.非传统分析

传统的统计方法基于一种假设检验模式，即提出一种假设，设计实验来收集数据，然后针对假设分析数据。但是，这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设，因此需要自动地产生和评估假设，这促使人们开发了一些数据挖掘技术。

此外，数据挖掘所分析的数据集通常不是精心设计的实验的结果，并且它们通常代表数据的时机性样本（opportunisticsample），而不是随机样本（randomsample）。

03数据挖掘与其他领域的关联

一些其他领域也起到重要的支撑作用。特别是，需要数据库系统提供高效的存储、索引和查询处理。源于高性能（并行）计算的技术在处理海量数据集方面常常是非常重要的。分布式技术还可以帮助处理海量数据，并且当数据不能集中到一起处理时显得尤为重要。图2显示了数据挖掘与其他领域之间的联系。

04数据挖掘的应用案例与场景

1.哪些商品放在一起比较好卖？

这是沃尔玛的经典案例：一般看来，啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示，在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单，一般太太让先生下楼买尿布的时候，先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。

另外，大家都知道在沃尔玛牙膏的旁边通常配备牙刷，在货价上这样放置，牙膏和牙刷才能都卖的很好。

2.库存预测

过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大，很多零售商（从主要财务主管到库存管理员）都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。

使用Microsoft(R)SQLServer(TM)中的AnalysisServices以及SQLServer数据仓库，采用数据挖掘技术可以为产品存储决策提供准确及时的信息。SQLServerAnalysisServices获得的数据挖掘模型可以预测在未来一周内一本书是否将脱销，准确性为98.52%。平均来说，预测该书是否将在未来两周内脱销的准确性为86.45%。

3.股票走势预测

预测一支股票的走势几乎是不可能，但是通过相关分析，可以找出一支股票的走势与另一只股票走势的潜在规律，比如数据挖掘曾经得到过这个结论：“如果微软的股票下跌4%，那么IBM的股票将在两周内下跌5%”。

4.NBA教练如何布阵以提升获胜机会？

美国著名的国家篮球队NBA的教练，利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练，你靠什么带领你的球队取得胜利呢？当然，最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天，NBA的教练又有了他们的新式武器：数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件AdvancedScout系统来优化他们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排，在与迈阿密热队的比赛中找到了获胜的机会。

5.推出了一个新产品，哪些老客户最可能购买？

蒙特利尔银行是加拿大历史最为悠久的银行，也是加拿大的第三大银行。在20世纪90年代中期，行业竞争的加剧导致该银行需要通过交叉销售来锁定万客户。银行智能化商业高级经理JanMrazek说，这反映了银行的一个新焦点--客户(而不是商品)。银行应该认识到客户需要什么产品以及如何推销这些产品，而不是等待人们来排队购买。然后，银行需要开发相应商品并进行营销活动，从而满足这些需求。

在应用数据挖掘之前，银行的销售代表必须于晚上6点至9点在特定地区通过电话向客户推销产品。但是，正如每个处于接受端的人所了解的那样，大多数人在工作结束后对于兜售并不感兴趣。因此，在晚餐时间进行电话推销的反馈率非常低。

几年前，该银行开始采用IBMDB2IntelligentMinerScoring，基于银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能性。该系统能够通过浏览器窗口进行观察，使得管理人员不必分析基础数据，因此非常适合于非统计人员。

"我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。现在，当进行更具针对性的营销活动时，银行能够区别对待不同的客户群，以提升产品和服务质量，同时还能制订适当的价格和设计各种奖励方案，甚至确定利息费用。"

蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息，从而帮助他们对于从营销到产品设计的任何事情进行决策。

6.登录网站的当前用户现在最可能购买什么东西？

开利(Carrier)公司--位于美国康涅狄格州Farmington的一家空调制造厂商--声称，仅仅通过利用邮政编码数据，其升级版B2C网站的每位访问者所产生的平均收益在一个月内从1.47美元提高到了37.42美元。

当客户登录网站时，系统将指示他们提供邮政编码。这些邮政编码信息将被发送到WebMiner服务器，也就是一个数据挖掘ASP。然后，WebMiner的数据挖掘软件将对客户进行假设，并基于这些假设来展示商品。例如，如果客户来自富裕的郊外地区，网站将显示出带有遥控器的空调机;如果客户的邮政编码显示邻近大量公寓楼，则弹出式广告将展示窗式空调机。

通过采用这种相对简易的方法，该公司能够在数秒内生成网页。Carrier全球电子商务经理PaulBerman说："与通常的想法相反，客户化电子商务在创建有针对性的服务时并不需要询问客户8条或9条信息。我们只需要1条信息，而且实际证明效果确实不错。"

预览时标签不可点收录于话题#个上一篇下一篇

数据结构论坛