数据结构论坛

首页 » 分类 » 分类 » Python数据挖掘教与学教学大纲教
TUhjnbcbe - 2021/5/8 14:45:00
白癜风怎么能治好 http://pf.39.net/bdfyy/tslf/

数据挖掘与机器学习教学大纲

01

课程性质

本课程以数据挖掘和机器学习为主要内容,讲述实现数据挖掘的主要功能、数据挖掘、机器学习算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘与机器学习模型。培养学生数据分析和处理的能力。该课程的先修课程有概率论与数理统计、数据库原理和程序设计等。

02

教学目的

本课程的主要目的是培养学生的数据挖掘与机器学习的理论分析与应用实践的综合能力。通过本课程的教学,使学生掌握数据挖掘和机器学习的一般原理和处理方法,能使用机器学习理论解决数据挖掘相关的问题。

03

教学内容

本课程全面而又系统地介绍了数据挖掘与机器学习的方法和技术,反映了当前数据挖掘和机器学习研究的最新成果。本课程主要学习的内容包括Python数据分析与可视化基础、认识数据、数据预处理、回归分析、关联规则挖掘、分类与预测、聚类分析、神经网络与机器学习基础、离群点检测以及Python数据挖掘案例分析等内容。

04

教学时数

本课程的教学时数为72学时,理论教学54学时,实验教学18学时。

第一章数据挖掘概述

教学要点:

1.理解和掌握数据挖掘与机器学习的基本概念、数据挖掘过程、数据挖掘的主要任务以及数据挖掘使用的主要技术。

2.了解数据挖掘与机器学习的应用和面临的问题。

3.对数据挖掘和机器学习能够解决的问题和解决问题思路有清晰的认识。

4.熟练应用Jupyternotebook的开发环境。

教学时数:4学时。

考核要点:了解数据挖掘的定义和功能,理解数据挖掘在何种数据上进行,数据挖掘可以挖掘什么类型的模式,掌握初级的数据分析方法。

第二章Python数据分析与挖掘基础

教学要点:

1.理解和掌握Python基础语法、内建的数据结构、Numpy数值运算基础、Pandas统计分析基础。

2.掌握Matplotlib图表绘制基础等数据分析和可视化方法。

教学时数:6学时。

考核要点:掌握Python编程基础,数据分析与可视化方法。

第三章认识数据

教学要点:

1.理解和掌握数据对象和属性类型,数据的基本统计描述,掌握度量数据相似性和相异性的方法。

2.了解数据可视化的方法。

教学时数:3学时。

考核要点:了解数据的属性类型,理解数据的基本统计描述,掌握度量数据相似性和相异性的方法。

第四章数据预处理

教学要点:

1.了解数据预处理的目的和意义。

2.掌握如何对数据进行清理。

3.掌握如何对不同数据源的数据进行合并。

4.掌握如何对数据进行变换,使之适合建模的需要。

5.掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效。

6.掌握利用Python进行数据预处理的方法。

教学时数:4学时。

考核要点:理解数据清理、数据集成、数据规约、数据变换于数据离散化的方法,掌握数据预处理的基本方法。

第五章回归分析

教学要点:1.掌握回归分析原理。2.掌握一元线性回归分析。3.掌握多元线性回归分析。4.掌握逻辑回归。5.了解其他回归分析。教学时数:4学时。

考核要点:掌握回归的定义的定义,各类回归的原理及Python实现。

第六章关联规则挖掘

教学要点:1.了解关联规则的基本思想、概念和意义。2.了解关联规则挖掘的应用背景;掌握常用的关联规则算法。3.掌握利用Python实现关联规则分析。4.了解其它方法的内容、了解关联规则挖掘的研究动态。

教学时数:4学时。

考核要点:了解频繁项集、闭项集和关联规则的概念,理解模式评估方法,掌握Apriori算法和挖掘频繁项集的模式增长方法。

第七章分类

教学要点:1.了解分类及预测的基本思想、概念和意义。2.掌握常用的分类及预测算法(或模型)。3.了解分类及预测挖掘的研究动态。4.掌握利用Python实现各种分类算法的方法。教学时数:12学时。

考核要点:了解分类的概念,理解评估分类器性能的度量方法,掌握决策树分类算法、SVM、贝叶斯分类算法、模型评估与选择、组合分类及利用Python实现分类的方法。

第八章聚类

教学要点:1.了解如何计算由各种属性和不同的类型来表示的对象之间的相异度。2.掌握K-Means聚类、层次聚类、基于密度的聚类和其他常用方法。3.掌握利用sklearn实现聚类的方法。教学时数:10学时。考核要点:了解聚类的概念,掌握k-Means和k-Medoids算法、层次方法和基于密度的方法等典型算法及其Python的实现方法。

第九章神经网络与深度学习

教学要点:1.了解理解神经网络与深度学习的原理。2.掌握感知机与BP神经网络的原理。3.了解深度学习基础。教学时数:5学时。

考核要点:了解神经网络的概念,掌握感知机模型和BP神经网络、了解深度学习算法。

第十章离群点检测

教学要点:1.了解离群点的概念与检测方法。2.掌握sklearn中的异常值检测方法。教学时数:4学时。考核要点:了解离群点的概念、类型以及离群点检测的常用方法,掌握sklearn中的异常值检测方法。

第十一章数据挖掘案例

教学要点:1.掌握数据挖掘与机器学习的分析与实现。2.掌握利用Python进行综合数据分析。教学时数:4学时。考核要点:掌握利用Python进行数据挖掘与机器学习的实现过程。本课程使用教具和现代教育技术的指导性意见本课程教材力求内容新颖,应采用多样化的方式进行教学,让学生在理论与实践相结合的基础上,对课程所要求的实际操作能力有进一步的提高。充分利用多媒体等现代化教学手段,整体优化教学过程和教学内容,调动学生学习积极性;布置实际操作任务给学生上机操作并及时指导。

实验部分

基本要求:实验是数据挖掘与机器学习课程教学中不可分割的重要组成部分。实验课程设计的思想是帮助学生理解和掌握数据挖掘的基本概念、算法、技术和原理,熟练掌握利用Python进行数据挖掘和机器学习的使用方法,通过适当的编程提高学生的编程能力以及实践动手能力,提高学生对课程的学习兴趣,加强创新精神与综合素质的培养。

实践课程课时:18学时

05

教学进度计划表

名称

总时数

讲课

实践/实验

上机

习题

课程设计

周学时

计划时数

72

54

18

4

周次

课次

授课内容摘要

时数

目的要求

1

1

第一章数据挖掘与机器学习概述

一、数据挖掘简介

二、数据分析与数据挖掘

三、数据挖掘的任务

四、数据挖掘的数据源

2

理解和掌握数据挖掘与机器学习的基本概念、数据挖掘过程、数据挖掘的主要任务以及数据挖掘使用的主要技术。

2

五、数据挖掘使用的主要技术

六、数据挖掘的主要任务

七、数据挖掘的商用工具

八、利用Python进行数据挖掘

2

了解数据挖掘与机器学习的应用和面临的问题。对数据挖掘和机器学习能够解决的问题和解决问题思路有清晰的认识。熟练应用Jupyternotebook的开发环境。

2

3

第二章Python数据分析基础

一、Python程序概述

二、Python内建的数据结构

2

理解和掌握Python基础语法、内建的数据结构。

4

三、Numpy数值计算基础

2

掌握Numpy数值计算方法,主要包括数组和矩阵运算。

3

5

四、Pandas统计分析基础

2

掌握Pandas中的数据结构、数据查询与编辑、分组汇总及绘图。

6

五、Matplotlib数据可视化基础

六、Scikit-learn基础

2

掌握Matplotlib数据可视化绘图基础,参数设置及常用绘图。

4

7

实验一、数据分析与可视化实训

2

利用Python进行数据分析与可视化

8

第三章认识数据

数据对象与属性类型

数据的基本统计描述

数据可视化

度量数据的相似性

2

理解和掌握数据对象和属性类型,数据的基本统计描述,掌握度量数据相似性和相异性的方法;了解数据可视化的方法。

5

9

1)第四章数据预处理

2)一、数据预处理概述,Python数据预处理方法

3)二、数据清理及Python数据清洗方法

2

了解数据预处理的目的和意义;掌握如何对数据进行清理。

10

三、数据集成及利用Python进行数据合并

1)四、数据变换与离散化

2)五、数据归约

2

掌握如何对不同数据源的数据进行合并;掌握如何对数据进行变换,使之适合建模的需要;掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效;掌握利用Python进行数据预处理的方法。

6

11

3)实验二、利用Python实现数据预处理(数据合并、数据清洗、数据变换)

2

掌握利用Python实现数据清洗、数据集成和数据变换的方法

12

第五章回归分析

一、回归分析概述

二、一元线性回归分析

2

掌握回归分析原理;掌握一元线性回归分析的原理与方法。

7

13

三、多元线性回归

四、逻辑回归

五、其他回归分析

2

掌握多元线性回归分析;掌握逻辑回归;了解其他回归分析

14

实验三、利用Python

实现典型的回归分析

2

掌握利用Python实现典型的回归分析方法

8

15

第六章关联规则挖掘

一、关联规则分析概述

二、频繁项集挖掘方法

2

了解频繁项集、闭项集和关联规则的概念,理解模式评估方法,掌握Apriori算法

16

三、频繁模式树算法

四、关联规则评估方法

2

掌握FP挖掘算法;利用Python实现关联规则分析;了解其它方法的内容、了解关联规则挖掘的研究动态。

9

17

实验四、Python实现数据的关联规则分析

2

掌握利用Python实现数据的关联规则分析

18

第七章分类

一、分类概述

二、决策树规约及其Python实现

2

了解分类及预测的基本思想、概念和意义;掌握决策树规约算法。

10

19

三、K近邻算法

四、支持向量机算法及其实现

2

掌握KNN算法原理与实现;了解SVM算法及其实现。

20

五、贝叶斯分类

六、模型评估与选择

2

熟悉掌握贝叶斯分类算法;理解评估分类器性能的度量方法。

11

21

七、组合分类

组合方法概述;袋装;提升和Adaboost;随机森林

2

掌握组合分类的原理;掌握随机森林框架及Python实现方法

22

实验五、分类分析综合实验

2

用不同的算法实现给定数据集的分类分析,掌握利用Python实现数据分类分析的常用方法

12

23

第八章聚类

一、聚类概述

二、K-Means算法

K-Means算法实现

2

掌握聚类分析的基本原理;熟练掌握K-Means算法的原理及其实现

24

三、层次聚类方法

层次聚类算法及其Python实现

2

掌握层次聚类算法及其实现

13

25

四、基于密度的聚类方法

DBSCAN算法原理及其实现

2

掌握DBSCAN算法及其实现

26

五、其他聚类方法

STING算法、COBWENB算法及模糊聚类算法

2

了解STING算法、COBWENB算法;掌握模糊聚类算法。

14

27

六、聚类评估

估计聚类趋势

确定簇数目的方法

测定聚类质量

2

掌握聚类评估的基本方法;确定簇数目的常用方法;聚类质量的测定。

28

实验六数据的聚类分析综合实验

2

掌握数据聚类的典型算法

15

29

第九章神经网络与深度学习

一、神经网络基础

神经元模型,感知机与多层网络

2

理解神经网络基本原理;掌握感知机的原理。

30

二、BP神经网络

2

理解多层前馈神经网络的原理;理解后向传播算法;了解BP神经网络的应用。

16

31

三、深度学习基础

深度学习的基本原理和常用框架

2

理解深度学习的基本原理;了解深度学习常用的几种模型。

32

实验七、BP神经网络案例实验

2

掌握BP神经网络的Python

实现

17

33

第十章离群点检测

一、离群点概述

离群点的概念、分类

二、离群点检测方法

常用的离群点检测方法

2

掌握离群点的概念与检测方法。

34

三、sklearn中的异常值检测方法

了解利用Python进行异常值检测的方法。

2

掌握sklearn中的异常值检测方法。

18

35

第十一章数据挖掘案例分析

实验八、数据挖掘案例分析

2

数据挖掘综合案例分析与讲解

36

实验九、数据挖掘案例实现

2

数据挖掘综合案例分析与实现

06

选用教材

扫码,限量优惠购书

10

内容简介

本书内容丰富,循序渐进,以数据挖掘框架为主线,系统地介绍了数据挖掘技术的基本原理、方法和实践应用,全面反映了数据挖掘的理论体系和应用的最新进展。课程既讨论数据挖掘的基本理论知识和框架体系结构,又介绍了数据挖掘算法的Python实现与应用,强调了理论与实践相结合,基础知识与前沿发展相结合。

11

目录

上下滚动查看↓

第1章绪论

1.1数据挖掘简介

1.2数据分析与数据挖掘

1.3数据挖掘的主要任务

1.3.1关联分析

1.3.2数据建模预测

1.3.3聚类分析

1.3.4离群点检测

1.4数据挖掘的数据源

1.4.1数据库数据

1.4.2数据仓库

1.4.3事务数据库

1.4.4其他类型数据

1.5数据挖掘使用的技术

1.5.1统计学

1.5.2机器学习

1.5.3数据库管理系统与数据仓库

1.6数据挖掘存在的主要问题

1.7数据挖掘建模的常用工具

1.7.1商用工具

1.7.2开源工具

1.8为何选用Python进行数据挖掘

1.9Python数据挖掘常用库

1.10JupyterNotebook的使用

1.11小结

习题1

第2章Python数据分析与挖掘基础

2.1Python程序概述

2.1.1基础数据类型

2.1.2变量和赋值

2.1.3运算符和表达式

2.1.4字符串

2.1.5流程控制

2.1.6函数

2.2内建数据结构

2.2.1列表

2.2.2元组

2.2.3字典

2.2.4集合

2.3NumPy数值运算基础

2.3.1创建数组对象

2.3.2ndarray对象属性和数据转换

2.3.3生成随机数

2.3.4数组变换

2.3.5数组的索引和切片

2.3.6数组的运算

2.3.7NumPy中的数据统计与分析

2.4Pandas统计分析基础

2.4.1Pandas中的数据结构

2.4.2索引对象

2.4.3查看DataFrame的常用属性

2.4.4DataFrame的数据查询与编辑

2.4.5Pandas数据运算

2.4.6函数应用与映射

2.4.7排序

2.4.8汇总与统计

2.4.9数据分组与聚合

2.4.10Pandas数据读取与存储

2.5Matplotlib图表绘制基础

2.5.1Matplotlib简介

2.5.2Matplotlib绘图基础

2.5.3设置pyplot的动态rc参数

2.5.4文本注解

2.5.5pyplot中的常用绘图

2.6scikitlearn

2.6.1scikitlearn简介

2.6.2scikitlearn中的数据集

2.6.3scikitlearn的主要功能

2.7小结

习题2

第3章认识数据

3.1属性及其类型

3.1.1属性

3.1.2属性类型

3.2数据的基本统计描述

3.2.1中心趋势度量

3.2.2数据散布度量

3.3数据可视化

3.3.1基于像素的可视化技术

3.3.2几何投影可视化技术

3.3.3基于图符的可视化技术

3.3.4层次可视化技术

3.3.5可视化复杂对象和关系

3.3.6高维数据可视化

3.3.7Python可视化

3.4数据对象的相似性度量

3.4.1数据矩阵和相异性矩阵

3.4.2标称属性的相似性度量

3.4.3二元属性的相似性度量

3.4.4数值属性的相似性度量

3.4.5序数属性的相似性度量

3.4.6混合类型属性的相似性

3.4.7余弦相似性

3.4.8距离度量Python实现

3.5小结

习题3

第4章数据预处理

4.1数据预处理的必要性

4.1.1原始数据中存在的问题

4.1.2数据质量要求

4.2数据清洗

4.2.1数据清洗方法

4.2.2利用Pandas进行数据清洗

4.3数据集成

4.3.1数据集成过程中的关键问题

4.3.2利用Pandas合并数据

4.4数据标准化

4.4.1离差标准化数据

4.4.2标准差标准化数据

4.5数据归约

4.5.1维归约

4.5.2数量归约

4.5.3数据压缩

4.6数据变换与数据离散化

4.6.1数据变换的策略

4.6.2Python数据变换与离散化

4.7利用scikitlearn进行数据预处理

4.8小结

习题4

第5章回归分析

5.1回归分析概述

5.1.1回归分析的定义与分类

5.1.2回归分析的过程

5.2一元线性回归分析

5.2.1一元线性回归方法

5.2.2一元线性回归模型的参数估计

5.2.3一元线性回归模型的误差方差估计

5.2.4一元回归模型的主要统计检验

5.2.5一元线性回归的Python实现

5.3多元线性回归

5.3.1多元线性回归模型

5.3.2多元线性回归模型的参数估计

5.3.3多元线性回归的假设检验及其评价

5.3.4多元线性回归的Python实现

5.4逻辑回归

5.4.1逻辑回归模型

5.4.2逻辑回归的Python实现

5.5其他回归分析

5.5.1多项式回归

5.5.2岭回归

5.5.3Lasso回归

5.5.4逐步回归

5.6小结

习题5

第6章关联规则挖掘

6.1关联规则分析概述

6.2频繁项集、闭项集和关联规则

6.3频繁项集挖掘方法

6.3.1Apriori算法

6.3.2由频繁项集产生关联规则

6.3.3提高Apriori算法的效率

6.3.4频繁模式增长算法

6.3.5使用垂直数据格式挖掘频繁项集

6.4关联模式评估方法

6.4.1强关联规则不一定是有趣的

6.4.2从关联分析到相关分析

6.5Apriori算法应用

6.6小结

习题6

第7章分类

7.1分类概述

7.2决策树归纳

7.2.1决策树原理

7.2.2ID3算法

7.2.3C4.5算法

7.2.4CART算法

7.2.5树剪枝

7.2.6决策树应用

7.3K近邻算法

7.3.1算法原理

7.3.2Python算法实现

7.4支持向量机

7.4.1算法原理

7.4.2Python算法实现

7.5朴素贝叶斯分类

7.5.1算法原理

7.5.2朴素贝叶斯分类

7.5.3高斯朴素贝叶斯分类

7.5.4多项式朴素贝叶斯分类

7.5.5朴素贝叶斯分类应用

7.6模型评估与选择

7.6.1分类器性能的度量

7.6.2模型选择

7.7组合分类

7.7.1组合分类方法简介

7.7.2袋装

7.7.3提升和AdaBoost

7.7.4随机森林

7.8小结

习题7

第8章聚类

8.1聚类分析概述

8.1.1聚类分析的概念

8.1.2聚类算法分类

8.2KMeans聚类

8.2.1算法原理

8.2.2算法改进

8.2.3KMeans算法实现

8.3层次聚类

8.3.1算法原理

8.3.2簇间的距离度量

8.3.3分裂层次聚类

8.3.4凝聚层次聚类

8.3.5层次聚类应用

8.4基于密度的聚类

8.4.1算法原理

8.4.2算法改进

8.4.3DBSCAN算法实现

8.5其他聚类方法

8.5.1STING聚类

8.5.2概念聚类

8.5.3模糊聚类

8.6聚类评估

8.6.1聚类趋势的估计

8.6.2聚类簇数的确定

8.6.3聚类质量的测定

8.7小结

习题8

第9章神经网络与深度学习

9.1神经网络基础

9.1.1神经元模型

9.1.2感知机与多层网络

9.2BP神经网络

9.2.1多层前馈神经网络

9.2.2后向传播算法

9.2.3P神经网络应用

9.3深度学习

9.3.1深度学习概述

9.3.2常用的深度学习算法

9.4小结

习题9

第10章离群点检测

10.1离群点概述

10.1.1离群点的概念

10.1.2离群点的类型

10.1.3离群点检测的挑战

10.2离群点的检测

10.2.1基于统计学的离群点检测

10.2.2基于邻近性的离群点检测

10.2.3基于聚类的离群点检测

10.2.4基于分类的离群点检测

10.3scikitlearn中的异常检测方法

10.4小结

习题10

第11章数据挖掘案例

11.1良/恶性乳腺肿瘤预测

11.2泰坦尼克号乘客生还预测

11.3图像的聚类分割

11.4小结

12

配套视频演示

12

教案

《数据挖掘与机器学习》课程教案(首页)

课程/项目名称

数据挖掘与机器学习

课程

总学时:72学时

理论:54学时

实验:18学时

学分

3

课程

课程类别:专业必修■专业必修□公共必修□公共选修

授课教师

***

授课专业

大数据技术与应用

授课班级

教学

目的和要求

本课程的主要目的是培养学生的数据挖掘与机器学习的理论分析与应用实践的综合能力。通过本课程的教学,使学生掌握数据挖掘和机器学习的一般原理和处理方法,能使用机器学习理论解决数据挖掘相关的问题。。

教学

重点、难点

教学重点:

Python数据分析与可视化基础

认识数据

数据预处理

回归分析

关联规则挖掘

分类与预测

聚类分析

神经网络与机器学习基础

离群点检测以及Python数据挖掘案例分析等

教学难点:

掌握数据挖掘基本过程、处理步骤和方法;

掌握回归分析、分类、聚类等机器学习算法;

熟练关联规则挖掘方法;

掌握数据分析与数据挖掘的基本方法。

教学

资源

多媒体课件

习题答案

微课视频

其他教学资源:

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

教学

环境

多媒体教学,课堂教学与学生上机实践相结合

案例实现

《数据挖掘与机器学习》课程教案

第1次课2学时

授课内容

数据挖掘概论1

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)数据挖掘的概念与基本内容

2)数据分析与数据挖掘的联系与区别

3)数据挖掘的主要任务

4)数据挖掘的主要数据源

重点

难点

1)数据挖掘的概念与主要任务

教学进程

安排

教学导入:

介绍数据挖掘与机器学习的重要性,举例说明数据挖掘典型案例,逐步引入到课程的介绍内容中来。

授课内容:

一、《数据挖掘与机器学习》课程介绍

介绍本门课程的学科地位、考核方式、学习内容安排、可以参考的学习资料。

二、讲授数据挖掘的定义、原理与发展

1)讲授数据分析的含义和内容

2)讲授数据挖掘与数据分析的联系与区别

3)讲授数据挖掘的主要任务

4)讲授数据挖掘主要的数据源

课后学习

任务布置

查阅数据挖掘用途的相关资料与案例

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第2次课2学时

授课内容

数据挖掘基础2

教学目的

与要求

介绍数据挖掘的主要技术。

通过本课的学习,学生应该掌握如下知识:

1)数据挖掘的主要任务和工具;

2)利用Python进行数据挖掘基础

3)JupyterNotebook介绍

重点

难点

数据挖掘的主要任务和利用Python进行数据挖掘的原因

教学进程

安排

授课内容:

一、数据挖掘的主要技术

二、数据挖掘的主要任务

三、数据挖掘的商用工具

四、利用Python进行数据挖掘

课后学习

任务布置

安装Anaconda,熟悉基本开发环境

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第3次课2学时

授课内容

Python数据分析基础

教学目的

与要求

介绍Python编程基础。

通过本课的学习,学生应该掌握如下知识:

1)Python程序设计语言的特点

2)Python内建的数据结构

重点

难点

1)Python内建的数据结构

教学进程

安排

授课内容:

一、Python程序设计概述

1)Python语言的特点

2)基本语法

3)流程控制

4)函数

二、Python内建的数据结构

1)列表及其操作

2)元组及其操作

3)字典及其操作

4)集合及其操作

课后学习

任务布置

掌握函数内建的数据结构,进行例题练习

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第4次课2学时

授课内容

Numpy数值计算基础

教学目的

与要求

Numpy数值计算基础

通过本课的学习,学生应该掌握如下知识:

1)数组对象的创建

2)数组运算

3)数组的切片访问

重点

难点

1)数组的运算

2)数组的切片访问

教学进程

安排

实验内容

1)数组的常用创建方法

2)随机数生成

3)数组变换

4)数组的索引与切片访问

5)数组的运算

6)数据统计与分析

课后学习

任务布置

熟悉Numpy数组运算基础,代码示例学习

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第5次课2学时

授课内容

Pandas数据分析基础

教学目的

与要求

介绍pandas数据分析的基本方法,掌握pandas中的数据结构,数据查询与编辑,汇总基于常用文件的导入

重点

难点

1)数据导入

2)数据查询与编辑

3)数据汇总与简单绘图

教学进程

安排

授课内容:

一、Pandas中的主要数据结构

二、索引对象与常用属性

三、DataFrame的数据查询与编辑

四、数据运算

五、函数应用与映射

六、汇总与统计

七、数据分组与聚合

八、数据文件的导入

课后学习

任务布置

示例练习,熟练掌握Pandas的数据分析方法

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第6次课2学时

授课内容

NumPy数值计算基础(二)

教学目的

与要求

1)掌握Matplotlib数据可视化基础

2)了解Scikit-learn基础

通过本课的学习,学生应该掌握如下知识:

3)掌握Matplotlib参数设置方法

4)掌握Matplotlib常用类型的绘图方法

5)了解Scikit-learn基本内容

重点

难点

1)熟练Matplotlib常用类型的绘图方法

教学进程

安排

授课内容:

一、Matplotlib图表绘制基础

1)Matplotlib简介

2)Matplotlib绘图基础

3)Pyplot动态参数设置

4)文本注解

5)常用绘图方法

二、Scikit-learn基础

1)Scikit-learn简介

2)Scikit-learn中的数据集

3)Scikit-learn主要功能

课后学习

任务布置

示例练习

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第7次课2学时

授课内容

上机实验(一)

教学目的

与要求

通过本课的学习,学生应该掌握如下知识:

1)熟悉掌握Python编程基础

2)熟悉掌握利用Python进行数据分析与可视化的方法

重点

难点

1)Python数据分析与可视化

教学进程

安排

实验内容

1)数据导入

2)数据的探索性分析

3)数据可视化分析

指定数据集

1)学生成绩数据分析

2)药店销售数据

课后学习

任务布置

熟悉Python数据分析与可视化方法、案例实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第8次课2学时

授课内容

Pandas统计分析基础(一)

教学目的

与要求

认识数据。

要求学生应该熟练掌握如下知识的运用:

1)掌握数据的属性及属性类型

2)掌握数据的基本统计描述

3)掌握数据可视化方法

4)掌握数据对象的相似性度量方法

重点

难点

1)数据对象的属性及其分类

2)数据的基本统计描述和数据对象的相似性度量

教学进程

安排

授课内容:认识数据

一、属性及其类型

1)属性

2)数据属性类型

二、数据的基本统计描述

1)中心趋势度量

2)数据散布度量

三、数据可视化方法

四、数据对象的相似性度量

1)不同类型属性的相似性度量方法

2)距离度量的Python实现

课后学习

任务布置

示例练习,数据对象相似性度量代码实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第9次课2学时

授课内容

数据预处理1

教学目的

与要求

介绍数据预处理的必要性,数据预处理的主要方法。

要求学生应该熟练掌握如下知识的运用:

1)数据预处理方法概述

2)掌握数据清洗的方法

3)掌握利用python进行数据清洗的方法

重点

难点

1)数据清洗内容

2)利用Python进行数据清洗

教学进程

安排

授课内容:

一、数据预处理的必要性

1)数据中一般存在的问题

2)数据质量要求

二、数据清洗

1)数据清洗的内容及其方法

2)利用Pandas进行数据清洗

课后学习

任务布置

Pandas数据结构及其操作、熟悉教材习题

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第10次课2学时

授课内容

数据预处理2

教学目的

与要求

数据预处理2

通过本课的学习,学生应该掌握如下知识:

1)数据集成中的关键问题

2)熟悉掌握数据标准化方法

3)数据归约

重点

难点

1)数据集成过程中的关键问题

2)数据变换和收据归约方法

教学进程

安排

讲授内容

一、数据集成

1)掌握集成中的主要问题

2)利用Pandas进行数据合并

二、数据标准化

三、数据归约

1)维归约

2)数量归约和压缩

四、数据变换与离散化

1)数据变换策略

2)利用sklearn进行数据预处理

课后学习

任务布置

熟悉Pandas统计分析方法

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第11次课2学时

授课内容

实验(二)

教学目的

与要求

利用Python实现数据预处理综合实验:

1)掌握数据预处理方法

2)利用Python实现数据预处理

重点

难点

1)数据预处理及其实现

教学进程

安排

授课内容:

一、数据预处理内容

二、利用Python实现数据预处理

课后学习

任务布置

熟练掌握利用Python进行数据预处理的方法,案例实现

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第12次课2学时

授课内容

回归分析1

教学目的

与要求

介绍数据回归分析基础。

要求学生应该熟练掌握如下知识的运用:

1)掌握数据回归分析的原理

2)数据回归分析的分类

3)掌握一元线性回归分析过程

重点

难点

1)回归分析原理

2)一元线性回归分析

教学进程

安排

授课内容:

一、回归分析概述

1)回归分析的定义与分类

2)回归分析过程

二、一元线性回归分析

1)一元线性回归分析方法

2)一元线性回归分析模型的参数估计

3)误差方差估计与主要统计检验

4)一元线性回归的Python实现

课后学习

任务布置

熟悉一元线性回归分析的原理与实现

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第13次课2学时

授课内容

回归分析2

教学目的

与要求

数据回归分析2

通过本课的学习,学生应该掌握如下知识:

1)多元线性回归

2)逻辑回归

3)其他回归分析

重点

难点

1)多元线性回归

2)逻辑回归

教学进程

安排

讲授内容

一、多元线性回归

1)多元线性回归分析模型

2)多元线性回归参数估计与假设检验

3)多元线性回归的Python实现

二、逻辑回归

三、其他回归分析

1)多项式回归

2)岭回归

3)逐步回归等

课后学习

任务布置

逻辑回归分析与实现

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第14次课2学时

授课内容

综合实验(三)

教学目的

与要求

掌握回归分析的主要方法及其实现。

要求学生应该熟练掌握如下知识的运用:

1)掌握各种常用的回归分析方法

2)不同回归分析方法的实现及其特点比较

重点

难点

1)回归分析模型选择

2)回归分析方法特性对比

教学进程

安排

授课内容:

一、不同回归分析方法特性比较

二、对指定数据集,利用不同的回归方法分析

课后学习

任务布置

熟悉掌握回归分析方法

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第15次课2学时

授课内容

关联规则挖掘1

教学目的

与要求

介绍关联规则挖掘方法。

要求学生应该熟练掌握如下知识的运用:

1)了解频繁项集、闭项集和关联规则的概念,理解模式评估方法

2)掌握Aoriori算法

重点

难点

1)Aoriori算法

教学进程

安排

授课内容:

一、关联规则分析概述

1)频繁项集、闭项集和关联规则

二、Apriori算法

1)频繁项集挖掘方法

2)由频繁项集产生关联规则

3)提高Apriori算法的效率

课后学习

任务布置

实现Aoriori算法

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第16次课2学时

授课内容

关联规则挖掘2

教学目的

与要求

关联规则挖掘挖掘方法。

通过本课的学习,学生应该掌握如下知识:

1)熟悉掌握FP频繁模式增长树算法

2)熟悉掌握关联规则的评估方法

重点

难点

1)FP频繁模式增长树算法

2)关联规则的评估方法

教学进程

安排

讲授内容:

一、频繁模式增长树算法

二、使用垂直数据格式挖掘频繁项集

三、关联模式评估方法

1)强关联规则不一定是有趣的

2)从关联分析到相关分析

四、关联规则应用

课后学习

任务布置

熟悉FP树算法原理

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第17次课2学时

授课内容

综合实验(四)

教学目的

与要求

介绍关联规则挖掘实现方法。

要求学生应该熟练掌握如下知识的运用:

1)掌握关联规则分析的原理

2)熟悉关联规则分析的实现

重点

难点

1)关联规则分析的实现

教学进程

安排

实验内容:

利用Python实现数据分关联规则挖掘与分析

课后学习

任务布置

熟悉Matplotlib常用绘图方法、教材习题练习

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第18次课2学时

授课内容

分类分析1

教学目的

与要求

数据分类分析1。

通过本课的学习,学生应该掌握如下知识:

1)掌握分类与预测的基本思想

2)分类的概念和意义

3)决策树规约方法

重点

难点

1)分类的原理

2)决策树规约算法

教学进程

安排

讲授内容

一、分类概述

二、决策树规约

1)决策树原理

2)ID3算法

3)C4.5算法

4)CART算法

5)树剪枝

课后学习

任务布置

熟悉Seaborn数据可视化方法

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第19次课2学时

授课内容

分类分析2

教学目的

与要求

分类算法介绍2。

要求学生应该熟练掌握如下知识的运用:

1)K近邻算法

2)SVM算法

重点

难点

1)KNN算法

2)SVM算法

教学进程

安排

授课内容:

一、K-近邻算法

1)算法简介

2)算法的Python实现

二、SVM算法

1)算法原理

2)算法实现

课后学习

任务布置

KNN和SVM算法实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第20次课2学时

授课内容

分类分析3

教学目的

与要求

数据分析算法介绍3。

通过本课的学习,学生应该掌握如下知识:

1)掌握贝叶斯分类算法

2)掌握模型评估与选择

重点

难点

1)贝叶斯分类方法

2)模型评估与选择

教学进程

安排

讲授内容

一、贝叶斯分类

1)算法原理

2)朴素贝叶斯分类

3)高斯朴素贝叶斯分类

4)多项式朴素贝叶斯分类

二、模型评估与选择

1)分类器性能评估

2)模型选择

课后学习

任务布置

贝叶斯分类算法实现与评估

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第21次课2学时

授课内容

分类分析4

教学目的

与要求

介绍分类算法4。

要求学生应该熟练掌握如下知识的运用:

1)组合分类框架与原理

2)组合分类方法

重点

难点

1)Adaboost

2)随机森林

教学进程

安排

授课内容:

一、组合分类

1)组合分类方法简介

2)袋装

3)提升和Adaboost

4)随机森林

课后学习

任务布置

随机森林算法实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第22次课2学时

授课内容

综合实验(五)

教学目的

与要求

分类算法综合应用

通过本课的学习,学生应该掌握如下知识:

1)熟悉典型的分类算法应用

2)熟悉分类算法的评估与模型选择

重点

难点

1)典型分类算法

2)分类算法评估与模型选择

教学进程

安排

实验内容

一、分类分析综合实验

1)用不同的算法实现给定数据集的分类分析

2)掌握利用Python实现数据分类分析的常用方法

课后学习

任务布置

熟悉时间序列数据分析方法

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第23次课2学时

授课内容

聚类分析1

教学目的

与要求

聚类算法介绍。

要求学生应该熟练掌握如下知识的运用:

1)掌握聚类分析的基本原理

2)掌握K-Means算法的原理

重点

难点

1)聚类算法的原理

2)K-Means算法的原理

教学进程

安排

授课内容:

一、聚类分析概述

1)聚类分析概念

2)聚类算法分类

二、K-Means算法

1)算法基本原理

2)算法改进

3)算法实现

课后学习

任务布置

K-Means算法代码实现(不调用系统方法)

主要

参考资料

《数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第24次课2学时

授课内容

聚类分析2

教学目的

与要求

聚类算法介绍。

通过本课的学习,学生应该掌握如下知识:

1)掌握层次聚类算法原理

2)掌握层次聚类算法

重点

难点

1)层次聚类算法原理

2)层次聚类算法

教学进程

安排

讲授内容:

一、层次聚类

1)层次算法原理

2)簇间相似性度量

3)分裂层次聚类

4)凝聚层次聚类

5)算法应用

课后学习

任务布置

层次聚类算法实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第25次课2学时

授课内容

聚类3

教学目的

与要求

聚类算法介绍。

要求学生应该熟练掌握如下知识的运用:

1)掌握基于密度的聚类算法思想

2)掌握DBSCAN算法

重点

难点

1)基于密度的聚类算法思想

2)掌握DBSCAN算法

教学进程

安排

授课内容:

一、基于密度的聚类

1)算法原理

2)算法改进

3)DBSCAN算法实现

课后学习

任务布置

算法示例实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第26次课2学时

授课内容

聚类4

教学目的

与要求

聚类算法介绍。

要求学生应该熟练掌握如下知识的运用:

1)了解其他典型的聚类算法

2)掌握FCM算法

重点

难点

1)STING聚类

2)FCM聚类

教学进程

安排

授课内容:

一、其他聚类方法

1)STING聚类

2)概念聚类

3)模糊聚类

课后学习

任务布置

FCM算法实现

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第27次课2学时

授课内容

聚类5

教学目的

与要求

聚类分析介绍。

通过本课的学习,学生应该掌握如下知识:

1)了解估计聚类趋势方法

2)掌握确定簇数目的方法

3)熟悉聚类质量测定方法

重点

难点

1)确定簇数目的方法

2)聚类质量测定方法

教学进程

安排

讲授内容:

一、聚类评估

1)聚类趋势估计

2)聚类簇数目确定

3)聚类质量测定

课后学习

任务布置

查阅聚类评估的主要方法

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第28次课2学时

授课内容

综合实验(六)

教学目的

与要求

应用聚类算法及其评估方法,实现数据聚类的综合分析。

要求学生应该熟练掌握如下知识的运用:

1)熟悉典型的聚类算法

2)掌握典型聚类算法的特性

重点

难点

1)聚类算法实现

2)算法评价

教学进程

安排

实验内容:

一、数据的聚类分析综合实验

1)算法实现

2)算法分析与评估

3)算法对比

课后学习

任务布置

熟悉聚类算法及其应用

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第29次课2学时

授课内容

神经网络与深度学习1

教学目的

与要求

介绍神经网络基本原理。

通过本课的学习,学生应该掌握如下知识:

1)熟悉神经元模型

2)感知机与多层感知机

重点

难点

1)神经元模型

3)感知机原理

教学进程

安排

讲授内容:

1)神经元模型

2)感知机与多层感知机

课后学习

任务布置

阅读神经网络文献

主要

参考资料

《Python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第30次课2学时

授课内容

神经网络与深度学习2

教学目的

与要求

神经网络与深度学习基础介绍。

通过本课的学习,学生应该掌握如下知识:

1)熟悉多层前馈神经网络的原理

2)理解后向传播算法

重点

难点

1)多层前馈神经网络的原理

2)理解后向传播算法

教学进程

安排

讲授内容:

1)多层前馈神经网络

2)BP学习算法

3)BP神经网络应用

课后学习

任务布置

BP神经网络应用案例学习

主要

参考资料

《python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第31次课2学时

授课内容

神经网络与深度学习3

教学目的

与要求

深度学习基础介绍。

通过本课的学习,学生应该掌握如下知识:

1)了解深度学习基本原理

2)了解几种常见深度学习模型

重点

难点

1)深度学习原理

2)CNN模型

教学进程

安排

讲授内容:

1)深度学习概述

2)常用的深度学习模型

课后学习

任务布置

查阅CNN深度学习文献

主要

参考资料

《python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第32次课2学时

授课内容

综合实验(七)

教学目的

与要求

BP神经网络综合应用。

通过本课的学习,学生应该掌握如下知识:

1)掌握BP神经网络的应用

重点

难点

1)多层前馈神经网络的原理

2)理解后向传播算法

教学进程

安排

实验内容:

BP神经网络综合应用

课后学习

任务布置

BP神经网络应用案例学习

主要

参考资料

《python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第33次课2学时

授课内容

神经网络与深度学习2

教学目的

与要求

离群点检测介绍。

通过本课的学习,学生应该掌握如下知识:

1)掌握离群点的概念分类

2)掌握离群点检测的常用方法

重点

难点

1)离群点检测的常用方法

教学进程

安排

讲授内容:

一、离群点概述

1)离群点概念

2)离群点类型

二、离群点检测

1)基于统计学的检测

2)基于邻近的检测

3)基于聚类的检测

4)基于分类的检测

课后学习

任务布置

掌握离群点检测方法,利用sklearn进行离群点检测

主要

参考资料

《python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

《数据挖掘与机器学习》课程教案

第34~36次课6学时

授课内容

数据挖掘案例分析1-3

教学目的

与要求

掌握数据挖掘综合应用

重点

难点

数据挖掘与机器学习综合应用

教学进程

安排

实验内容:

1)数据挖掘应用

2)机器学习典型算法应用

课后学习

任务布置

数据挖掘与机器学习综合案例实现

主要

参考资料

《python数据挖掘与机器学习》魏伟一等主编,清华大学出版社

完整的教案,请在

1
查看完整版本: Python数据挖掘教与学教学大纲教