周志华教授力作,豆瓣10分好评,集成学习 - 数据

TUhjnbcbe - 2023/7/3 21:03:00

专业治疗皮肤白癜风 https://jbk.39.net/yiyuanzaixian/bjzkbdfyy/

基本概念

机器学习、模式识别和数据挖掘的一项主要任务就是基于“数据集”(dataset)构建“好”的“模型”(model)。

一个“数据集”通常由一组特征向量构成，其中每个特征向量使用一组“特征”(feature)来描述一个对象。例如，在图1.1中所示的3-高斯人造数据集中，每个对象就是一个被特征x坐标、y坐标和形状所表述的数据点，相应的特征向量可写成(.5,.8,cross)或(.5,.8,circle)。数据集中特征的数量被称为“维度”(dimension);例如，上述数据集的维度为3。通常，“特征”也会被称为

“属性”，一个“特征向量”也会被称为一个“示例”(instance)，一个“数据集”也会被称为一个“样本集”(sample)。

一个“模型”通常指一个预测模型或者从数据集中构建的数据结构的模型;例如，决策树、神经网络、支持向量机等。从数据中构建模型的过程称为“学习”(learning)或“训练”(training)，这一过程由“学习算法”(learningalgorithms)来完成。学习获得的模型被称为“假设”(hypothesis)，在本书中会被称为“学习器”(learner)。

现实中有不同类型的学习问题，其中最常见的是“监督学习”(supervisedlearning)和“无监督学习”(unsupervisedlearning)。监督学习的目标是预测未见样本的目标特征的值，此时学习获得的模型被称为“预测器”(predictor)。例如，在3-高斯数据集上，如果要预测数据点的形状，“cross”和“circle”被称为“标记”(labels)，预测器应该能够预测未知标记样本的标记，如预测数据点(.2,.3)的形状。

如果标记是类别(categorical)变量，如这里的“形状”，此学习任务被称为“分类”(classification)，相应的学习器被称为“分类器”(classifier);如果标记是数值(numerical)变量，如这里的“x坐标”，此学习任务被称为“回归”(regression)，相应的学习器被称为“回归模型”(fittedregressionmodel)。在两种情况下，学习过程都是在具有标记信息的数据集上完成的;此时，一个具有标记的示例称为一个“样本”(example)。在“二分类”(binaryclassification)中，我们通常使用“正”和“负”表示两个类别标记。

无监督学习不依赖于标记信息，它的目标是发现数据的一些内在分布信息。一个典型的任务就是“聚类”(clustering)，即:发现数据点内在的“簇”(cluster)结构。在本书中，我们主要

数据结构论坛