基本概念
机器学习、模式识别和数据挖掘的一项主要任务就是基于“数据集”(dataset)构建“好”的“模型”(model)。
一个“数据集”通常由一组特征向量构成,其中每个特征向量使用一组“特征”(feature)来描述一个对象。例如,在图1.1中所示的3-高斯人造数据集中,每个对象就是一个被特征x坐标、y坐标和形状所表述的数据点,相应的特征向量可写成(.5,.8,cross)或(.5,.8,circle)。数据集中特征的数量被称为“维度”(dimension);例如,上述数据集的维度为3。通常,“特征”也会被称为
“属性”,一个“特征向量”也会被称为一个“示例”(instance),一个“数据集”也会被称为一个“样本集”(sample)。
一个“模型”通常指一个预测模型或者从数据集中构建的数据结构的模型;例如,决策树、神经网络、支持向量机等。从数据中构建模型的过程称为“学习”(learning)或“训练”(training),这一过程由“学习算法”(learningalgorithms)来完成。学习获得的模型被称为“假设”(hypothesis),在本书中会被称为“学习器”(learner)。
现实中有不同类型的学习问题,其中最常见的是“监督学习”(supervisedlearning)和“无监督学习”(unsupervisedlearning)。监督学习的目标是预测未见样本的目标特征的值,此时学习获得的模型被称为“预测器”(predictor)。例如,在3-高斯数据集上,如果要预测数据点的形状,“cross”和“circle”被称为“标记”(labels),预测器应该能够预测未知标记样本的标记,如预测数据点(.2,.3)的形状。
如果标记是类别(categorical)变量,如这里的“形状”,此学习任务被称为“分类”(classification),相应的学习器被称为“分类器”(classifier);如果标记是数值(numerical)变量,如这里的“x坐标”,此学习任务被称为“回归”(regression),相应的学习器被称为“回归模型”(fittedregressionmodel)。在两种情况下,学习过程都是在具有标记信息的数据集上完成的;此时,一个具有标记的示例称为一个“样本”(example)。在“二分类”(binaryclassification)中,我们通常使用“正”和“负”表示两个类别标记。
无监督学习不依赖于标记信息,它的目标是发现数据的一些内在分布信息。一个典型的任务就是“聚类”(clustering),即:发现数据点内在的“簇”(cluster)结构。在本书中,我们主要