机器学习的目标是从经验数据中推导出规律,并将这种规律应用于新的数据中。我们把机器从经验数据中推导并找到规律的这一过程称为“学习”,并将规律应用与新数据这一过程称为“预测”,其中的规律称为“模型”。
1.监督学习 监督学习事直通过设置所谓的“正确答案”教会机器如何学习,其中的数据带有类别标记(正确答案),即我们想要预测的结果值,包括下面介绍的内容。 (1)分类 分类的经验数据属于两个或更多个标记类别,我们想从已经标记的数据中学习如何预测未标记数据的类别。分类问题的一个例子是手写数字识别,其目的是将每个输入向量分配给有限数目的离散类别之一。我们通常把分类视作监督学习的一个离散形式(区别于连续形式),从有限的类别中,给每个样本贴上正确的标签。 (2)回归 如果期望的输入由一个或多个连续变量组成,则该任务称为回归。回归问题的一个例子是预测蛙鱼的长度是其年龄和题中的函数。 2.无监督学习 无监督学习是指不设置所谓的“正确答案”去教会机器如何去学习,而是让他自己发现数据中的规律,其训练数据由没有任何类别标记的一组输入向量x组成。这种问题的目标可能是在数据中发现彼此类似的实力所聚成的组,称为聚类;或者是确定输入空间内的数据分布,称为密度估计;又或者是从高维数据投影空间缩小道二维或三维空间以进行可视化。 下面直接捞干的,构建机器学习框架一般有以下几个步骤: 第一 数据的加载; 第二 选择模型; 第三 模型的训练; 第四 模型的预测; 第五 模型的保存。