了解机器学习的原则

5 分钟

机器学习是一种用于创建预测模型的编程技术。在典型编程中，代码用于描述生成结果的特定步骤；而机器学习与之不同，它依赖于使用算法以迭代方式探索数据实体的特征与生成的模型应预测的标签之间的关系。机器学习算法基于概率理论和统计信息，并依赖大量数据来训练模型。

简单来说，机器学习模型是一个函数，它采用观察到的实体的特征（特点），并对这些特征执行计算以返回预测标签。通常将特征称为 x，将预测标签称为 y，因此实际上，机器学习模型是表达式 y = f(x) 中的函数 f。

函数为计算标签值而对特征执行的特定操作是由用于训练模型的算法确定的。

机器学习类型

从广义上讲，机器学习有两种常见类型：

监督式机器学习，其中，使用包含已知标签值的数据训练模型（因此算法使用现有数据在 x 和 y 之间建立关系，从而生成可应用于 x 以计算 y 的函数）。
非监督式机器学习，其中，仅使用特征 (x) 值训练模型，并将具有类似特征的观察结果分组（或聚类）。

监管式机器学习

本模块重点介绍监督式机器学习，因为这是最常见的方案。在监督式机器学习的广泛定义中，有两种常见的机器学习算法：

回归算法，其中，标签是数值，例如价格、温度、金额或其他可衡量的值。回归算法生成模型，其中，函数 (f) 对特征 (x) 进行运算，以计算标签 (y) 的数值。

例如，回归算法可用于训练一个模型，根据月份、星期几、温度、湿度等特征预测一个公园内售货亭在特定的一天内销售的冰淇淋的预期数量。
分类算法，其中，标签是离散类别（或类）。分类算法将生成模型，其中函数 (f) 对特征 (x) 进行运算以计算每个可能类的概率值，并返回概率最高的类的标签 (y)。

例如，分类算法可用于训练一个模型，根据血液胰岛素水平、体重、身高、年龄等特征预测患者是否患有糖尿病。标识两个可能类之一的分类模型（如 true 或 false）是二元分类的一个例子。预测两个以上类（例如，区分无糖尿病、1 型糖尿病或 2 型糖尿病的患者）的概率的算法用于多类分类。

非监管式机器学习

非监督式学习的最常见形式是聚类分析，其中，数据事例的特征被视为多维空间中点的向量。聚类分析算法的目标是定义聚类，对点进行分组，使具有类似特征的事例靠近，但各聚类之间又明显分开。

当你需要定义不同类别的数据，但没有预先定义的类别，而现有数据观察结果已分配到这些类别时，聚类分析非常有用。例如，你可能需要根据客户资料中的相似点对客户进行细分。聚类分析也可以作为生成分类解决方案的初始步骤；实质上，可以使用聚类分析为数据确定适当的类。