重要术语的机器学习术语表

以下列表是重要的机器学习术语的编译,这些术语在 ML.NET 中生成自定义模型时非常有用。

准确性

分类中,准确性是正确分类的项数除以测试集中项目总数。 范围为 0(最不准确)到 1(最准确)。 准确性是模型性能的评估指标之一。 考虑它与 精度召回,并 F 分数

曲线下的区域(AUC)

二元分类中,评估指标是曲线下绘制真正率(在 y 轴上)与假正率(在 x 轴上)的面积的值。 范围为 0.5 (最差) 到 1 (最佳)。 也称为 ROC 曲线下的区域,即接收器操作特征曲线。 有关详细信息,请参阅维基百科上的 接收方操作特征 文章。

二元分类

分类,其中 标签 只有两个类中的一个。 有关详细信息,请参阅 机器学习任务 主题 二元分类 部分。

校准

校准是将原始分数映射到类成员身份的过程,用于二元和多类分类。 一些 ML.NET 教练有一个 NonCalibrated 后缀。 这些算法生成原始分数,然后必须映射到类概率。

目录

在 ML.NET 中,目录是扩展函数的集合,按通用用途分组。

例如,每个机器学习任务(二元分类、回归、排名等)都有可用的机器学习算法(训练器)目录。 二元分类训练器目录为:BinaryClassificationCatalog.BinaryClassificationTrainers

分类

当数据用于预测类别时,监督式机器学习 任务称为分类。 二元分类 是指仅预测两个类别(例如,将图像分类为“猫”或“狗”的图片)。 多类分类 是指预测多个类别(例如,将图像分类为特定狗种图片时)。

确定系数

回归中,评估指标指示数据与模型拟合程度。 范围为 0 到 1。 值为 0 表示数据是随机的,或者不能适合模型。 值为 1 表示模型与数据完全匹配。 这通常称为 r2、R2或 r 平方。

数据

数据是任何机器学习应用程序的核心。 ML.NET 数据由 IDataView 对象表示。 数据视图对象:

  • 由列和行组成
  • 被延迟计算,即它们仅在操作调用数据时加载数据
  • 包含定义每个列的类型、格式和长度的架构

估计

ML.NET 中实现 IEstimator<TTransformer> 接口的类。

估算器是转换的规范(数据准备转换和机器学习模型训练转换)。 估算器可以链接到转换管道中。 调用 Fit 时,将了解估算器或估算器管道的参数。 Fit 的结果是 转换器

扩展方法

属于类的 .NET 方法,但在类外部定义。 扩展方法的第一个参数是对扩展方法所属类的静态 this 引用。

扩展方法在 ML.NET 中广泛使用,以构造 估算器的实例

特征

正在测量的现象的可度量属性,通常是数值(双精度值)。 多个特征称为 特征向量,通常存储为 double[]。 特征定义正在测量的现象的重要特征。 有关详细信息,请参阅维基百科上的 功能 文章。

特征工程

特征工程是一个过程,涉及定义一组 特征 和开发从可用现象数据(即特征提取)生成特征向量的软件。 有关详细信息,请参阅维基百科上的 功能工程 文章。

F 分数

分类中,用于平衡 精度召回率的评估指标。

超参数

机器学习算法的参数。 示例包括决策林中要学习的树数或梯度下降算法中的步骤大小。 超参数 的值是在训练模型之前设置的,并控制查找预测函数的参数的过程,例如,决策树中的比较点或线性回归模型中的权重。 有关详细信息,请参阅维基百科上的 超参数 文章。

标签

要通过机器学习模型预测的元素。 例如,狗的品种或未来的股票价格。

日志丢失

分类中,用于描述分类器准确性的评估指标。 日志丢失越小,分类器越准确。

Loss 函数

损失函数是训练标签值与模型进行的预测之间的差异。 通过最小化损失函数来估计模型的参数。

可以使用不同的损失函数来配置不同的训练器。

平均绝对误差 (MAE)

回归中,评估指标是所有模型错误的平均值,其中模型错误是预测 标签 值与正确的标签值之间的距离。

传统上,预测函数的参数。 例如,线性回归模型中的权重或决策树中的拆分点。 在 ML.NET 中,模型包含预测域对象的 标签 所需的所有信息(例如图像或文本)。 这意味着 ML.NET 模型包括必要的特征化步骤以及预测函数的参数。

多类分类

分类,其中 标签 是三个或更多个类中的一个。 有关详细信息,请参阅 机器学习任务 主题 多类分类 部分。

N 元语法

文本数据的特征提取方案:任何 N 字序列都变成 特征 值。

正常化

规范化是将浮点数据缩放为介于 0 和 1 之间的值的过程。 ML.NET 中使用的许多训练算法都需要规范化输入特征数据。 ML.NET 为规范化 提供了一系列转换。

数值特征向量

仅包含数值的 特征 向量。 这类似于 double[]

管道

适合数据集的模型所需的所有操作。 管道由数据导入、转换、特征化和学习步骤组成。 训练管道后,它会变成模型。

精度

分类中,类的精度是正确预测为属于该类的项目数除以预测为属于该类的项总数。

召回

分类中,类的召回率是正确预测为属于该类的项目数除以实际属于该类的项总数。

正规化

正则化会惩罚线性模型过于复杂。 有两种类型的正则化:

  • $L_1$ 正则化为微不足道特征的权重为零。 保存的模型的大小在此类正则化后可能会变小。
  • $L_2$ 正则化可最大程度地减少微不足道功能的权重范围。 这是一个更常规的过程,对离群值不太敏感。

回归

受监督的机器学习 任务,其中输出是实际值,例如 double。 示例包括预测股票价格。 有关详细信息,请参阅 机器学习任务 主题 回归 部分。

相对绝对错误

回归中,评估指标是所有绝对误差的总和除以正确 标签 值与所有正确标签值的平均值之间的距离之和。

相对平方误差

回归中,评估指标是所有平方绝对误差的总和除以正确 标签 值与所有正确标签值的平均值之间的平方距离之和。

平均平方误差的根 (RMSE)

回归中,评估指标是误差平方平均值的平方根。

得分

评分是将新数据应用于定型机器学习模型和生成预测的过程。 评分也称为推理。 根据模型的类型,评分可以是原始值、概率或类别。

监督式机器学习

机器学习的子类,其中所需模型预测尚未看到数据的标签。 示例包括分类、回归和结构化预测。 有关详细信息,请参阅维基百科 监督式学习文章。

训练

标识给定训练数据集的 模型 的过程。 对于线性模型,这意味着查找权重。 对于树,它涉及标识拆分点。

变压器

实现 ITransformer 接口的 ML.NET 类。

转换器将一个 IDataView 转换为另一个。 转换器是通过训练 估算器或估算器管道创建的。

无监督机器学习

机器学习的子类,其中所需模型在数据中查找隐藏的(或潜在)结构。 示例包括聚类分析、主题建模和维度缩减。 有关详细信息,请参阅维基百科上的 无监督学习 文章。