机器学习 - 评估

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本文介绍 机器学习 Studio (经典) 中可用于评估机器学习模型的模块。 训练完成后执行模型评估,以测量预测的准确性并评估模型拟合。

注意

仅适用于机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

本文还介绍了 机器学习 Studio (经典) 中用于模型创建、训练、评估和评分的整个过程。

在 机器学习 Studio (经典) 中创建和使用机器学习模型

机器学习的典型工作流包括以下阶段:

  1. 选择合适的算法并设置初始选项。
  2. 使用兼容数据训练模型。
  3. 使用基于模型中模式的新数据创建预测。
  4. 评估模型以确定预测是否准确、错误量以及是否过度拟合。

机器学习 Studio (经典) 支持灵活的可自定义机器学习框架。 此过程中的每个任务都由特定类型的模块执行。 可以修改、添加或删除模块,而不会破坏其余实验。

使用此类别中的模块评估现有模型。 模型评估通常需要某种结果数据集。 如果没有评估数据集,可以通过评分生成结果。 还可以使用测试数据集或包含“地面真相”或已知预期结果的其他一组数据。

有关模型评估的详细信息

通常,在评估模型时,选项取决于要评估的模型类型和要使用的指标。 这些主题列出了一些最常用的指标:

机器学习 Studio (经典) 还提供各种可视化效果,具体取决于所使用的模型类型以及模型预测的类数。 有关查找这些可视化效果的帮助,请参阅 查看评估指标

解释这些统计信息通常需要更深入地了解训练模型的特定算法。 有关如何评估模型以及如何解释每个度量值返回的值,请参阅如何评估机器学习中的模型性能

模块列表

机器学习 - 评估类别包含以下模块:

  • 交叉验证模型:通过对数据进行分区来交叉验证分类或回归模型的参数估计值。

    如果要测试训练集和模型的有效性,请使用 交叉验证模型 模块。 交叉验证将数据分区为折叠,然后针对折叠组合测试多个模型。

  • 评估模型:使用标准指标评估评分的分类或回归模型。

    在大多数情况下,将使用泛型 评估模型 模块。 如果模型基于受支持的分类或回归算法之一,则尤其如此。

  • 评估推荐器:评估推荐器模型预测的准确性。

    对于建议模型,请使用 “评估推荐器” 模块。

  • 对于聚类分析模型,请使用 “将数据分配到群集” 模块。 然后,使用该模块中的可视化效果查看评估结果。
  • 可以创建自定义评估指标。 若要创建自定义评估指标,请在 “执行 R 脚本 ”模块中提供 R 代码,或在 “执行 Python 脚本 ”模块中提供 Python 代码。 如果要使用作为开源库的一部分发布的指标,或者想要设计自己的指标来测量模型准确性,则此选项非常有用。

示例

解释机器学习模型评估的结果是一种艺术。 除了数据和业务问题外,它还需要了解数学结果。 建议查看以下文章,了解如何解释不同方案中的结果:

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

查看评估指标

了解在 机器学习 Studio (经典) 中查找每个模型类型的指标图表的位置。

双类分类模型

二进制分类模型的默认视图包括交互式 ROC 图表和主体指标的值表。

An interactive ROC chart and a table of values for the principal metrics in binary classification models

有两个选项可用于查看二元分类模型:

  • 右键单击模块输出,然后选择“ 可视化”。
  • 右键单击该模块,选择 “评估结果”,然后选择“ 可视化”。

还可以使用滑块更改概率 阈值 。 阈值确定结果是否应接受为 true。 然后,可以看到这些值的变化。

多类分类模型

多类分类模型的默认指标视图包括所有类的混淆矩阵,以及整个模型的一组指标。

有两个选项可用于查看多类分类模型:

  • 右键单击模块输出,然后选择“ 可视化”。
  • 右键单击该模块,选择 “评估结果”,然后选择“ 可视化”。

为简单起见,下面是并排显示的两个结果:

Metrics table and Confusion Matrix for multiclass classification models

回归模型

回归模型的指标视图因创建的模型类型而异。 指标视图基于基础算法接口,最适合模型指标。

有两个选项可用于查看回归模型:

  • 若要查看表中的准确性指标,请右键单击 “评估模型” 模块的输出,然后选择“ 可视化”。
  • 若要查看包含值的错误直方图,请右键单击该模块,选择 “评估结果”,然后选择“ 可视化”。

Error Histogram and Metrics table for linear regression models

“错误直方图”视图可帮助你了解错误分布方式。 它针对以下模型类型提供,并包含默认指标表,例如根平均平方错误 (RMSE) 。

以下回归模型生成默认指标表以及一些自定义指标:

用于处理数据的使用技巧

若要从 机器学习 Studio (经典) UI 中提取数字,可以使用新的 PowerShell 库进行机器学习。 可以从整个试验或单个模块获取元数据和其他信息。

若要从 评估模型 模块中提取值,必须向模块添加唯一注释,以便更轻松地识别。 然后,使用 Download-AmlExperimentNodeOutput cmdlet 从 JSON 格式的可视化效果中获取指标及其值。

有关详细信息,请参阅 使用 PowerShell 创建机器学习模型

另请参阅