机器学习 - 评估
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
本文介绍 机器学习 Studio (经典) 中可用于评估机器学习模型的模块。 训练完成后执行模型评估,以测量预测的准确性并评估模型拟合。
本文还介绍了 机器学习 Studio (经典) 中用于模型创建、训练、评估和评分的整个过程。
在 机器学习 Studio (经典) 中创建和使用机器学习模型
机器学习的典型工作流包括以下阶段:
- 选择合适的算法并设置初始选项。
- 使用兼容数据训练模型。
- 使用基于模型中模式的新数据创建预测。
- 评估模型以确定预测是否准确、错误量以及是否过度拟合。
机器学习 Studio (经典) 支持灵活的可自定义机器学习框架。 此过程中的每个任务都由特定类型的模块执行。 可以修改、添加或删除模块,而不会破坏其余实验。
使用此类别中的模块评估现有模型。 模型评估通常需要某种结果数据集。 如果没有评估数据集,可以通过评分生成结果。 还可以使用测试数据集或包含“地面真相”或已知预期结果的其他一组数据。
有关模型评估的详细信息
通常,在评估模型时,选项取决于要评估的模型类型和要使用的指标。 这些主题列出了一些最常用的指标:
机器学习 Studio (经典) 还提供各种可视化效果,具体取决于所使用的模型类型以及模型预测的类数。 有关查找这些可视化效果的帮助,请参阅 查看评估指标。
解释这些统计信息通常需要更深入地了解训练模型的特定算法。 有关如何评估模型以及如何解释每个度量值返回的值,请参阅如何评估机器学习中的模型性能。
模块列表
机器学习 - 评估类别包含以下模块:
交叉验证模型:通过对数据进行分区来交叉验证分类或回归模型的参数估计值。
如果要测试训练集和模型的有效性,请使用 交叉验证模型 模块。 交叉验证将数据分区为折叠,然后针对折叠组合测试多个模型。
评估模型:使用标准指标评估评分的分类或回归模型。
在大多数情况下,将使用泛型 评估模型 模块。 如果模型基于受支持的分类或回归算法之一,则尤其如此。
评估推荐器:评估推荐器模型预测的准确性。
对于建议模型,请使用 “评估推荐器” 模块。
相关任务
- 对于聚类分析模型,请使用 “将数据分配到群集” 模块。 然后,使用该模块中的可视化效果查看评估结果。
- 可以创建自定义评估指标。 若要创建自定义评估指标,请在 “执行 R 脚本 ”模块中提供 R 代码,或在 “执行 Python 脚本 ”模块中提供 Python 代码。 如果要使用作为开源库的一部分发布的指标,或者想要设计自己的指标来测量模型准确性,则此选项非常有用。
示例
解释机器学习模型评估的结果是一种艺术。 除了数据和业务问题外,它还需要了解数学结果。 建议查看以下文章,了解如何解释不同方案中的结果:
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
查看评估指标
了解在 机器学习 Studio (经典) 中查找每个模型类型的指标图表的位置。
双类分类模型
二进制分类模型的默认视图包括交互式 ROC 图表和主体指标的值表。
有两个选项可用于查看二元分类模型:
- 右键单击模块输出,然后选择“ 可视化”。
- 右键单击该模块,选择 “评估结果”,然后选择“ 可视化”。
还可以使用滑块更改概率 阈值 。 阈值确定结果是否应接受为 true。 然后,可以看到这些值的变化。
多类分类模型
多类分类模型的默认指标视图包括所有类的混淆矩阵,以及整个模型的一组指标。
有两个选项可用于查看多类分类模型:
- 右键单击模块输出,然后选择“ 可视化”。
- 右键单击该模块,选择 “评估结果”,然后选择“ 可视化”。
为简单起见,下面是并排显示的两个结果:
回归模型
回归模型的指标视图因创建的模型类型而异。 指标视图基于基础算法接口,最适合模型指标。
有两个选项可用于查看回归模型:
- 若要查看表中的准确性指标,请右键单击 “评估模型” 模块的输出,然后选择“ 可视化”。
- 若要查看包含值的错误直方图,请右键单击该模块,选择 “评估结果”,然后选择“ 可视化”。
“错误直方图”视图可帮助你了解错误分布方式。 它针对以下模型类型提供,并包含默认指标表,例如根平均平方错误 (RMSE) 。
以下回归模型生成默认指标表以及一些自定义指标:
用于处理数据的使用技巧
若要从 机器学习 Studio (经典) UI 中提取数字,可以使用新的 PowerShell 库进行机器学习。 可以从整个试验或单个模块获取元数据和其他信息。
若要从 评估模型 模块中提取值,必须向模块添加唯一注释,以便更轻松地识别。 然后,使用 Download-AmlExperimentNodeOutput cmdlet 从 JSON 格式的可视化效果中获取指标及其值。
有关详细信息,请参阅 使用 PowerShell 创建机器学习模型。