ML Studio 中的机器学习模块 (经典) 模块
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
机器学习的典型工作流包括多个阶段:
确定要解决的问题和用于衡量结果的指标。
查找、清理和准备适当的数据。
确定最佳特征和工程新功能。
生成、评估和优化模型。
使用模型生成预测、建议和其他结果。
本部分中的模块提供了机器学习的最后阶段的工具,在此阶段,你将算法应用于数据以训练模型。 在这些最终阶段,还会生成分数,然后评估模型的准确性和有用性。
按类别列出机器学习任务
-
向配置的模型提供数据以从模式中学习,并创建可用于预测的统计信息。
-
使用训练的模型创建预测。
-
度量已训练模型的准确性,或比较多个模型。
有关此实验性工作流的详细说明,请参阅 信用风险解决方案演练。
先决条件
在进入生成模型的有趣部分之前,通常需要进行大量准备工作。 本部分提供指向 机器学习 Studio (经典) 中的工具的链接,这些工具可帮助你清理数据、提高输入质量并防止运行时错误。
数据浏览和数据质量
确保数据是所选算法的合适数据类型、正确的数量和适当的质量。 了解你拥有多少数据,以及数据的分布方式。 是否存在离群值? 这些是如何生成的,它们的含义是什么? 是否存在任何重复记录?
处理缺失值
缺失值会在多个方面影响结果。 例如,几乎所有的统计方法都会丢弃具有缺失值的用例。 默认情况下,机器学习遇到缺失值的行时,将遵循以下规则:
如果用来训练模型的数据具有缺失值,则跳过具有缺少值的所有行。
如果在对模型评分时用作输入的数据缺少值,则缺失值将用作输入,但会传播 null 值。 这通常意味着在结果中插入 null,而不是有效的预测。
在训练模型之前,请务必检查数据。 若要计算缺失值或更正数据,请使用以下模块:
选择特征并减少维数
机器学习 Studio (经典) 可帮助你筛选数据以查找最有用的属性。
示例
有关机器学习运行中的示例,请参阅Azure AI 库。
有关一些典型数据准备任务的提示和演练,请参阅执行 Team Data Science Process 的演练。