训练模型
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
以监管方式训练分类或回归模型
类别:机器学习/定型
模块概述
本文介绍如何使用机器学习 Studio (经典) 中的 "训练模型" 模块来训练分类或回归模型。 训练在你定义模型并设置其参数后进行,并且需要带标记的数据。 你还可以使用训练模型来使用新数据重新训练现有模型。
训练过程的工作原理
在机器学习中,创建和使用机器学习模型通常是一个三步过程。
可以通过选择特定类型的算法并定义其参数或超参数来配置模型。 选择以下任一模型类型:
提供一个带标记且其数据与算法兼容的数据集。 将数据和模型都连接到训练模型。
训练产生的是特定的二进制格式 iLearner,它封装了从数据中获知的统计模式。 不能直接修改或读取此格式;不过,Studio 中的其他模块 (经典) 可以使用此训练的模型。
你还可以查看模型的属性。 有关详细信息,请参阅 " 结果 " 部分。
在训练完成后,使用训练后的模型与评分模型之一来基于新数据进行预测。
注意
其他专用机器学习任务需要不同的定型方法,而 Studio (经典) 为他们提供单独的培训模块。 例如,映像检测、群集和异常 detction 均使用自定义定型方法。 训练模型 仅适用于回归和分类模型。
监督和无人监督的培训
你可能听说过监管或无人监督的学习条款。 使用 训练模型 训练分类或回归模型是 监督式机器学习的典型示例。 这意味着,必须提供一个数据集,其中包含要从中了解模式的历史数据。 数据应同时包含结果 (标签) 你要尝试预测的结果和相关因素 (变量) 。 机器学习模型需要结果来确定最能预测结果的功能。
在定型过程中,数据按结果进行排序,并且算法提取统计模式以生成模型。
无人监督 learning 指示结果是未知的,或者您选择不使用已知标签。 例如,聚类分析算法通常使用无人监督学习方法,但可以使用标签(如果有)。 另一个示例是使用 LDA的主题建模。 不能将 定型模型 与这些算法一起使用。
提示
不熟悉机器学习? 本教程将指导您完成获取数据、配置算法、定型和使用模型的过程: 创建您的第一个机器学习试验
如何使用 定型模型
在机器学习 Studio (经典) ,配置分类模型或回归模型模型。
还可以通过使用 " 创建 R 模型" 来定型创建的自定义模型。
将 训练模型 模块添加到试验中。 可以在“机器学习”类别下找到此模块。 展开 " 训练",然后将 " 定型模型 " 模块拖放到试验中。
在左侧输入中,附加未训练的模式。 将训练数据集附加到训练模型的右侧输入。
训练数据集必须包含一个标签列。 不带标签的任何行都将被忽略。
对于“标签列”,单击“启动列选择器”,然后选择包含模型可用于训练的结果的单个列。
对于分类问题,标签列必须包含分类值或离散值。 可能的一些示例如下:“是/否”评级、疾病分类代码或名称,或收入组。 如果你选择了一个非分类列,则模块在训练期间将返回错误。
对于回归问题,标签列必须包含表示响应变量的数字数据。 理想情况下,数字数据表示连续标度。
可能的示例有信用风险分数、硬盘驱动器的预计故障时间,或者在给定的日期或时间内对某个呼叫中心的呼叫预测数。 如果未选择数字列,则可能会出现错误。
- 如果未指定要使用的标签列,机器学习将尝试使用数据集的元数据推断哪个标签列是相应的标签列。 如果它选择了错误的列,请使用列选择器来更正它。
提示
如果使用列选择器时遇到问题,请参阅选择数据集中的列一文中的提示。 该文章介绍了使用 WITH RULES 和 BY NAME 选项的一些常见方案和提示。
运行试验。 如果有大量数据,则可能需要一段时间。
结果
在对模型进行训练后:
若要查看模型参数和特征权重,请右键单击输出,然后选择“可视化”。
若要在其他试验中使用该模型,请右键单击该模型,然后选择 " 保存模型"。 键入模型名称。
这会将该模型保存为快照,该快照不会由重复运行的实验进行更新。
若要在预测新值时使用模型,请将其连接到评分模型模块以及新的输入数据。
相关任务
如果需要训练 定型模型不支持的模型类型,可以使用以下几种方法:
使用 R 脚本创建自定义计分方法,或使用可用的众多 R 计分包之一。
编写自己的 Python 脚本以对模型进行定型和评分,或使用现有的 Python 库:
异常检测模型
- 训练异常检测模型 支持 Studio 中的异常检测模块 (经典) 。
建议模型
如果模型使用机器学习中提供的 Matchbox 建议,请使用定型 Matchbox 推荐器模块。
聚类分析模型
示例
有关如何在机器学习试验中使用 " 训练模型 " 模块的示例,请参阅 Azure AI 库中的以下试验:
预期输入
名称 | 类型 | 说明 |
---|---|---|
未训练的模型 | ILearner 接口 | 未训练的学习器 |
数据集 | 数据表 | 训练数据 |
模块参数
名称 | 范围 | 类型 | 默认 | 说明 |
---|---|---|---|---|
标签列 | any | ColumnSelection | 选择包含标签的列或结果列 |
Outputs
名称 | 类型 | 说明 |
---|---|---|
已训练模型 | ILearner 接口 | 训练的学习器 |
异常
有关所有模块错误的列表,请参阅 模块错误代码。
例外 | 描述 |
---|---|
错误 0032 | 如果参数不是数字,将出现异常。 |
错误 0033 | 如果参数是无穷大,将出现异常。 |
错误 0083 | 如果用于训练的数据集不能用于具体类型的学习器,则会出现异常。 |
错误 0035 | 如果没有提供给定用户或项的任何特征,将出现异常。 |
错误 0003 | 如果一个或多个输入为 NULL 或为空,将出现异常。 |
错误 0020 | 如果传递给模块的某些数据集的列数过少,将出现异常。 |
错误 0021 | 如果传递给模块的某些数据集的行数过少,将出现异常。 |
错误 0013 | 如果传递给模块学习器的参数具有无效的类型,则会发生异常。 |