训练聚类分析模型
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
训练群集模型,并将训练集中的数据分配到群集
类别:机器学习/训练
模块概述
本文介绍如何使用 机器学习 Studio () 中的训练聚类分析模型模块来训练聚类分析模型。
此模块采用已使用 K-Means 聚类分析模块配置的未训练的聚类分析模型,并使用标记的或未标记的数据集来训练模型。 此模块既创建可用于预测的已训练模型,又为训练数据中的每个案例创建一组群集分配。
注意
聚类分析模型不能使用训练模型模块(用于创建机器学习模型的通用模块)进行训练。 因为训练模型仅适用于监督式学习算法。 K-means 和其他聚类分析算法允许非监督式学习,这意味着算法可以从非标记的数据进行学习。
如何使用“训练聚类分析模型”
将" 训练聚类分析模型" 模块添加到工作室中的试验 (经典) 。 可以在“机器学习模块”下的“训练”类别中找到此模块 。
添加 K-Means 聚类分析模块,或另一个可创建兼容的聚类分析模型的自定义模块,并设置聚类分析模型的参数。
将训练数据集附加到训练聚类分析模型的右侧输入。
在“列集”中,从数据集选择用于构建群集的列。 确保选择可以生成良好特征的列:例如,避免使用有唯一值的 ID 或其他列,或者所有值都相同的列。
如果某个标签可用,则可将它用作特征,或者不用它。
如果要将 训练数据与新的群集标签一起输出,请选择选项"检查追加"或"仅取消选中结果"。
如果取消选择此选项,则只输出群集分配。
运行试验,或单击"训练 聚类分析模型"模块, 然后选择" 运行选定项"。
结果
在训练完成后:
若要在关系图中查看群集及其分隔,请右键单击"结果 "数据集 输出,然后选择"可视化 "。
该图表示群集的主体组件,而不是实际值。 有关详细信息 ,请参阅主体 组件分析。
若要查看数据集中的值,请添加"转换为数据集"模块的实例,并将其连接到结果数据集输出。 运行 "转换为数据集 "模块,获取可以查看或下载的数据的副本。
若要保存已训练的模型供以后使用,请右键单击模块,选择 "已训练模型",然后单击" 另存为已训练模型"。
若要从模型生成分数,请使用将数据分配到群集。
示例
有关如何在机器学习中使用聚类分析的示例,请参阅Azure AI 库:
聚类分析:查找类似的公司:演示如何对派生自非结构化文本的属性使用聚类分析。
聚类分析:颜色量化:演示如何使用聚类分析查找相关颜色并减少图像中使用的位数。
聚类分析:对 iris 数据进行分组:提供基于 iris 数据集的聚类分析的简单示例。
预期输入
名称 | 类型 | 说明 |
---|---|---|
未训练的模型 | ICluster 接口 | 未训练的聚类模型 |
数据集 | 数据表 | 输入的数据源 |
模块参数
名称 | 范围 | 类型 | 默认 | 说明 |
---|---|---|---|---|
列集 | any | ColumnSelection | 列选择模式 | |
选中附加或取消选中仅限结果 | any | 布尔 | 是 | 输出数据集是必须包含分配列追加的输入数据集(已选中),还是仅包含分配列(未选中) |
Outputs
名称 | 类型 | 说明 |
---|---|---|
已训练模型 | ICluster 接口 | 训练的群集模型 |
结果数据集 | 数据表 | 分配数据列追加的输入数据集,或仅分配列 |
例外
异常 | 描述 |
---|---|
错误 0003 | 如果一个或多个输入为 NULL 或为空,将出现异常。 |
有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码。
有关 API 异常的列表,请参阅机器学习 REST API代码。