向群集分配数据

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

使用现有训练的聚类模型将数据分配到聚类

类别: 分数

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典 ) 中的"将数据分配到群集"模块,使用使用 K-Means 聚类分析算法训练的聚类分析模型生成预测。

该模块返回一个数据集,其中包含每个新数据点的可能分配。 它还创建 PCA (主体组件分析) 图,以帮助可视化分类的维数。

警告

此模块将"分配给群集" (弃) 模块,该模块仅可用于支持较旧的试验。

如何使用“将数据分配到群集”

  1. 在 机器学习 Studio (经典) 中,找到以前训练的聚类分析模型。 可以使用以下任一方法创建和训练聚类分析模型:

    • 使用 K-Means 聚类分析模块配置 K-means 算法,然后使用数据集和训练聚类分析 模型模块来训练 模型。

    • 使用 K-Means 聚类分析为 K-means 算法配置一系列选项,然后使用扫描聚类分析模块 训练 模型。

    还可以从工作区中的“保存的模型” 组添加现有的已训练聚类分析模型。

  2. 将训练的模型附加到“将数据分配到群集”的左侧输入端口。

  3. 将新的数据集作为输入附加。 在此数据集中,标签为可选。 通常,聚类分析是一种非监督式学习方法,因此你不应提前知道类别。

    但是,输入列必须与在训练聚类分析模型时使用的列相同,否则会发生错误。

    提示

    若要减少群集预测输出的列数,请使用"选择数据集 中的列",然后选择列的子集。

  4. 如果希望 结果包含 完整的输入数据集,请保留选中"检查是否追加"或"取消选中结果仅"选项,同时保留一个列, (群集分配) 。

    如果取消选择此选项,则只返回结果。 在将预测创建为 Web 服务的一部分时,这可能很有用。

  5. 运行试验。

结果

" 将数据分配到群集" 模块在结果数据集输出中返回两 种类型的 结果:

  • 若要查看模型中分类的分离,请单击模块的输出,然后选择"可视化 "

    此命令显示 PCA (主体) 关系图,该图将每个分类中的值集合映射到两个组件轴。

    • 第一个组件轴是捕获模型中最大方差的特征组合集。 它绘制在主体组件 1 (X 轴上)
    • 下一个组件轴表示一组与第一个组件正交且将下一个信息添加到图表的功能组合。 它绘制在 y 轴上 (主体组件 2)

    在关系图中,可以看到分类之间的分隔,以及群集如何沿表示主体组件的轴分布。

  • 若要查看输入数据中每个案例的结果表,请附加"转换为数据集"模块,并在工作室 (经典) 。

    此数据集 包含每个案例的 群集分配,以及一个距离指标,用于指示此特定情况与群集中心之间的距离。

    输出列的名称 说明
    分配 一个基于 0 的索引,指示向哪个群集分配了分发点。
    DistancesToClusterCenter no. n 对于每个数据点,此值指示从数据点到已分配群集中心的距离,以及与其他分类的距离。

    用于计算距离的指标是在配置 K-means 聚类分析模型时确定的。

预期输入

名称 类型 说明
已训练模型 ICluster 接口 训练的群集模型
数据集 数据表 输入的数据源

模块参数

名称 类型 范围 可选 默认 说明
"追加"或"仅结果" 必选 TRUE 指示输出数据集应包含输入数据集以及结果,还是只包含结果
指定参数扫描模式 扫描方法 列表:整个网格|随机扫描 必选 随机扫描 扫描参数空间上的整个网格,或使用有限数量的示例运行进行扫描

Outputs

名称 类型 说明
结果数据集 数据表 分配数据列追加的输入数据集,或仅分配列

例外

异常 描述
错误 0003 如果一个或多个输入为 NULL 或为空,将出现异常。

另请参阅

K 均值聚类分析
评分