聚类分析模块

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

本文介绍 机器学习 Studio (经典) 中的模块,这些模块支持创建聚类分析模型。

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

什么是聚类分析?

在机器学习中,聚类分析是一种将数据点分组到类似群集的方法。 也称为分段。

多年来,我们开发了许多聚类分析算法。 几乎所有聚类分析算法都使用单个项的功能来查找类似的项。 例如,可以应用聚类分析来按人口统计信息查找类似的人员。 你可以将聚类分析与文本分析一起用于对具有类似主题或情绪的句子进行分组。

聚类分析称为非监督式学习技术,因为它可用于未标记的数据。 事实上,聚类分析是发现新模式的第一个有用步骤,并且只需事先了解数据的结构化方式或项的相关方式。 聚类分析通常用于在其他更具预测性的算法进行分析之前浏览数据。

如何创建聚类分析模型

在 机器学习 Studio (经典) 中,可以将聚类分析用于带标记或未标记的数据。

  • 在未标记的数据中,聚类分析算法确定哪些数据点最接近,并围绕中心点或质心创建分类。 然后,可以使用群集 ID 作为数据组的临时标签。

  • 如果数据具有标签,可以使用标签来驱动分类数,或者将标签用作另一个特征。

配置聚类分析算法后,可以使用训练聚类分析模型或扫描聚类分析模块根据数据进行训练。

训练模型时,使用它来预测新数据点的群集成员身份。 例如,如果你已使用聚类分析按购买行为将客户分组,可以使用该模型来预测新客户的购买行为。

模块列表

聚类分析类别包括以下模块:

  • K-Means 聚类分析:配置和初始化 K-Means 聚类分析模型。

若要使用不同的聚类分析算法,或使用 R 创建自定义聚类分析模型,请参阅以下主题:

示例

有关运行中的聚类分析的示例,请参阅Azure AI 库。

有关选择算法的帮助,请参阅以下文章:

另请参阅