什么是聚类分析?

已完成

聚类分析是一种非监督式机器学习形式,在此形式下,基于观察值的数据值或特征的相似性,将观察值分组到群集中。 这种就是非监督式机器学习,因为它不使用先前已知的标签值来训练模型。 在聚类分析模型中,标签是群集,仅根据该群集特征向群集分配观察结果。

例如,假设一位植物学家观察花的样本,并记录每支花上的花瓣和叶子的数量。

图片显示花瓣和叶子数目不同的花的集合。

根据花的特征之间的相似性将这些花分组到群集中可能会很有用。

有多种方法可以确定此分组。 例如,如果大多数花朵的叶数相同,则可以按花瓣数量的多少对花朵进行分组。 或者,如果花瓣和叶的计数差异很大,则可能会发现一种模式,例如,叶数多的花朵的花瓣也很多。 聚类分析算法旨在找到将数据集拆分为组的最佳方法。 “最佳”的含义取决于使用的算法和提供的数据集。

尽管这种花朵示例很容易分类,只有一些样本,但当数据集增长到数千个样本或超过两个特征时,聚类分析算法对于快速将数据集分类成各组非常有用。