クラスタリングとはどのようなものでしょうか。
"クラスタリング" とは、データ値つまり "特徴" の類似性に基づいて観察がクラスターにグループ化される、"教師なし" 機械学習の一形態です。 この種の機械学習は、既知の "ラベル" 値を使ってモデルをトレーニングしないため、教師なしと見なされます。 クラスタリング モデルでは、ラベルは、その特徴のみに基づいて観察が割り当てられるクラスターです。
たとえば、植物学者が花のサンプルを観察し、各花の花びらと葉の数を記録しているとします。
特徴の類似性に基づいて、これらの花をクラスターにグループ化すると便利な場合があります。
このグループ化を決定する方法は数多くあります。 たとえば、ほとんどの花が同じ数の葉を持つ場合は、花びらが多い花と少ない花にグループ化できます。 または、花びらと葉の両方の数が大きく異なる場合は、葉が多く花びらも多い花など、検出するパターンがある可能性があります。 クラスタリング アルゴリズムの目的は、データセットをグループに分割するための最適な方法を見つけ出すことです。 "最適" が意味するものは、使用されるアルゴリズムと提供されるデータセットの両方によって決まります。
この花の例は少数のサンプルしかないため容易に分類できますが、データセットが拡大して数千サンプルになったり特徴が 2 つを超えたりすると、データセットをすばやくグループに整理するためにクラスタリング アルゴリズムが役立つようになります。