Introdução
Clustering é o processo de agrupamento de objetos com objetos semelhantes. Por exemplo, na imagem abaixo, temos uma coleção de coordenadas 2D agrupadas em três categorias: superior esquerda (amarelo), inferior (vermelho) e superior direito (azul).
Uma das principais diferenças entre os modelos de clustering e de classificação é que o clustering é um método não supervisionado, em que o treinamento é feito sem rótulos. Os modelos de clustering identificam exemplos que têm uma coleção semelhante de recursos. Na imagem anterior, os exemplos que estão em um local semelhante são agrupados em conjunto.
O clustering é comum e útil para explorar novos dados em que os padrões entre pontos de dados, como categorias de alto nível, ainda não são conhecidos. É usado em muitos campos que precisam rotular dados complexos automaticamente, incluindo a análise de redes sociais, a conectividade cerebral, a filtragem de spam e assim por diante.