O que é o clustering?

Concluído

O clustering é uma forma de aprendizado de máquina não supervisionado em que as observações são agrupadas em clusters com base em semelhanças em seus dados, valores ou recursos. Esse tipo de aprendizado de máquina é considerado não supervisionado porque não faz uso de valores de rótulo previamente conhecidos para treinar um modelo. Em um modelo de clustering, o rótulo é o cluster ao qual a observação é atribuída, com base apenas em suas características.

Por exemplo, suponha que um botânico observa uma amostra de flores e registra o número de pétalas e folhas em cada flor.

Ilustração mostrando uma coleção de flores com diferentes números de pétalas e folhas.

Pode ser útil agrupar estas flores em cachos com base nas semelhanças entre as suas características.

Há muitas maneiras de determinar esse agrupamento. Por exemplo, se a maioria das flores tem o mesmo número de folhas, elas podem ser agrupadas em flores com muitas vs poucas pétalas. Alternativamente, se as contagens de pétalas e folhas variarem consideravelmente, pode haver um padrão a ser descoberto, como flores com muitas folhas também com muitas pétalas. O objetivo do algoritmo de agrupamento é encontrar a maneira ideal de dividir o conjunto de dados em grupos. O que significa melhor depende do algoritmo usado e do conjunto de dados fornecido.

Embora este exemplo de flor seja fácil de categorizar com apenas algumas amostras, à medida que o conjunto de dados cresce para milhares de amostras ou para mais de dois recursos, os algoritmos de agrupamento tornam-se úteis para classificar rapidamente um conjunto de dados em grupos.