O que é clustering?
O clustering é uma forma de aprendizado de máquina não supervisionado no qual as observações são agrupadas em clusters com base em semelhanças em seus valores de dados ou recursos. Esse tipo de machine learning é considerado não supervisionado porque não usa valores de rótulos conhecidos anteriormente para treinar um modelo. Em um modelo de clustering, o rótulo é o cluster ao qual a observação é atribuída com base apenas em seus recursos.
Por exemplo, suponha que um botânico observa uma amostra de flores e registra o número de pétalas e folhas em cada flor.
Pode ser útil agrupar essas flores em clusters com base em semelhanças entre seus recursos.
Há várias maneiras de determinar esse agrupamento. Por exemplo, se a maioria das flores tiver o mesmo número de folhas, elas poderão ser agrupadas pelas que tem uma quantidade maior ou menor de pétalas. Como alternativa, se as contagens de pétalas e folhas variarem consideravelmente, poderá haver um padrão a descobrir, como aquelas com muitas folhas e também muitas pétalas. O objetivo do algoritmo de clustering é encontrar a maneira ideal de dividir o conjunto de dados em grupos. O que significa o ideal depende do algoritmo usado e do conjunto de dados fornecido.
Embora esse exemplo de flor possa ser simples para se alcançar com apenas alguns exemplos, à medida que o conjunto de dados cresce para abranger milhares de amostras ou para mais de dois recursos, os algoritmos de clustering se tornam úteis para separar rapidamente um conjunto de dados em grupos.