Qu’est-ce que le clustering ?

Effectué

Le clustering est une forme de Machine Learning non supervisé dans lequel des observations sont regroupées en clusters sur la base de similitudes au niveau de leurs valeurs de données ou de leurs caractéristiques. Ce type de Machine Learning est considéré comme non supervisé, car il n’utilise pas de valeurs d’étiquettes connues au préalable pour effectuer l’apprentissage d’un modèle. Dans un modèle de clustering, l’étiquette correspond au cluster auquel l’observation est attribuée, en fonction de ses caractéristiques uniquement.

Par exemple, supposons qu’un botaniste observe un échantillon de fleurs et enregistre le nombre de pétales et de feuilles sur chaque fleur.

Illustration montrant plusieurs fleurs avec un nombre différent de pétales et de feuilles.

Il peut être utile de regrouper ces fleurs en clusters en fonction de leurs caractéristiques similaires.

Il existe de nombreuses façons de déterminer ce regroupement. Par exemple, si la plupart des fleurs ont le même nombre de feuilles, elles peuvent être regroupées en fleurs avec peu ou beaucoup de pétales. Si le nombre de pétales et de feuilles varie considérablement, il peut être possible de découvrir un schéma, comme les fleurs qui ont beaucoup de feuilles ont aussi beaucoup de pétales. L’objectif de l’algorithme de clustering est de trouver la méthode optimale pour fractionner le jeu de données en groupes. Ce que signifie optimal dépend à la fois de l’algorithme utilisé et du jeu de données fourni.

Même si cet exemple de fleur peut être facile à catégoriser avec seulement quelques échantillons, à mesure que le jeu de données s’étend à des milliers d’échantillons ou à deux caractéristiques ou plus, les algorithmes de clustering deviennent utiles pour diviser rapidement un jeu de données en groupes.