Attribuer des données à des clusters

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Affecte des données à des clusters à l'aide d'un modèle de clustering formé existant.

Catégorie : score

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module assigner des données aux clusters dans Machine Learning Studio (classic) pour générer des prédictions à l’aide d’un modèle de clustering qui a été formé à l’aide de l’algorithme de clustering K-signifiant.

Le module retourne un DataSet qui contient les assignations probables pour chaque nouveau point de données. Il crée également un graphique PCA (principal Component Analysis) pour vous aider à visualiser la dimensionnalité des clusters.

Avertissement

Ce module remplace le module affecter à des clusters (déconseillé), qui est disponible uniquement pour la prise en charge des expériences plus anciennes.

Comment utiliser le module Attribuer des données à des clusters

dans Machine Learning Studio (classic), localisez un modèle de clustering précédemment formé. Vous pouvez créer et effectuer l’apprentissage d’un modèle de clustering à l’aide de l’une des méthodes suivantes :
- Configurez l’algorithme K-means à l’aide du module k-means clustering , puis formation du modèle à l’aide d’un jeu de données et du module former le modèle de clustering .
- Configurez une série d’options pour l’algorithme K-means à l’aide du clustering k-means , puis l’apprentissage du modèle à l’aide du module de clustering de balayage .
Vous pouvez également ajouter un modèle de clustering formé existant à partir du groupe Modèles enregistrés dans votre espace de travail.
Attacher le modèle formé au port d’entrée gauche du module Attribuer des données à des clusters.
Attachez un nouveau jeu de données en tant qu’entrée. Dans ce jeu de données, les étiquettes sont facultatives. En règle générale, le clustering est une méthode d’apprentissage non supervisée. il n’est donc pas prévu que vous sachiez les catégories à l’avance.

Toutefois, les colonnes d’entrée doivent être identiques aux colonnes utilisées lors de la formation du modèle de clustering. Dans le cas contraire, une erreur se produit.

Conseil

Pour réduire le nombre de colonnes de sortie des prédictions de cluster, utilisez l' option Sélectionner des colonnes dans le jeu de données, puis sélectionnez un sous-ensemble des colonnes.
Laissez l’option vérifier l’ajout ou décocher le résultat uniquement si vous souhaitez que les résultats contiennent le jeu de données d’entrée complet, ainsi qu’une colonne indiquant les résultats (affectations de cluster).

Si vous désélectionnez cette option, vous n’avez plus qu’à obtenir les résultats. Cela peut être utile lors de la création de prédictions dans le cadre d’un service Web.
Exécutez l’expérience.

Résultats

Le module assigner des données à des clusters retourne deux types de résultats sur la sortie du jeu de données de résultats :

Pour voir la séparation des clusters dans le modèle, cliquez sur la sortie du module et sélectionnez visualiser .

Cette commande affiche un graphique de l’analyse des composants principaux (PCA) qui mappe la collection de valeurs de chaque cluster à deux axes de composants.
- Le premier axe des composants est l’ensemble combiné des fonctionnalités qui capturent la variance la plus grande dans le modèle. Elle est tracée sur l’axe des x (composant principal 1).
- L’axe du composant suivant représente un ensemble combiné de fonctionnalités orthogonales au premier composant et qui ajoute les informations suivantes au graphique. Elle est tracée sur l’axe des y (composant principal 2).
À partir du graphique, vous pouvez voir la séparation entre les clusters et la façon dont les clusters sont distribués le long des axes qui représentent les composants principaux.

Pour afficher la table des résultats de chaque cas dans les données d’entrée, attachez le module convertir en DataSet et Visualisez les résultats dans Studio (Classic).

Ce jeu de données contient les affectations de cluster pour chaque cas, et une mesure de distance qui vous donne une idée de la façon dont ce cas particulier est proche du centre du cluster.

Nom de colonne de sortie	Description
Attributions	Index de base 0 qui indique à quel cluster le point de données a été assigné.
DistancesToClusterCenter n	Pour chaque point de données, cette valeur indique la distance entre le point de données et le centre du cluster affecté, et la distance avec les autres clusters. La métrique utilisée pour calculer la distance est déterminée lorsque vous configurez le modèle de clustering K-signifiant.

Entrées attendues

Nom	Type	Description
Modèle entraîné	Interface ICluster	Modèle de clustering formé
Dataset	Table de données	Source de données d'entrée

Paramètres du module

Nom	Type	Plage	Facultatif	Default	Description
Ajouter ou résultat uniquement			Obligatoire	TRUE	Indiquez si le jeu de données de sortie doit contenir le jeu de données d’entrée ainsi que les résultats, ou les résultats uniquement
Spécifier le mode de balayage des paramètres	Méthodes de balayage	List : grille entière \| Balayage aléatoire	Obligatoire	Balayage aléatoire	Balaye l'intégralité de la grille sur l'espace des paramètres ou balaye sur un nombre limité d'exemples de cycles

Sorties

Nom	Type	Description
Jeu de données de résultats	Table de données	Jeu de données d'entrée ajouté par la colonne de données d'affectations, ou uniquement la colonne d'affectations

Exceptions

Exception	Description
Erreur 0003	Cette exception se produit si une ou plusieurs entrées sont null ou vide.

Voir aussi

Clustering k-moyennes
Score

Partager via