Attribuer des données à des clusters
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Affecte des données à des clusters à l'aide d'un modèle de clustering formé existant.
Catégorie : score
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module assigner des données aux clusters dans Machine Learning Studio (classic) pour générer des prédictions à l’aide d’un modèle de clustering qui a été formé à l’aide de l’algorithme de clustering K-signifiant.
Le module retourne un DataSet qui contient les assignations probables pour chaque nouveau point de données. Il crée également un graphique PCA (principal Component Analysis) pour vous aider à visualiser la dimensionnalité des clusters.
Avertissement
Ce module remplace le module affecter à des clusters (déconseillé), qui est disponible uniquement pour la prise en charge des expériences plus anciennes.
Comment utiliser le module Attribuer des données à des clusters
dans Machine Learning Studio (classic), localisez un modèle de clustering précédemment formé. Vous pouvez créer et effectuer l’apprentissage d’un modèle de clustering à l’aide de l’une des méthodes suivantes :
Configurez l’algorithme K-means à l’aide du module k-means clustering , puis formation du modèle à l’aide d’un jeu de données et du module former le modèle de clustering .
Configurez une série d’options pour l’algorithme K-means à l’aide du clustering k-means , puis l’apprentissage du modèle à l’aide du module de clustering de balayage .
Vous pouvez également ajouter un modèle de clustering formé existant à partir du groupe Modèles enregistrés dans votre espace de travail.
Attacher le modèle formé au port d’entrée gauche du module Attribuer des données à des clusters.
Attachez un nouveau jeu de données en tant qu’entrée. Dans ce jeu de données, les étiquettes sont facultatives. En règle générale, le clustering est une méthode d’apprentissage non supervisée. il n’est donc pas prévu que vous sachiez les catégories à l’avance.
Toutefois, les colonnes d’entrée doivent être identiques aux colonnes utilisées lors de la formation du modèle de clustering. Dans le cas contraire, une erreur se produit.
Conseil
Pour réduire le nombre de colonnes de sortie des prédictions de cluster, utilisez l' option Sélectionner des colonnes dans le jeu de données, puis sélectionnez un sous-ensemble des colonnes.
Laissez l’option vérifier l’ajout ou décocher le résultat uniquement si vous souhaitez que les résultats contiennent le jeu de données d’entrée complet, ainsi qu’une colonne indiquant les résultats (affectations de cluster).
Si vous désélectionnez cette option, vous n’avez plus qu’à obtenir les résultats. Cela peut être utile lors de la création de prédictions dans le cadre d’un service Web.
Exécutez l’expérience.
Résultats
Le module assigner des données à des clusters retourne deux types de résultats sur la sortie du jeu de données de résultats :
Pour voir la séparation des clusters dans le modèle, cliquez sur la sortie du module et sélectionnez visualiser .
Cette commande affiche un graphique de l’analyse des composants principaux (PCA) qui mappe la collection de valeurs de chaque cluster à deux axes de composants.
- Le premier axe des composants est l’ensemble combiné des fonctionnalités qui capturent la variance la plus grande dans le modèle. Elle est tracée sur l’axe des x (composant principal 1).
- L’axe du composant suivant représente un ensemble combiné de fonctionnalités orthogonales au premier composant et qui ajoute les informations suivantes au graphique. Elle est tracée sur l’axe des y (composant principal 2).
À partir du graphique, vous pouvez voir la séparation entre les clusters et la façon dont les clusters sont distribués le long des axes qui représentent les composants principaux.
Pour afficher la table des résultats de chaque cas dans les données d’entrée, attachez le module convertir en DataSet et Visualisez les résultats dans Studio (Classic).
Ce jeu de données contient les affectations de cluster pour chaque cas, et une mesure de distance qui vous donne une idée de la façon dont ce cas particulier est proche du centre du cluster.
Nom de colonne de sortie Description Attributions Index de base 0 qui indique à quel cluster le point de données a été assigné. DistancesToClusterCenter n Pour chaque point de données, cette valeur indique la distance entre le point de données et le centre du cluster affecté, et la distance avec les autres clusters.
La métrique utilisée pour calculer la distance est déterminée lorsque vous configurez le modèle de clustering K-signifiant.
Entrées attendues
Nom | Type | Description |
---|---|---|
Modèle entraîné | Interface ICluster | Modèle de clustering formé |
Dataset | Table de données | Source de données d'entrée |
Paramètres du module
Nom | Type | Plage | Facultatif | Default | Description |
---|---|---|---|---|---|
Ajouter ou résultat uniquement | Obligatoire | TRUE | Indiquez si le jeu de données de sortie doit contenir le jeu de données d’entrée ainsi que les résultats, ou les résultats uniquement | ||
Spécifier le mode de balayage des paramètres | Méthodes de balayage | List : grille entière | Balayage aléatoire | Obligatoire | Balayage aléatoire | Balaye l'intégralité de la grille sur l'espace des paramètres ou balaye sur un nombre limité d'exemples de cycles |
Sorties
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Jeu de données d'entrée ajouté par la colonne de données d'affectations, ou uniquement la colonne d'affectations |
Exceptions
Exception | Description |
---|---|
Erreur 0003 | Cette exception se produit si une ou plusieurs entrées sont null ou vide. |