Assign Data to Clusters
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Weist Daten mithilfe eines vorhandenen, trainierten Clusteringmodells Clustern hinzu
Kategorie: Bewertung
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Assign Data to Clusters (Daten clustern zuweisen) in Machine Learning Studio (klassisch) verwenden, um Vorhersagen mithilfe eines Clusteringmodells zu generieren, das mit dem K-Means-Clusteringalgorithmus trainiert wurde.
Das Modul gibt ein Dataset zurück, das die wahrscheinlichen Zuweisungen für jeden neuen Datenpunkt enthält. Außerdem wird ein PCA-Diagramm (Principal Component Analysis, Prinzipalkomponentenanalyse) erstellt, mit dem Sie die Dimensionalität der Cluster visualisieren können.
Warnung
Dieses Modul ersetzt das Modul Assign to Clusters (Zu Clustern zuweisen) (veraltet), das nur zur Unterstützung älterer Experimente verfügbar ist.
Verwenden von „Assign Data to Clusters“
Suchen Sie in Machine Learning Studio (klassisch) nach einem zuvor trainierten Clustermodell. Sie können ein Clusteringmodell mit einer dieser beiden Methoden erstellen und trainieren:
Konfigurieren Sie den k-Means-Algorithmus mithilfe des Moduls K-Means Clustering, und trainieren Sie anschließend das Modell mit einem Dataset und dem Modul Train Clustering Model (Trainieren des Clusteringmodells).
Konfigurieren Sie eine Reihe von Optionen für den K-Means-Algorithmus mithilfe von K-Means-Clustering , und trainieren Sie das Modell dann mithilfe des Sweep Clustering-Moduls .
Sie können auch ein bestehendes trainiertes Clusteringmodell aus der Gruppe Saved Models (Gespeicherte Modelle) Ihrem Arbeitsbereich hinzufügen.
Fügen Sie das trainierte Modell an den linken Eingabeport von Assign Data to Clusters an.
Fügen Sie ein neues Dataset als Eingabe an. In diesem Dataset sind Bezeichnungen optional. Im Allgemeinen ist Clustering eine unüberwachte Lernmethode, weshalb nicht erwartet wird, dass Sie Kategorien im Voraus kennen.
Die Eingabespalten müssen jedoch mit den Spalten übereinstimmen, die beim Training des Clusteringmodells verwendet wurden, da sonst ein Fehler auftritt.
Tipp
Um die Anzahl der Spalten zu reduzieren, die von Clustervorhersagen ausgegeben werden, verwenden Sie Select Columns in Dataset (Spalten im Dataset auswählen), und wählen Sie eine Teilmenge der Spalten aus.
Lassen Sie die Option Check for Append or Uncheck for Result Only (Für Anfügen aktivieren oder für reine Ergebnisse deaktivieren) aktiviert, wenn die Ergebnisse das gesamte Eingabedataset sowie eine Spalte mit den Ergebnissen (Clusterzuweisungen) enthalten sollen.
Wenn Sie diese Option deaktivieren, erhalten Sie bloß die Ergebnisse. Dies kann nützlich sein, wenn Sie Vorhersagen als Teil eines Webdiensts erstellen.
Führen Sie das Experiment aus.
Ergebnisse
Das Modul Assign Data to Clusters (Daten clustern zuweisen ) gibt zwei Ergebnistypen für die Ergebnisdatasetausgabe zurück:
Um die Trennung von Clustern im Modell anzuzeigen, klicken Sie auf die Ausgabe des Moduls, und wählen Sie Visualisieren aus.
Dieser Befehl zeigt ein PCA-Diagramm (Principal Component Analysis) an, das die Auflistung der Werte in jedem Cluster zwei Komponentenachsen zuteilt.
- Die erste Komponentenachse ist der kombinierte Satz von Features, der die größte Varianz im Modell erfasst. Sie wird auf der x-Achse (Prinzipalkomponente 1) gezeichnet.
- Die nächste Komponentenachse stellt einige kombinierte Features dar, die der ersten Komponente orthogonal sind und dem Diagramm die nächsten Informationen hinzufügen. Sie wird auf der y-Achse (Prinzipalkomponente 2) gezeichnet.
Im Diagramm sehen Sie die Trennung zwischen den Clustern und die Verteilung der Cluster entlang der Achsen, die die Hauptkomponenten darstellen.
Fügen Sie zum Anzeigen der Ergebnistabelle für jeden Fall in den Eingabedaten das Modul Convert to Dataset (In Dataset konvertieren ) an, und visualisieren Sie die Ergebnisse in Studio (klassisch).
Dieses Dataset enthält die Clusterzuweisungen für jeden Fall und eine Entfernungsmetrik, die Ihnen einen Hinweis darauf gibt, wie nah dieser spezielle Fall am Mittelpunkt des Clusters liegt.
Name der Ausgabespalte Beschreibung Zuweisungen Ein 0-basierter Index, der angibt, welchem Cluster der Datenpunkt zugewiesen wurde. DistancesToClusterCenter Nein. n Für jeden Datenpunkt gibt dieser Wert den Abstand vom Datenpunkt zum Mittelpunkt des zugewiesenen Clusters und den Abstand zu anderen Clustern an.
Die Metrik zum Berechnen der Entfernung wird bestimmt, wenn Sie das K-Means-Clusteringmodell konfigurieren.
Erwartete Eingaben
Name | Type | BESCHREIBUNG |
---|---|---|
Trainiertes Modell | ICluster-Schnittstelle | Trainiertes Clusteringmodell |
Dataset | Datentabelle | Eingabedatenquelle |
Modulparameter
Name | Typ | Range | Optional | Standard | Beschreibung |
---|---|---|---|---|---|
Nur Anfügen oder Ergebnis | Erforderlich | true | Geben Sie an, ob das Ausgabedataset das Eingabedataset sowie die Ergebnisse oder nur die Ergebnisse enthalten soll. | ||
Specify parameter sweeping mode | Sweep-Methoden | List:Gesamtes Raster| Zufälliger Sweep | Erforderlich | Zufalls-Sweep | Sweep durch das ganze Raster des Parameterbereichs oder Sweep mit einer begrenzten Anzahl von Testläufen |
Ausgaben
Name | Type | Beschreibung |
---|---|---|
Ergebnisdataset | Datentabelle | Eingabedataset mit angefügter Zuweisungsdatenspalte oder nur Zuweisungsspalte |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist. |