Freigeben über


Assign Data to Clusters

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Weist Daten mithilfe eines vorhandenen, trainierten Clusteringmodells Clustern hinzu

Kategorie: Bewertung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Assign Data to Clusters (Daten clustern zuweisen) in Machine Learning Studio (klassisch) verwenden, um Vorhersagen mithilfe eines Clusteringmodells zu generieren, das mit dem K-Means-Clusteringalgorithmus trainiert wurde.

Das Modul gibt ein Dataset zurück, das die wahrscheinlichen Zuweisungen für jeden neuen Datenpunkt enthält. Außerdem wird ein PCA-Diagramm (Principal Component Analysis, Prinzipalkomponentenanalyse) erstellt, mit dem Sie die Dimensionalität der Cluster visualisieren können.

Warnung

Dieses Modul ersetzt das Modul Assign to Clusters (Zu Clustern zuweisen) (veraltet), das nur zur Unterstützung älterer Experimente verfügbar ist.

Verwenden von „Assign Data to Clusters“

  1. Suchen Sie in Machine Learning Studio (klassisch) nach einem zuvor trainierten Clustermodell. Sie können ein Clusteringmodell mit einer dieser beiden Methoden erstellen und trainieren:

    Sie können auch ein bestehendes trainiertes Clusteringmodell aus der Gruppe Saved Models (Gespeicherte Modelle) Ihrem Arbeitsbereich hinzufügen.

  2. Fügen Sie das trainierte Modell an den linken Eingabeport von Assign Data to Clusters an.

  3. Fügen Sie ein neues Dataset als Eingabe an. In diesem Dataset sind Bezeichnungen optional. Im Allgemeinen ist Clustering eine unüberwachte Lernmethode, weshalb nicht erwartet wird, dass Sie Kategorien im Voraus kennen.

    Die Eingabespalten müssen jedoch mit den Spalten übereinstimmen, die beim Training des Clusteringmodells verwendet wurden, da sonst ein Fehler auftritt.

    Tipp

    Um die Anzahl der Spalten zu reduzieren, die von Clustervorhersagen ausgegeben werden, verwenden Sie Select Columns in Dataset (Spalten im Dataset auswählen), und wählen Sie eine Teilmenge der Spalten aus.

  4. Lassen Sie die Option Check for Append or Uncheck for Result Only (Für Anfügen aktivieren oder für reine Ergebnisse deaktivieren) aktiviert, wenn die Ergebnisse das gesamte Eingabedataset sowie eine Spalte mit den Ergebnissen (Clusterzuweisungen) enthalten sollen.

    Wenn Sie diese Option deaktivieren, erhalten Sie bloß die Ergebnisse. Dies kann nützlich sein, wenn Sie Vorhersagen als Teil eines Webdiensts erstellen.

  5. Führen Sie das Experiment aus.

Ergebnisse

Das Modul Assign Data to Clusters (Daten clustern zuweisen ) gibt zwei Ergebnistypen für die Ergebnisdatasetausgabe zurück:

  • Um die Trennung von Clustern im Modell anzuzeigen, klicken Sie auf die Ausgabe des Moduls, und wählen Sie Visualisieren aus.

    Dieser Befehl zeigt ein PCA-Diagramm (Principal Component Analysis) an, das die Auflistung der Werte in jedem Cluster zwei Komponentenachsen zuteilt.

    • Die erste Komponentenachse ist der kombinierte Satz von Features, der die größte Varianz im Modell erfasst. Sie wird auf der x-Achse (Prinzipalkomponente 1) gezeichnet.
    • Die nächste Komponentenachse stellt einige kombinierte Features dar, die der ersten Komponente orthogonal sind und dem Diagramm die nächsten Informationen hinzufügen. Sie wird auf der y-Achse (Prinzipalkomponente 2) gezeichnet.

    Im Diagramm sehen Sie die Trennung zwischen den Clustern und die Verteilung der Cluster entlang der Achsen, die die Hauptkomponenten darstellen.

  • Fügen Sie zum Anzeigen der Ergebnistabelle für jeden Fall in den Eingabedaten das Modul Convert to Dataset (In Dataset konvertieren ) an, und visualisieren Sie die Ergebnisse in Studio (klassisch).

    Dieses Dataset enthält die Clusterzuweisungen für jeden Fall und eine Entfernungsmetrik, die Ihnen einen Hinweis darauf gibt, wie nah dieser spezielle Fall am Mittelpunkt des Clusters liegt.

    Name der Ausgabespalte Beschreibung
    Zuweisungen Ein 0-basierter Index, der angibt, welchem Cluster der Datenpunkt zugewiesen wurde.
    DistancesToClusterCenter Nein. n Für jeden Datenpunkt gibt dieser Wert den Abstand vom Datenpunkt zum Mittelpunkt des zugewiesenen Clusters und den Abstand zu anderen Clustern an.

    Die Metrik zum Berechnen der Entfernung wird bestimmt, wenn Sie das K-Means-Clusteringmodell konfigurieren.

Erwartete Eingaben

Name Type BESCHREIBUNG
Trainiertes Modell ICluster-Schnittstelle Trainiertes Clusteringmodell
Dataset Datentabelle Eingabedatenquelle

Modulparameter

Name Typ Range Optional Standard Beschreibung
Nur Anfügen oder Ergebnis Erforderlich true Geben Sie an, ob das Ausgabedataset das Eingabedataset sowie die Ergebnisse oder nur die Ergebnisse enthalten soll.
Specify parameter sweeping mode Sweep-Methoden List:Gesamtes Raster| Zufälliger Sweep Erforderlich Zufalls-Sweep Sweep durch das ganze Raster des Parameterbereichs oder Sweep mit einer begrenzten Anzahl von Testläufen

Ausgaben

Name Type Beschreibung
Ergebnisdataset Datentabelle Eingabedataset mit angefügter Zuweisungsdatenspalte oder nur Zuweisungsspalte

Ausnahmen

Ausnahme Beschreibung
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.

Siehe auch

K-Means-Clustering
Wert