Zusammenfassen von Daten
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Generiert einen Bericht über grundlegende beschreibende Statistiken für die Spalten in einem Dataset.
Kategorie: Statistische Funktionen
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Summarize Data in Machine Learning Studio (klassisch) verwenden, um eine Reihe von statistischen Standardmaßen zu erstellen, die jede Spalte in der Eingabetabelle beschreiben.
Diese Zusammenfassungsstatistiken sind nützlich, wenn Sie die Merkmale des vollständigen Datasets verstehen möchten. Beispielsweise könnte es sein, dass Sie Folgendes wissen möchten:
- Wie viele Werte fehlen in jeder Spalte?
- Wie viele eindeutige Werte sind in einer Featurespalte vorhanden?
- Was groß ist die mittlere und die Standardabweichung für jede Spalte?
Das Modul berechnet die wichtigen Maßzahlen für jede Spalte und gibt eine Zeile von aggregierenden Parametern für jede Variable (Datenspalte) zurück, die als Eingabe bereitgestellt wird.
Tipp
Möglicherweise wissen Sie bereits, dass Sie eine kurze Liste von Statistiken abrufen können, indem Sie die Option Visualisieren in Studio (klassisch) verwenden. Diese Visualisierung wird jedoch basierend auf einer bestimmten oberen Anzahl von Zeilen erstellt. Im Gegensatz dazu berechnet das Modul Summarize Data seine Statistiken für alle Datenzeilen.
Verwenden von "Daten zusammenfassen"
Fügen Sie ihrem Experiment das Modul Summarize Data hinzu. Sie finden dieses Modul in der Kategorie Statistische Funktionen in Studio (klassisch).
Stellen Sie eine Verbindung mit dem Dataset her, für das Sie einen Bericht generieren möchten.
Möchten Sie den Bericht nur für einige Spalten erstellen, verwenden Sie das Modul Select Columns in Dataset (Auswählen von Spalten in Dataset), um die Teilmenge der Spalten zu projizieren, mit denen Sie arbeiten möchten.
Es sind keine weiteren Parameter erforderlich. Standardmäßig analysiert das Modul alle Spalten, die als Eingabe bereitgestellt werden, und abhängig vom Typ der Werte in den Spalten gibt das Modul einen relevanten Satz von statistischen Werten zurück, die im Abschnitt Ergebnisse beschrieben sind.
Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Ausgewählte ausführen aus.
Ergebnisse
Der Bericht aus dem Modul kann die folgenden statistischen Werte enthalten.
Welche Statistiken genau generiert werden, hängt vom Datentyp der Spalte ab. Weitere Informationen finden Sie im Abschnitt Technische Hinweise .
Es wird davon ausgegangen, dass die Instanzen zu einer repräsentativen Stichprobe einer Auffüllung gehören. Wenn Sie Statistiken zu einer Auffüllung berechnen müssen, verwenden Sie die Optionen im Modul Compute Elementary Statistics( Elementare Statistik berechnen ), die entweder Stichproben- oder Auffüllungsstatistiken berechnen können.
Spaltenname | BESCHREIBUNG |
---|---|
Feature | Name der Spalte |
Count | Anzahl aller Zeilen |
Unique Value Count | Anzahl der eindeutigen Werte in der Spalte |
Missing Value Count | Anzahl der eindeutigen Werte in der Spalte |
Min | Kleinster Wert in der Spalte |
Max | Größter Wert in der Spalte |
Mean | Mittelwert aller Spaltenwerte |
Mean Deviation | Mittlere Abweichung von den Spaltenwerten |
1st Quartile | Wert beim ersten Quartil |
Median | Medianwert der Spalte |
3rd Quartile | Wert beim dritten Quartil |
Mode | Mode der Spaltenwerte |
Bereich | Ganze Zahl, die die Anzahl der Werte zwischen dem kleinsten und dem größten Wert darstellt |
Sample Variance | Varianz für die Spalte; siehe Hinweis |
Sample Standard Deviation | Standardabweichung für die Spalte; siehe Hinweis |
Sample Skewness | Schiefe für die Spalte; siehe Hinweis |
Sample Kurtosis | Wölbung für die Spalte; siehe Hinweis |
P0.5 | 0,5-%-Perzentil |
P1 | 1-%-Perzentil |
P5 | 5-%-Perzentil |
P95 | 95-%-Perzentil |
P99.5 | 99,5-%-Perzentil |
Tipp
Geben Sie den Statistikbericht als tabellarisches Dataset aus, damit Sie die Daten in BI-Berichterstellungstools verwenden oder die Werte als Eingabe für einen anderen Vorgang im Experiment verwenden können.
Beispiele
Beispiele für die Verwendung des Moduls Summarize Data in einem Experiment finden Sie im Azure KI-Katalog:
Dataset von UCI herunterladen: Liest ein Dataset im CSV-Format unter Verwendung seiner URL im UCI Machine Learning Repository und generiert einige grundlegende Statistiken zum Dataset.
Datasetverarbeitung und -analyse: Lädt das Dataset in den Arbeitsbereich, ändert Spaltennamen und fügt Metadaten hinzu.
Vorhersage der Leistung von Kursteilnehmern: Liest Daten, die im TSV-Format gespeichert sind, aus Azure Blob Storage.
Technische Hinweise
Für numerische und boolesche Spalten können Sie den Mittelwert, den Median, den Modus und die Standardabweichung ausgeben.
Bei nicht numerischen Spalten werden nur die Werte für Count, Unique value count und Missing value count berechnet. Bei anderen statistischen Daten wird ein NULL-Wert zurückgegeben.
Spalten mit booleschen Werten werden anhand der folgenden Regeln verarbeitet:
Bei der Berechnung von Min wird ein logisches AND angewendet.
Beim Berechnen von Max wird ein logisches OR angewendet.
Bei der Berechnung von Range überprüft das Modul zuerst, ob die Anzahl der eindeutigen Werte in der Spalte dem Wert 2 entspricht.
Beim Berechnen statistischer Daten, die eine Gleitkommaberechnung erfordern, werden Werte mit TRUE als „1,0“ und Werte mit FALSE als „0,0“ behandelt.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Eingabedataset |
Output
Name | Type | Beschreibung |
---|---|---|
Ergebnisdataset | Datentabelle | Ein Profil des Eingabedatasets, das aussagekräftige statistische Daten enthält. |
Ausnahmen
Ausnahme | Beschreibung |
---|---|
Fehler 0003 | Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist. |
Fehler 0020 | Die Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist. |
Fehler 0021 | Die Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen Datasets, die an das Modul übergeben wurden, zu klein ist. |
Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.
Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.