Aufteilen von Daten mithilfe des Aufteilens von Zeilen
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
In diesem Artikel wird beschrieben, wie Sie die Option Zeilen teilen im Modul Split Data von Machine Learning Studio (klassisch) verwenden. Diese Option ist besonders nützlich, wenn Sie Datasets, die für Training und Tests verwendet werden, entweder nach dem Zufallsprinzip oder durch einige Kriterien unterteilen müssen.
Hinweis
Gilt für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Die Option Zeilen teilen unterstützt zufällige und geschichtete Teilungen. Beispielsweise können Sie eine 70-30-Aufteilung oder eine 10-90-Aufteilung angeben, bei der Ihre Zielvariable in beiden Datasets gleichmäßig dargestellt wird.
Allgemeine Informationen zur Datenpartitionierung für Machine Learning-Experimente finden Sie unter Aufteilen von Daten und Partitionieren und Aufteilen.
Zugehörige Aufgaben
Andere Optionen im Modul Split Data unterstützen verschiedene Möglichkeiten zum Aufteilen der Daten:
Aufteilen von Daten mit regulären Ausdrücken: Wenden Sie einen regulären Ausdruck auf eine einzelne Textspalte an, und teilen Sie das Dataset basierend auf den Ergebnissen auf.
Aufteilen von Daten mit relativen Ausdrücken: Wenden Sie einen Ausdruck auf eine numerische Spalte an, und teilen Sie das Dataset basierend auf den Ergebnissen auf.
Aufteilen von Empfehlungs-Datasets: Dividieren Sie Datasets, die in Empfehlungsmodellen verwendet werden. Das Dataset sollte drei Spalten enthalten: Elemente, Benutzer und Bewertungen.
Aufteilen eines Datasets in zwei Gruppen
Fügen Sie ihrem Experiment in Studio (klassisch) das Modul Split Data hinzu, und verbinden Sie das Dataset, das Sie aufteilen möchten.
Wählen Sie für Splitting mode (Aufteilungsmodus) die Option Split rows (Zeilen aufteilen) aus.
Fraction of rows in the first output dataset (Anteil der Zeilen im ersten Ausgabedataset). Ermitteln Sie anhand dieser Option, wie viele Zeilen der ersten (linken) Ausgabe zugeordnet werden. Alle weiteren Zeilen werden der zweiten (rechten) Ausgabe zugewiesen.
Das Verhältnis stellt den Prozentsatz der Zeilen dar, die an das erste Ausgabedataset gesendet werden, sodass Sie eine Dezimalzahl zwischen 0 und 1 eingeben müssen.
Wenn Sie z. B. 0,75 als Wert eingeben, wird das Dataset im Verhältnis 75:25 aufgeteilt. Dabei werden 75 % der Zeilen an das erste Ausgabedataset und 25 % an das zweite Ausgabedataset gesendet.
Wählen Sie die Option Randomized split (Zufällige Aufteilung), wenn Daten den beiden Gruppen nach dem Zufallsprinzip zugewiesen werden sollen. Dies ist die bevorzugte Option bei der Erstellung von Trainings-und Testdatasets.
Zufälliger Startwert: Geben Sie einen nicht negativen ganzzahligen Wert ein, um die Pseudozufallssequenz der zu verwendenden Instanzen zu initialisieren. Dieser standardmäßige Startwert wird in allen Modulen verwendet, die Zufallszahlen generieren.
Die Angabe eines Startwerts führt dazu, dass die Ergebnisse grundsätzlich reproduzierbar sind. Wenn Sie die Ergebnisse eines Aufteilungsvorgangs wiederholen müssen, muss auch ein Startwert für den Zufallszahlengenerator angegeben werden. Andernfalls wird der zufällige Startwert standardmäßig auf „0“ festgelegt, was bedeutet, dass der ursprüngliche Startwert von der Systemuhr abgerufen wird. Daher kann die Verteilung der Daten bei einer neuen Aufteilung geringfügig abweichen.
Stratified split (Geschichtete Aufteilung): Legen Sie diese Option auf True fest, um sicherzustellen, dass die beiden Ausgabedatasets eine repräsentative Stichprobe der Werte aus der Schichtspalte oder Schichtungsschlüsselspalte enthalten.
Bei geschichteten Stichproben werden die Daten unterteilt, sodass jedes Ausgabedataset annähernd den gleichen Prozentsatz der einzelnen Zielwerte aufweist. Beispielsweise möchten Sie sicherstellen, dass Ihre Trainings- und Testsätze hinsichtlich des Ergebnisses oder in Bezug auf eine andere Spalte, z. B. Geschlecht, ungefähr ausgeglichen sind.
Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Ausgewählte ausführen aus.
Beispiele
In den folgenden Beispielen wird veranschaulicht, wie einfache Aufteilungen mithilfe des Modus "Zeilen teilen" ausgeführt werden.
Aufteilen in zwei gleiche Teile
Fügen Sie das Modul Split Data nach dem Dataset ohne weitere Änderungen hinzu. Standardmäßig teilt das Modul das Dataset in zwei gleich große Teile. Für Daten mit einer ungerade Anzahl von Zeilen erhält die zweite Ausgabe den Rest.
Aufteilen in Dritte
Angenommen, Sie möchten ein Dataset in zwei Teile aufteilen, mit einem Dritten der für das Training verwendeten Daten und dem Rest für Tests oder zusätzliche Aufteilungen.
Fügen Sie dazu ein Modul Split Data hinzu, und legen Sie den Anteil der Zeilen in der ersten Ausgabe auf 0,33 fest. Die zweite Ausgabe enthält die restlichen zwei Drittel.
Um die zweite Ausgabe in gleiche Teile zu unterteilen, fügen Sie eine weitere Instanz des Moduls Split Data hinzu, und verwenden Sie dieses Mal den Standardwert für eine 50-50-Aufteilung.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
Details zur Implementierung
Dieses Modul erfordert, dass das Dataset mindestens zwei Zeilen enthält. Andernfalls wird ein Fehler ausgelöst.
Wenn Sie die Option verwenden, in der die gewünschte Anzahl von Zeilen angegeben wird, muss die angegebene Anzahl eine positive ganze Zahl sein, die kleiner gleich der Gesamtzahl der Zeilen im Dataset ist.
Alle Prozentwerte müssen im Bereich von 0 und 1 liegen.
Wenn Sie eine Zahl oder einen Prozentsatz als Gleitkommazahl kleiner als 1 angeben und nicht das Prozentsymbol (%) verwenden, wird die Zahl als proportionaler Wert interpretiert.
Zusätzliche Anforderungen für geschichtete Stichprobenentnahme
Die Strataspalte darf nur nominale oder kategorische Daten enthalten. Wenn die Spalte fortlaufende numerische Daten enthält, wird eine Fehlermeldung ausgelöst.
Eine Spalte mit zu vielen eindeutigen Werten ist kein guter Kandidat für die Geschichteung. Sie können versuchen, einige Kategorien zu verklappen oder Werte im Voraus zu gruppieren.