Aufteilen eines Datasets mithilfe eines relativen Ausdrucks
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
In diesem Artikel wird beschrieben, wie Sie die Option Relative Expression Split im Modul Daten teilen von Machine Learning Studio (klassisch) verwenden. Diese Option ist hilfreich, wenn Sie ein Dataset mithilfe eines numerischen Ausdrucks in Trainings- und Testdatasets unterteilen müssen. Beispiel:
- Alter größer als 40 vs. 40 oder jünger
- Testbewertung von 60 oder höher gegenüber weniger als 60
- Rangwert von 1 im Vergleich zu allen anderen Werten
Hinweis
Gilt nur für: Machine Learning Studio ( klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Um Ihre Daten aufzuteilen, wählen Sie eine einzelne numerische Spalte in Ihren Daten aus und definieren einen Ausdruck, der zum Auswerten jeder Zeile verwendet werden soll. Der relative Ausdruck muss den Spaltennamen, den Wert und einen Operator wie größer als und kleiner als, gleich und nicht gleich enthalten.
Diese Option unterteilt das Dataset in zwei Gruppen.
Allgemeine Informationen zur Datenpartitionierung für Machine Learning-Experimente finden Sie unter Aufteilen von Daten und Partitionieren und Teilen.
Zugehörige Aufgaben
Weitere Optionen im Modul Daten teilen :
Aufteilen von Daten mithilfe regulärer Ausdrücke: Anwenden eines regulären Ausdrucks auf eine einzelne Textspalte und Teilen des Datasets basierend auf den Ergebnissen
Aufteilen von Empfehlungsdatasets: Teilen Sie Datasets auf, die in Empfehlungsmodellen verwendet werden. Das Dataset sollte drei Spalten aufweisen: Elemente, Benutzer und Bewertungen
Verwenden eines relativen Ausdrucks zum Aufteilen eines Datasets
Fügen Sie ihrem Experiment in Stuio das Modul Daten teilen hinzu, und verbinden Sie es als Eingabe mit dem Dataset, das Sie aufteilen möchten.
Wählen Sie für Splitting mode (Aufteilungsmodus) die Option Relative expression split (Nach relativem Ausdruck aufteilen) aus.
Geben Sie im Textfeld Relationaler Ausdruck einen Ausdruck ein, der einen numerischen Vergleichsvorgang für eine einzelne Spalte ausführt:
Die Spalte enthält Ziffern jedes numerischen Datentyps einschließlich der Datums-/Uhrzeitdatentypen.
Im Ausdruck kann auf maximal einen Spaltennamen verwiesen werden.
Verwenden Sie das kaufmännische Und-Zeichen (&) für den AND-Vorgang und den senkrechten Strich (|) für den OR-Vorgang.
Folgende Operatoren werden unterstützt:
<
,>
,<=
,>=
,==
,!=
Vorgänge können nicht mithilfe von
(
und)
gruppiert werden.
Ideen finden Sie im Abschnitt Beispiele .
Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Ausführen ausgewählt aus.
Durch den Ausdruck wird das Dataset in zwei Sätzen von Zeilen unterteilt: Zeilen mit Werten, die die Bedingung erfüllen, und alle übrigen Zeilen.
Wenn Sie zusätzliche Splitvorgänge ausführen müssen, können Sie entweder eine zweite instance von *Split Data hinzufügen oder das Modul Apply SQL Transformation (SQL-Transformation anwenden) verwenden und eine CASE-Anweisung definieren.
Beispiele für gitterbasierte Ausdrücke
Die folgenden Beispiele veranschaulichen, wie ein Dataset mithilfe der Option Relativer Ausdruck im Modul Daten teilen unterteilt wird :
Verwenden des Kalenderjahres
Ein gängiges Szenario ist das Aufteilen eines Datasets nach Jahren. Der folgende Ausdruck wählt alle Zeilen aus, in denen die Werte in der Spalte Year
größer sind als 2010
.
\"Year" > 2010
Der Datumsausdruck muss alle Datumsteile berücksichtigen, die in der Datenspalte enthalten sind, und das Format der Datumsangaben in der Datenspalte muss konsistent sein.
In einer Datumsspalte, die das Format mmddyyyy
verwendet, sollte der Ausdruck beispielsweise wie folgt aussehen:
\"Date" > 1/1/2010
Verwenden von Spaltenindizes
Der folgende Ausdruck veranschaulicht die Verwendung des Spaltenindexes, um alle Zeilen in der ersten Spalte des Datasets auszuwählen, die Werte kleiner gleich 30, jedoch ungleich 20 enthalten.
(\0)<=30 & !=20
Zusammengesetzter Vorgang mit Zeitwerten mit mehreren Teilungen
Angenommen, Sie möchten eine Tabelle mit Protokolldaten aufteilen, um Abfragen zu gruppieren, die zu lange dauern. Sie können den folgenden relativen Ausdruck für die Spalte verwenden, um die Abfragen abzurufen, Elapsed
die über eine Minute ausgeführt wurden.
\"Elapsed" >00:01:00
Um die Abfragen mit Antwortzeiten unter einer Minute, aber mehr als 30 Sekunden abzurufen, fügen Sie eine weitere instance von Daten auf der rechten Seite hinzu, und verwenden Sie einen Ausdruck wie diesen:
\"Elapsed" <:00:01:00 & >00:00:30
Dataset auf Datumswerte aufteilen
Der folgende relative Ausdruck unterteilt das Dataset mithilfe der Datumswerte in der Spalte dt1
.
\"dt1" > 10-08-2015
Zeilen mit einem Datum größer als 10.08.2015 werden dem ersten (linken) Ausgabedataset hinzugefügt.
Zeilen mit einem Datum vom 10.08.2015 oder früher werden dem zweiten (rechten) Ausgabedataset hinzugefügt.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
Beschränkungen
Die folgenden Einschränkungen gelten für relative Ausdrücke in einem Dataset:
- Relative Ausdrücke können nur auf numerische Datentypen und Datum/Uhrzeit-Datentypen angewendet werden.
- In relativen Ausdrücken kann nur auf einen einzigen Spaltennamen verwiesen werden.
- Verwenden Sie das Amper- und Zeichenzeichen (&) für den AND-Vorgang und das Pipezeichen (|) für den OR-Vorgang.
- Die folgenden Operatoren sind für relative Ausdrücke zulässig:
<
, ,<=
>
,>=
, , ,==
!=
- Gruppierungsvorgänge mit Klammern werden nicht unterstützt.