Aufteilen von Daten mithilfe regulärer Ausdrücke
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
In diesem Artikel wird beschrieben, wie Sie die Option Reguläres Ausdrucksaufteilen im Modul Split Data von Machine Learning Studio (klassisch) verwenden. Diese Option ist nützlich, wenn Sie filterkriterien auf eine Textspalte anwenden müssen. Sie können Ihr Dataset z. B. durch die Angabe eines bestimmten Produkts unterteilen.
Hinweis
Gilt nur für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Sie können eine Teilung eines regulären Ausdrucks für eine einzelne Textspalte verwenden. Sie definieren einen regulären Ausdruck, der den Namen der Textspalte enthält, und legen dann Bedingungen fest, die für die Spalte gelten, z. B. "beginnt mit", "enthält" oder "enthält nicht".
Allgemeine Informationen zur Datenpartitionierung für Machine Learning-Experimente finden Sie unter Aufteilen von Daten und Partitionieren und Teilen.
Zugehörige Aufgaben
Weitere Optionen im Modul Split Data :
Teilen von Daten mithilfe relativer Ausdrücke: Wenden Sie einen Ausdruck auf numerische Daten an.
Aufteilen von Empfehlungsdatasets: Teilen Sie Datasets, die in Empfehlungsmodellen verwendet werden. Das Dataset sollte drei Spalten enthalten: Elemente, Benutzer und Bewertungen.
Verwenden eines regulären Ausdrucks zum Teilen eines Datasets
Fügen Sie das Modul Split Data Ihrem Experiment hinzu, und verbinden Sie es als Eingabe mit dem aufzuteilenden Dataset.
Wählen Sie für Splitting mode (Aufteilungsmodus) die Option Regular expression split (Nach regulärem Ausdruck aufteilen) aus.
Geben Sie im Feld Regular expression (Regulärer Ausdruck) einen gültigen, regulären Ausdruck ein. Einige Beispiele finden Sie hier.
Der reguläre Ausdruck wird nur auf die angegebene Spalte angewendet, die ein Zeichenfolgendatentyp sein muss.
Hilfe zum Verfassen regulärer Ausdrücke finden Sie in der Kurzübersicht über die Sprache für reguläre Ausdrücke.
Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Ausgewählte ausführen aus.
Basierend auf dem angegebenen regulären Ausdruck wird das Dataset in zwei Sätze von Zeilen unterteilt: Zeilen mit Werten, die mit dem Ausdruck übereinstimmen, und alle übrigen Zeilen.
Beispiele
In den folgenden Beispielen wird veranschaulicht, wie Sie ein Dataset mithilfe der Option Regulärer Ausdruck unterteilen.
Einzelnes ganzes Wort
In diesem Beispiel werden alle Zeilen, die den Text Gryphon
in der Spalte Text
enthalten, in das erste Dataset aufgenommen, und andere Zeilen werden in die zweite Ausgabe von Split Data (Daten aufteilen) umgewandelt:
\"Text" Gryphon
TEILZEICHENFOLGE
In diesem Beispiel wird an einer beliebigen Position innerhalb der zweiten Spalte des Datasets nach der angegebenen Zeichenfolge gesucht, die hier durch den Indexwert 1 angegeben wird. Bei der Übereinstimmung muss die Groß-/Kleinschreibung beachtet werden.
(\1) ^[a-f]
Das erste Ergebnisdataset enthält jede Zeile, in der die Indexspalte mit einem der folgenden Buchstaben beginnt: a
, b
, c
, d
, e
, f
. Alle anderen Zeilen werden zur zweiten Ausgabe weitergeleitet.
Zeichenfolgen übereinstimmung für IP-Adressen
In diesem Beispiel werden einige Serverprotokolldaten zur Analyse in zwei Kategorien unterteilt: Verbindungen hinter der Firewall und Verbindungen mit IP-Adressen außerhalb der Firewall. Der reguläre Ausdruck wird auf das IP_Address
Feld (ein Zeichenfolgendatentyp ) angewendet.
(\IP_Address) ^[10]
Die erste Ausgabe enthält alle Adressen, die mit 10
beginnen.