Udostępnij za pośrednictwem


Dzielenie danych przy użyciu wyrażenia regularnego

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano sposób użycia opcji Podział wyrażeń regularnych w module Split Data (Dzielenie danych) programu Machine Learning Studio (wersja klasyczna). Ta opcja jest przydatna, gdy trzeba zastosować kryteria filtrowania do kolumny tekstowej. Na przykład zestaw danych można podzielić przez to, czy dany produkt jest wymieniony.

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Można użyć podziału wyrażenia regularnego dla pojedynczej kolumny tekstowej. Zdefiniuj wyrażenie regularne zawierające nazwę kolumny tekstowej, a następnie ustaw warunki, które mają zastosowanie do kolumny, takie jak "zaczyna się od", ""contains" lub "nie zawiera".

Aby uzyskać ogólne informacje na temat partycjonowania danych dla eksperymentów uczenia maszynowego, zobacz Split Data and Partition and Split (Dzielenie danych i partycjonowanie oraz dzielenie).

Inne opcje w module Split Data (Podział danych):

Używanie wyrażenia regularnego do dzielenia zestawu danych

  1. Dodaj moduł Split Data (Podział danych) do eksperymentu i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.

  2. W przypadku opcji Tryb dzielenia wybierz pozycję Podział wyrażeń regularnych.

  3. W polu Wyrażenie regularne wpisz prawidłowe wyrażenie regularne. Poniżej przedstawiono kilka przykładów.

    Wyrażenie regularne jest stosowane tylko do określonej kolumny, która musi być typem danych ciągu.

    Aby uzyskać pomoc podczas programowania wyrażeń regularnych, zobacz Regular Expression Language - Quick Reference (Język wyrażeń regularnych — krótki przewodnik).

  4. Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybraną.

    Na podstawie podanego wyrażenia regularnego zestaw danych jest podzielony na dwa zestawy wierszy: wiersze z wartościami, które pasują do wyrażenia, i wszystkie pozostałe wiersze.

Przykłady

W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Regular Expression (Wyrażenie regularne).

Pojedyncze całe słowo

Ten przykład umieszcza w pierwszym zestawie GryphonTextdanych wszystkie wiersze zawierające tekst w kolumnie i umieszcza inne wiersze w drugim zestawie danych wyjściowych split data:

    \"Text" Gryphon  

Podciąg

Ten przykład wyszukuje określony ciąg w dowolnej pozycji w drugiej kolumnie zestawu danych, co oznacza wartość indeksu 1. W dopasowań jest wróżniana wielkość liter.

(\1) ^[a-f]

Pierwszy wynikowy zestaw danych zawiera wszystkie wiersze, w których kolumna indeksu rozpoczyna się od jednego z tych znaków: a, b, c, d, e, f. Wszystkie pozostałe wiersze są kierowane do drugiego wyniku.

Dopasowanie ciągu dla adresów IP

W tym przykładzie dane dziennika serwera są podzielone na dwie kategorie do analizy: połączenia za zaporą i połączenia z adresami IP poza zaporą. Wyrażenie regularne jest stosowane do pola IP_Address (typu danych ciągu).

(\IP_Address) ^[10]

Pierwsze dane wyjściowe zawierają wszystkie adresy, które zaczynają się od 10.

Zobacz też

Przykład i podział
Partycjonowanie i próbkowanie