Dzielenie danych przy użyciu wyrażenia regularnego
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
W tym artykule opisano sposób użycia opcji Podział wyrażeń regularnych w module Split Data (Dzielenie danych) programu Machine Learning Studio (wersja klasyczna). Ta opcja jest przydatna, gdy trzeba zastosować kryteria filtrowania do kolumny tekstowej. Na przykład zestaw danych można podzielić przez to, czy dany produkt jest wymieniony.
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Można użyć podziału wyrażenia regularnego dla pojedynczej kolumny tekstowej. Zdefiniuj wyrażenie regularne zawierające nazwę kolumny tekstowej, a następnie ustaw warunki, które mają zastosowanie do kolumny, takie jak "zaczyna się od", ""contains" lub "nie zawiera".
Aby uzyskać ogólne informacje na temat partycjonowania danych dla eksperymentów uczenia maszynowego, zobacz Split Data and Partition and Split (Dzielenie danych i partycjonowanie oraz dzielenie).
Zadania powiązane
Inne opcje w module Split Data (Podział danych):
Dzielenie danych przy użyciu wyrażeń względnych: stosowanie wyrażenia do danych liczbowych.
Dzielenie zestawów danych polecania: dzielenie zestawów danych używanych w modelach rekomendacji. Zestaw danych powinien mieć trzy kolumny: elementy, użytkowników i oceny
Używanie wyrażenia regularnego do dzielenia zestawu danych
Dodaj moduł Split Data (Podział danych) do eksperymentu i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.
W przypadku opcji Tryb dzielenia wybierz pozycję Podział wyrażeń regularnych.
W polu Wyrażenie regularne wpisz prawidłowe wyrażenie regularne. Poniżej przedstawiono kilka przykładów.
Wyrażenie regularne jest stosowane tylko do określonej kolumny, która musi być typem danych ciągu.
Aby uzyskać pomoc podczas programowania wyrażeń regularnych, zobacz Regular Expression Language - Quick Reference (Język wyrażeń regularnych — krótki przewodnik).
Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybraną.
Na podstawie podanego wyrażenia regularnego zestaw danych jest podzielony na dwa zestawy wierszy: wiersze z wartościami, które pasują do wyrażenia, i wszystkie pozostałe wiersze.
Przykłady
W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Regular Expression (Wyrażenie regularne).
Pojedyncze całe słowo
Ten przykład umieszcza w pierwszym zestawie Gryphon
Text
danych wszystkie wiersze zawierające tekst w kolumnie i umieszcza inne wiersze w drugim zestawie danych wyjściowych split data:
\"Text" Gryphon
Podciąg
Ten przykład wyszukuje określony ciąg w dowolnej pozycji w drugiej kolumnie zestawu danych, co oznacza wartość indeksu 1. W dopasowań jest wróżniana wielkość liter.
(\1) ^[a-f]
Pierwszy wynikowy zestaw danych zawiera wszystkie wiersze, w których kolumna indeksu rozpoczyna się od jednego z tych znaków: a
, b
, c
, d
, e
, f
. Wszystkie pozostałe wiersze są kierowane do drugiego wyniku.
Dopasowanie ciągu dla adresów IP
W tym przykładzie dane dziennika serwera są podzielone na dwie kategorie do analizy: połączenia za zaporą i połączenia z adresami IP poza zaporą. Wyrażenie regularne jest stosowane do pola IP_Address
(typu danych ciągu).
(\IP_Address) ^[10]
Pierwsze dane wyjściowe zawierają wszystkie adresy, które zaczynają się od 10
.