Split Data Component (Podział składnika danych)

Artykuł
09/01/2024

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj składnika Split Data (Podział danych), aby podzielić zestaw danych na dwa odrębne zestawy.

Ten składnik jest przydatny, gdy musisz oddzielić dane od zestawów trenowania i testowania. Możesz również dostosować sposób dzielenia danych. Niektóre opcje obsługują losowe generowanie danych. Inne są dostosowane do określonego typu danych lub typu modelu.

Konfigurowanie składnika

Napiwek

Przed wybraniem trybu dzielenia przeczytaj wszystkie opcje, aby określić potrzebny typ podziału. Jeśli zmienisz tryb dzielenia, wszystkie inne opcje mogą zostać zresetowane.

Dodaj składnik Split Data (Podział danych) do potoku w projektancie. Ten składnik można znaleźć w obszarze Przekształcanie danych w kategorii Przykład i Podział .
Tryb dzielenia: wybierz jeden z następujących trybów, w zależności od typu posiadanych danych i sposobu ich dzielenia. Każdy tryb dzielenia ma różne opcje.
- Podziel wiersze: użyj tej opcji, jeśli chcesz podzielić dane na dwie części. Możesz określić procent danych do umieszczenia w każdym podziale. Domyślnie dane są podzielone 50/50.
  
  Można również losować wybór wierszy w każdej grupie i użyć próbkowania warstwowego. W warstwowym próbkowaniu należy wybrać jedną kolumnę danych, dla której wartości mają być rozdzielone równomiernie między dwa zestawy danych wynikowych.
- Podział wyrażeń regularnych: wybierz tę opcję, jeśli chcesz podzielić zestaw danych, testując pojedynczą kolumnę dla wartości.
  
  Jeśli na przykład analizujesz tonację, możesz sprawdzić obecność określonej nazwy produktu w polu tekstowym. Następnie można podzielić zestaw danych na wiersze z docelową nazwą produktu i wierszami bez nazwy produktu docelowego.
- Podział wyrażenia względnego: użyj tej opcji zawsze, gdy chcesz zastosować warunek do kolumny liczbowej. Liczba może być polem daty/godziny, kolumną zawierającą kwoty wieku lub dolara, a nawet procentem. Możesz na przykład podzielić zestaw danych na podstawie kosztów elementów, grupować osoby według przedziałów wieku lub oddzielić dane według daty kalendarza.

Dzielenie wierszy

Dodaj składnik Split Data (Podział danych) do potoku w projektancie i połącz zestaw danych, który chcesz podzielić.
W obszarze Tryb dzielenia wybierz pozycję Podziel wiersze.
Ułamek wierszy w pierwszym wyjściowym zestawie danych: użyj tej opcji, aby określić, ile wierszy przejdzie do pierwszych danych wyjściowych (po lewej stronie). Wszystkie inne wiersze zostaną wprowadzone do danych wyjściowych drugiej (po prawej stronie).

Współczynnik reprezentuje procent wierszy wysyłanych do pierwszego wyjściowego zestawu danych, więc musisz wprowadzić liczbę dziesiętną z zakresu od 0 do 1.

Jeśli na przykład jako wartość zostanie wprowadzona wartość 0,75 , zestaw danych zostanie podzielony na 75/25. W tym podziale 75 procent wierszy zostanie wysłanych do pierwszego wyjściowego zestawu danych. Pozostałe 25 procent zostanie wysłane do drugiego wyjściowego zestawu danych.
Wybierz opcję Podział losowy, jeśli chcesz losowo wybrać dane w dwóch grupach. Jest to preferowana opcja podczas tworzenia zestawów danych szkoleniowych i testowych.
Inicjator losowy: ten parametr zostanie zignorowany, jeśli losowy podział ma wartość false. W przeciwnym razie wprowadź nieujemną wartość całkowitą, aby uruchomić sekwencję pseudorandom wystąpień do użycia. To domyślne inicjator jest używane we wszystkich składnikach, które generują liczby losowe.

Określenie inicjatora sprawia, że wyniki można odtworzyć. Jeśli musisz powtórzyć wyniki operacji dzielenia, należy określić tę samą liczbę inicjatora dla generatora liczb losowych.
Podział warstwowy: ustaw tę opcję na wartość True , aby upewnić się, że dwa wyjściowe zestawy danych zawierają reprezentatywną próbkę wartości w kolumnie strata lub kolumnie klucza stratification.

W przypadku próbkowania warstwowego dane są podzielone, tak aby każdy wyjściowy zestaw danych pobierał mniej więcej taki sam procent każdej wartości docelowej. Na przykład możesz upewnić się, że zestawy treningowe i testowe są w przybliżeniu zrównoważone w odniesieniu do wyniku lub do innego kolumny (np. płci).
Prześlij potok.

Wybieranie wyrażenia regularnego

Dodaj składnik Split Data (Podział danych) do potoku i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.
W obszarze Tryb dzielenia wybierz pozycję Podział wyrażeń regularnych.
W polu Wyrażenie regularne wprowadź prawidłowe wyrażenie regularne.

Wyrażenie regularne powinno być zgodne ze składnią języka Python dla wyrażeń regularnych.
Prześlij potok.

Na podstawie podanego wyrażenia regularnego zestaw danych jest podzielony na dwa zestawy wierszy: wiersze z wartościami zgodnymi z wyrażeniem i wszystkimi pozostałymi wierszami.

W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Wyrażenia regularnego.

Jedno całe słowo

W tym przykładzie umieszczamy w pierwszym zestawie danych wszystkie wiersze zawierające tekst Gryphon w kolumnie Text. Umieszcza inne wiersze w drugim danych wyjściowych funkcji Split Data (Podział danych).

    \"Text" Gryphon

Podciąg

Ten przykład szuka określonego ciągu w dowolnej pozycji w drugiej kolumnie zestawu danych. Pozycja jest oznaczona tutaj przez wartość indeksu 1. Dopasowanie jest uwzględniane w wielkości liter.

(\1) ^[a-f]

Pierwszy zestaw danych wyników zawiera wszystkie wiersze, w których kolumna indeksu zaczyna się od jednego z następujących znaków: a, , , bdc, . ef Wszystkie inne wiersze są kierowane do drugiego danych wyjściowych.

Wybieranie wyrażenia względnego

Dodaj składnik Split Data (Podział danych) do potoku i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.
W obszarze Tryb dzielenia wybierz pozycję Wyrażenie względne.
W polu Wyrażenie relacyjne wprowadź wyrażenie, które wykonuje operację porównania w jednej kolumnie.

W przypadku kolumny liczbowej:
- Kolumna zawiera liczby dowolnego typu danych liczbowych, w tym typy danych daty i godziny.
- Wyrażenie może odwoływać się do maksymalnie jednej nazwy kolumny.
- Użyj znaku ampersand , &dla operacji AND. Użyj znaku potoku , |dla operacji OR.
- Obsługiwane są następujące operatory: <, , >, >=<=, , ==, . !=
- Nie można grupować operacji przy użyciu elementów ( i ).
Kolumna Ciąg:
- Obsługiwane są następujące operatory: ==, !=.
Prześlij potok.

Wyrażenie dzieli zestaw danych na dwa zestawy wierszy: wiersze z wartościami spełniającymi warunek i wszystkimi pozostałymi wierszami.

W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Wyrażenie względne w składniku Split Data (Podział danych ).

Rok kalendarzowy

Typowym scenariuszem jest podzielenie zestawu danych według lat. Następujące wyrażenie wybiera wszystkie wiersze, w których wartości w kolumnie Year są większe niż 2010.

\"Year" > 2010

Wyrażenie daty musi uwzględniać wszystkie części dat uwzględnione w kolumnie danych. Format dat w kolumnie danych musi być spójny.

Na przykład w kolumnie daty używającej formatu mmddyyyywyrażenie powinno wyglądać mniej więcej tak:

\"Date" > 1/1/2010

Indeks kolumn

Poniższe wyrażenie pokazuje, jak można użyć indeksu kolumn, aby wybrać wszystkie wiersze w pierwszej kolumnie zestawu danych zawierającego wartości mniejsze lub równe 30, ale nie równe 20.

(\0)<=30 & !=20

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.

Udostępnij za pośrednictwem