Udostępnij za pośrednictwem


Dzielenie danych przy użyciu funkcji Split Rows (Podział wierszy)

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano sposób użycia opcji Podziel wiersze w module Split Data (Podział danych) programu Machine Learning Studio (wersja klasyczna). Ta opcja jest szczególnie przydatna, gdy musisz podzielić zestawy danych używane do trenowania i testowania, losowo lub według pewnych kryteriów.

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Opcja Podziel wiersze obsługuje podziały losowe i warstwowe. Na przykład można określić podział 70–30 lub podział 10–90 ze zmienną docelową w równym stopniu reprezentowanym w obu zestawach danych.

Aby uzyskać ogólne informacje na temat partycjonowania danych dla eksperymentów uczenia maszynowego, zobacz Split Data and Partition and Split (Dzielenie danych i partycjonowanie oraz dzielenie).

Inne opcje w module Split Data (Podział danych) obsługują różne sposoby dzielenia danych:

Dzielenie zestawu danych na dwie grupy

  1. Dodaj moduł Split Data (Podział danych ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych, który chcesz podzielić.

  2. W przypadku trybu dzielenia wybierz pozycję Podziel wiersze.

  3. Część wierszy w pierwszym wyjściowym zestawie danych. Użyj tej opcji, aby określić, ile wierszy trafia do pierwszych (po lewej) danych wyjściowych. Wszystkie pozostałe wiersze będą trafiać do drugiego (po prawej) danych wyjściowych.

    Współczynnik reprezentuje procent wierszy wysłanych do pierwszego wyjściowego zestawu danych, dlatego należy wpisać liczbę dziesiętną z wartości od 0 do 1.

    Jeśli na przykład wpiszemy wartość 0,75, zestaw danych zostanie podzielony przy użyciu współczynnika 75:25, 75% wierszy wysłanych do pierwszego wyjściowego zestawu danych, a 25% do drugiego wyjściowego zestawu danych.

  4. Wybierz opcję Podział losowy , jeśli chcesz losowo podzielić wybór danych na dwie grupy. Jest to preferowana opcja podczas tworzenia szkoleniowych i testowych zestawów danych.

  5. Losowy inicjalizowany: wpisz nieujemną wartość całkowitą, aby zainicjować sekwencję pseudolosowych wystąpień, które mają być używane. Ten domyślny iniekt jest używany we wszystkich modułach, które generują liczby losowe.

    Określenie iniekcu sprawia, że wyniki są zwykle powtarzalne. Jeśli musisz powtórzyć wyniki operacji podziału, należy określić iniekt dla generatora liczb losowych. W przeciwnym razie losowy inicjalizowany jest domyślnie ustawiony na 0, co oznacza, że początkowa wartość inicjuje jest uzyskiwana z zegara systemowego. W związku z tym rozkład danych może się nieco różnić za każdym razem, gdy wykonujesz podział.

  6. Podział warstwowy: ustaw tę opcję na wartość Prawda , aby upewnić się, że dwa wyjściowe zestawy danych zawierają reprezentatywną próbkę wartości w kolumnie warstwy lub kolumnie klucza warstwy.

    W przypadku próbkowania warstwowego dane są dzielone w taki sposób, że każdy wyjściowy zestaw danych otrzymuje w przybliżeniu tę samą wartość procentową każdej wartości docelowej. Na przykład możesz chcieć upewnić się, że zestawy treningowe i testowe są w przybliżeniu zrównoważone pod względem wyniku lub w odniesieniu do innych kolumn, takich jak płeć.

  7. Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł i wybierz pozycję Uruchom wybraną.

Przykłady

W poniższych przykładach pokazano, jak wykonywać proste podziały przy użyciu trybu Split Rows (Podział wierszy ).

Podziel na dwie równe części

Dodaj moduł Split Data (Podział danych) po zestawie danych bez żadnych innych zmian. Domyślnie moduł dzieli zestaw danych na dwie równe części. W przypadku danych z nieparzystą liczbą wierszy drugie dane wyjściowe pobierają resztę.

Podzielenie na trzecie

Załóżmy, że chcesz podzielić zestaw danych na dwie części, przy użyciu trzeciej z danych używanych do trenowania, a pozostałej do testowania lub dodatkowych podziałów.

W tym celu dodaj moduł Split Data (Podział danych) i ustaw pozycję Fraction of rows in the first output (Ułamek wierszy w pierwszych danych wyjściowych) na wartość 0,33. Drugie dane wyjściowe zawierają pozostałe dwie trzecie.

Aby podzielić drugie dane wyjściowe na równe części, dodaj kolejne wystąpienie modułu Split Data (Podział danych). Tym razem użyj wartości domyślnej dla podziału 50–50.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Szczegóły implementacji

  • Ten moduł wymaga, aby zestaw danych zawierał co najmniej dwa wiersze. W przeciwnym razie zostanie podniesiony błąd.

  • Jeśli używasz opcji do określenia żądanej liczby wierszy, określona liczba musi być dodatnią liczbą całkowitą, a liczba musi być mniejsza niż łączna liczba wierszy w zestawie danych.

  • Wszystkie wartości procentowe muszą być w zakresie od 0 do 1.

  • Jeśli określisz liczbę lub wartość procentową jako liczbę zmiennoprzecinkową mniejszą niż jeden i nie użyjemy symbolu procentu (%), liczba jest interpretowana jako wartość proporcjonalna.

Dodatkowe wymagania dotyczące próbkowania warstwowego

  • Kolumna warstwy może zawierać tylko dane nominalne lub dane kategorii. Jeśli kolumna zawiera ciągłe dane liczbowe, zostanie wyświetlony komunikat o błędzie.

  • Kolumna ze zbyt wieloma unikatowymi wartościami nie jest dobrym kandydatem do warstwyfikacji. Możesz wcześniej spróbować zwijać niektóre kategorie lub wartości grupowania.

Zobacz też

Przykłady iSplitPartition oraz Przykład