Partycjonowanie i próbkowanie
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Tworzy wiele partycji zestawu danych na podstawie próbkowania
Kategoria: Przekształcanie danych / Przykład i dzielenie
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Partycja i przykład w programie Machine Learning Studio (wersja klasyczna), aby wykonać próbkowanie zestawu danych lub utworzyć partycje na podstawie zestawu danych.
Próbkowanie jest ważnym narzędziem w uczeniu maszynowym, ponieważ umożliwia zmniejszenie rozmiaru zestawu danych przy zachowaniu tego samego współczynnika wartości. Ten moduł obsługuje kilka powiązanych zadań, które są ważne w uczeniu maszynowym:
Podzielenie danych na wiele podsekcji o tym samym rozmiarze.
Partycje mogą być przeznaczone do krzyżowej weryfikacji lub do przypisywania przypadków do grup losowych.
Podzielenie danych na grupy, a następnie praca z danymi z określonej grupy.
Po losowym przypisaniu przypadków do różnych grup może być konieczne zmodyfikowanie funkcji skojarzonych tylko z jedną grupą.
Pobierania próbek.
Możesz wyodrębnić procent danych, zastosować próbkowanie losowe lub wybrać kolumnę do równoważenia zestawu danych i wykonać próbkowanie warstwowe na jego wartościach.
Tworzenie mniejszego zestawu danych do testowania.
Jeśli masz dużą liczbę danych, możesz użyć tylko pierwszych n wierszy podczas konfigurowania eksperymentu, a następnie przełączyć się na używanie pełnego zestawu danych podczas kompilowania modelu. Możesz również użyć próbkowania, aby utworzyć mniejszy zestaw danych do użycia w programie.
Jak skonfigurować partycję i przykład
Ten moduł obsługuje wiele metod dzielenia danych na partycje lub próbkowania. Najpierw wybierz metodę , a następnie ustaw dodatkowe opcje wymagane przez metodę .
- Uzyskiwanie najwyższej liczby wierszy
Uzyskiwanie N górnych wierszy z zestawu danych
Ten tryb umożliwia uzyskiwanie tylko pierwszych n wierszy. Ta opcja jest przydatna, jeśli chcesz przetestować eksperyment na niewielkiej liczbie wierszy i nie musisz w żaden sposób równoważyć ani próbkować danych.
Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych.
Tryb partycji lub próbki: ustaw tę opcję na Head.
Liczba wierszy do wybrania: wpisz liczbę wierszy do zwrócenia.
Liczba wierszy, które określisz, musi być nieujemną liczbą całkowitą. Jeśli liczba wybranych wierszy jest większa niż liczba wierszy w zestawie danych, zwracany jest cały zestaw danych.
Uruchom eksperyment.
Moduł zwraca pojedynczy zestaw danych zawierający tylko określoną liczbę wierszy. Wiersze są zawsze odczytywane z góry zestawu danych.
Tworzenie przykładu danych
Ta opcja obsługuje proste próbkowanie losowe lub warstwowe próbkowanie losowe. Jest to przydatne, jeśli chcesz utworzyć mniejszy reprezentatywny przykładowy zestaw danych do testowania.
Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych.
Tryb partycji lub próbkowania: ustaw tę wartość na Próbkowanie.
Częstotliwość próbkowania: wpisz wartość z wartości od 0 do 1. Ta wartość określa procent wierszy ze źródłowego zestawu danych, które powinny zostać uwzględnione w wyjściowym zestawie danych.
Jeśli na przykład chcesz uzyskać tylko połowę oryginalnego zestawu danych, wpisz , aby wskazać,
0.5
że częstotliwość próbkowania powinna być na poziomie 50%.Wiersze wejściowego zestawu danych są mieszane i selektywnie umieszczane w wyjściowym zestawie danych, zgodnie z określonym proporcją.
Losowy iniekt do próbkowania: opcjonalnie wpisz liczbę całkowitą do użycia jako wartość iniekcyjną.
Ta opcja jest ważna, jeśli chcesz, aby wiersze były za każdym razem dzielone w ten sam sposób. Wartość domyślna to 0, co oznacza, że początkowy iniekt jest generowany na podstawie zegara systemowego. Może to prowadzić do nieco innych wyników za każdym razem, gdy uruchamiasz eksperyment.
Podział warstwowy na próbkowanie: wybierz tę opcję, jeśli ważne jest, aby wiersze w zestawie danych były dzielone równomiernie przez kilka kolumn klucza przed próbkowaniem.
Dla kolumny klucza warstwy do próbkowania wybierz pojedynczą kolumnę warstwy do użycia podczas dzielenia zestawu danych. Wiersze w zestawie danych są następnie dzielone w następujący sposób:
Wszystkie wiersze wejściowe są grupowane (warstwowane) według wartości w określonej kolumnie warstwy.
Wiersze są mieszane w obrębie każdej grupy.
Każda grupa jest selektywnie dodawana do wyjściowego zestawu danych w celu spełnienia określonego współczynnika.
Aby uzyskać więcej informacji na temat próbkowania warstwowego, zobacz sekcję Uwagi techniczne.
Uruchom eksperyment.
W przypadku tej opcji moduł wyprowadza pojedynczy zestaw danych, który zawiera reprezentatywne próbkowanie danych.
Pozostała, nieprzypróbkowana część zestawu danych nie jest wyjściowa. Można jednak utworzyć sprzężenia dla zestawów danych, korzystając z modułu Apply SQL Transformation (Stosowanie przekształcenia danych), aby określić, które wiersze były nieużywane.
Dzielenie danych na partycje
Użyj tej opcji, jeśli chcesz podzielić zestaw danych na podzestawy danych. Ta opcja jest również przydatna, gdy chcesz utworzyć niestandardową liczbę składań do krzyżowej weryfikacji lub podzielić wiersze na kilka grup.
Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych.
W przypadku opcji Tryb partycji lub próbki wybierz pozycję Przypisz do składanych.
Użyj zamiany w partycjonowania: wybierz tę opcję, jeśli chcesz umieścić próbkowany wiersz z powrotem w puli wierszy do ponownego użycia. W związku z tym ten sam wiersz może być przypisany do kilku kropek.
Jeśli nie używasz zastępowania (opcja domyślna), próbkowany wiersz nie jest umieszczany z powrotem w puli wierszy do ponownego użycia. W związku z tym każdy wiersz można przypisać tylko do jednego składania.
Podział losowy: wybierz tę opcję, jeśli chcesz, aby wiersze zostały losowo przypisane do składanych wierszy.
Jeśli nie wybierzesz tej opcji, wiersze zostaną przypisane do składanych przy użyciu metody działania okrężnego.
Iniekt losowy: opcjonalnie wpisz liczbę całkowitą, która ma być wartością iniekcyjną. Ta opcja jest ważna, jeśli chcesz, aby wiersze były za każdym razem dzielone w ten sam sposób. W przeciwnym razie wartość domyślna 0 oznacza, że zostanie użyty losowy początkowy iniekt.
Określ metodę partycjonatora: określ sposób podziału danych na poszczególne partycje przy użyciu tych opcji:
Partycjonuj równomiernie: użyj tej opcji, aby umieścić taką samą liczbę wierszy w każdej partycji. Aby określić liczbę partycji wyjściowych, wpisz liczbę całościową w polu tekstowym Określ liczbę składanych składanych części.
Partycjonowanie z dostosowanymi proporcjami: użyj tej opcji, aby określić rozmiar każdej partycji jako listę rozdzieloną przecinkami.
Jeśli na przykład chcesz utworzyć trzy partycje z pierwszą partycją zawierającą 50% danych, a pozostałe dwie partycje każda zawierająca 25% danych, kliknij pole tekstowe Lista proporcji rozdzielonych przecinkami i wpisz następujące liczby:
.5, .25, .25
Suma wszystkich rozmiarów partycji musi się sumować do dokładnie 1.
W przypadku wprowadzenia liczb, które dodają mniej niż 1, tworzona jest dodatkowa partycja do przechowywania pozostałych wierszy. Jeśli na przykład wpiszemy wartości .2 i .3, tworzona jest trzecia partycja, która przechowuje pozostałe 50 procent wszystkich wierszy.
W przypadku wprowadzenia liczb, które dodają więcej niż 1, po uruchomieniu eksperymentu zostanie uruchomiony błąd.
Podział warstwowy: wybierz tę opcję, jeśli chcesz rozwarstwieć wiersze po podzieleniu, a następnie wybierz kolumnę warstwy.
Aby uzyskać więcej informacji na temat próbkowania warstwowego, zobacz sekcję Uwagi techniczne.
Uruchom eksperyment.
W przypadku tej opcji moduł wyprowadza wiele zestawów danych podzielonych na partycje przy użyciu określonych reguł.
Używanie danych ze wstępnie zdefiniowanej partycji
Ta opcja jest używana, gdy zestaw danych został podzielony na wiele partycji i teraz chcesz załadować każdą partycję po kolei w celu dalszej analizy lub przetwarzania.
Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna).
Połączenie dane wyjściowe poprzedniego wystąpienia partycji i przykładu. To wystąpienie musi użyć opcji Przypisz do składanych , aby wygenerować część partycji.
Tryb partycji lub próbki: wybierz pozycję Wybierz pozycję Zwiń.
Określ składanie, z którego ma zostać pobrana próbka: wybierz partycję do użycia, wpisując jej indeks. Indeksy partycji są oparte na 1. Jeśli na przykład zestaw danych zostałby podzielony na trzy części, partycje miałyby indeksy 1, 2 i 3.
W przypadku wpisania nieprawidłowej wartości indeksu zostanie podniesiony błąd czasu projektowania: "Błąd 0018: Zestaw danych zawiera nieprawidłowe dane".
Oprócz grupowania zestawu danych według składań można rozdzielić zestaw danych na dwie grupy: składanie docelowe i wszystkie inne. Aby to zrobić, wpisz indeks pojedynczego kropki, a następnie wybierz opcję Wybierz uzupełnienie wybranego składania, aby uzyskać wszystkie dane oprócz danych w określonym składaniu.
Jeśli pracujesz z wieloma partycjami, musisz dodać dodatkowe wystąpienia modułu Partycja i Przykład, aby obsługiwać każdą partycję.
Załóżmy na przykład, że wcześniej podzieliliśmy pacjentów na pięć kropek przy użyciu wieku. Aby pracować z poszczególnymi składami, potrzebujesz pięciu kopii modułu Partition (Partycja) i Sample ( Przykład) i w każdej z nich wybierasz inny składanie.
Porada
W przykładowym eksperymencie Split Partition (Podział partycji) i Sample (Przykład) pokazano tę technikę.
Uruchom eksperyment.
W przypadku tej opcji moduł wyprowadza pojedynczy zestaw danych zawierający tylko wiersze przypisane do tego składania.
Uwaga
Oznaczeń składanych nie można wyświetlać bezpośrednio; Są one obecne tylko w metadanych.
Przykłady
Przykłady sposobu, w jaki jest używany ten moduł, można znaleźć w Azure AI Gallery:
Krzyżowe sprawdzanie poprawności klasyfikacji binarnej: 20% częstotliwości próbkowania jest stosowane w celu utworzenia mniejszego zestawu danych próbkowania losowego. Oryginalny zestaw danych spisu zawierał ponad 30 000 wierszy; Próbkowany zestaw danych ma około 6500.
Krzyżowa weryfikacja regresji: dane są losowo i równomiernie przypisywane do pięciu kropek, bez warstwyfikacji, a wyniki są używane do krzyżowego sprawdzania poprawności.
Podziel partycję i przykład: Pokazuje wiele sposobów użycia partycjonowania i próbkowania. Najpierw opcja Przypisz do składanych służy do przypisywania wierszy w zestawie danych do jednej z trzech grup o równomiernym rozmiarze. Następnie trzy kolejne wystąpienia partycji i przykładu są dodawane przy użyciu trybu wyboru składania w celu zastosowania operacji do podzestawów danych
- W pierwszym składaniu (indeks 1) wiersze są dzielone losowo.
- W drugim składaniu (indeks 2) wiersze są dzielone według edukacji.
- W trzecim składaniu (indeks 3) wiersze są dzielone według wieku.
Uwagi techniczne
Kolumna warstwy musi być podzielone na kategorie z wartościami dyskretnymi. Jeśli kolumna nie jest jeszcze podzielone na kategorii i wystąpi błąd, użyj funkcji Edytuj metadane , aby zmienić właściwości kolumny.
Określana kolumna warstwy nie może zawierać danych ciągłych, czyli danych liczbowych z wartościami zmiennoprzecinjącymi w każdej komórce. W przeciwnym razie moduł nie może przetworzyć danych i zwraca błąd.
Przyczyną jest to, że każda kolumna używana do warstwyfikacji musi mieć skończony zestaw możliwych wartości. Jeśli określona kolumna warstwy zawiera jakiekolwiek wartości zmiennoprzecinczne, a kolumna nie jest typu podzielonego na kategorii, potencjalnie zawiera nieskończoną liczbę wartości.
Jeśli kolumna warstwy zawiera wartości logiczne i chcesz je zinterpretować jako podzielone na kategorii, musisz użyć modułu Edytowanie metadanych, aby zmienić etykietę metadanych.
Jeśli kolumna warstwy zawiera ciąg lub dane liczbowe ze zbyt wieloma unikatowymi wartościami, ta kolumna nie jest dobrym kandydatem do próbkowania warstwowego.
Więcej informacji na temat próbkowania warstwowego
Próbkowanie warstwowe zapewnia, że podzbiory danych mają reprezentatywne próbkowanie wybranej kolumny warstwy. Ta technika jest przydatna na przykład wtedy, gdy chcesz mieć pewność, że dane treningowe zawierają taki sam rozkład wartości wiekowych, jak dane testowe, lub odwrotnie. Można też rozwarstwieć kolumnę płci w badaniu zdrowotnym, aby zapewnić równomierne dystrybuowanie mężczyzn i kobiet podczas partycjonowania danych. Warstwyfikacja zapewnia, że proporcje wybranych wartości są zachowywane.
Wartości, na których należy oddzielić dane, należy określić, wybierając pojedynczą kolumnę, która będzie służyć jako kolumna warstwy.
Ten moduł wymaga, aby kolumna warstwy była kolumną kategorii. Jeśli chcesz użyć kolumny z wartościami całkowitymi dla warstwy, najlepszym rozwiązaniem jest przypisanie do tej kolumny typu podzielonego na grupy. Można to zrobić za pomocą schematu danych przed dodaniem ich do programu Machine Learning Studio (wersja klasyczna) lub zaktualizować metadane kolumny za pomocą funkcji Edytuj metadane.
Kolumny z danymi ciągłymi (czyli dane liczbowe z wartościami zmiennoprzecinjącymi w każdej komórce) nie mogą być używane jako kolumny warstwy. Jeśli wystąpi błąd, możesz użyć funkcji Grupuj dane w pojemniki, aby podzielić wartości na odrębne zakresy, a następnie użyć funkcji Edytuj metadane, aby zagwarantować, że kolumna będzie traktowana jako podzielone na kategorie.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Zestaw danych do podziału |
Parametry modułu
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Tryb partycji lub próbki | Lista | Metody próbkowania | Próbkowanie | Wybieranie partycji lub trybu próbkowania |
Używanie zastępowania w partycjonowania | Dowolne | Wartość logiczna | Fałsz | Wskaż, czy składanie powinno być rozłączne (wartość domyślna — brak zastępowania) lub nakładające się (true — użyj zamiany) |
Podział losowy | Dowolne | Boolean | Prawda | Wskazanie, czy podział jest losowy |
Iniekt losowy | Dowolne | Liczba całkowita | 0 | Określanie ininicjatora dla generatora liczb losowych |
Określanie metody partycjonatora | Lista | Metody partycjonowania | Partycjonowanie równomiernie | Wybierz pozycję Partition Evenly ( Partycjonuj równomiernie), aby podzielić na składania o równym rozmiarze, lub pozycję Partition with customized proportions to partition into folds of customized size (Partycjonowanie z dostosowanymi proporcjami na składanie o dostosowanym rozmiarze) |
Określ liczbę składań do równomiernego podziału na | >= 1 | Liczba całkowita | 5 | Wybierz liczbę partycji, na które chcesz podzielić |
Podział warstwowy | Lista | Typ Prawda/Fałsz | Fałsz | Wskazanie, czy podział jest warstwowy |
Kolumna klucza warstwy | Dowolne | ColumnSelection | Zawiera klucz warstwy | |
Lista proporcji rozdzielonych przecinkami | Dowolne | Ciąg | Lista proporcji rozdzielonych przecinkami | |
Podział warstwowy w celu dostosowania przypisania składania | Dowolne | Typ Prawda/Fałsz | Fałsz | Wskazanie, czy podział jest warstwowany dla dostosowanych przypisań składania |
Kolumna klucza warstwy dla dostosowanego przypisania składania | Dowolne | ColumnSelection | Zawiera klucz warstwy dla dostosowanych przypisań składania | |
Określ, z którego składana ma zostać pobrana próbka | >= 1 | Liczba całkowita | 1 | Zawiera indeks składania do próbkowania |
Wybieranie uzupełnienia wybranego składania | Dowolne | Wartość logiczna | Fałsz | Wybierz uzupełnienie określonego składania |
Częstotliwość próbkowania | Dowolne | Float | 0,01 | Wybieranie częstotliwości próbkowania |
Losowy iniekt do próbkowania | Dowolne | Liczba całkowita | 0 | Określanie iniekcjatora dla generatora liczb losowych do próbkowania |
Podział warstwowy na próbkowanie | Dowolne | Prawda/fałsz | Fałsz | Wskazanie, czy podział jest warstwowany na próbkowanie |
Kolumna klucza warstwy do próbkowania | Dowolne | ColumnSelection | Zawiera klucz warstwy do próbkowania | |
Liczba wierszy do wybrania | >= 0 | Liczba całkowita | 10 | Wybierz maksymalną liczbę rekordów, które będą dozwolone do przekazania do następnego modułu |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
oDataset | Tabela danych | Zestaw danych wynikowy z podziału |
Zobacz też
Przykład i podział
Dzielenie danych
Edytowanie metadanych
Grupowanie danych w pojemniki