Udostępnij za pośrednictwem


Zastępowanie wartości dyskretnych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Zamienia wartości dyskretne z jednej kolumny na wartości liczbowe oparte na innej kolumnie

Kategoria: Funkcje statystyczne

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Zastąp wartości dyskretne w programie Machine Learning Studio (wersja klasyczna) w celu wygenerowania wyniku prawdopodobieństwa, który może służyć do reprezentowania wartości dyskretnej. Ten wynik może być przydatny do zrozumienia wartości informacji dyskretnych.

Jak to działa:

Należy wybrać kolumnę zawierającą wartość dyskretną (lub podzielonej na kategorie), a następnie wybrać inną kolumnę do użycia w celu odwołania.

W zależności od tego, czy druga kolumna jest kategoryczna, czy nie, moduł oblicza jedną z następujących wartości:

  • Prawdopodobieństwo warunkowe dla drugiej kolumny z wartościami z pierwszej kolumny.
  • Średnia iodchylenie standardowe dla każdej grupy wartości w pierwszej kolumnie.

Moduł wyprowadza zarówno zestaw danych z wynikami, jak i funkcję, która można zapisać i zastosować do innych zestawów danych.

Jak skonfigurować zastępowanie wartości dyskretnych

Porada

Zalecamy pracę tylko z jedną parą kolumn na raz. Moduł nie zgłasza błędu, jeśli wybierzesz wiele kolumn do przeanalizowania. Jednak w praktyce, jeśli wybierzesz wiele kolumn, zostaną one dopasowane przez wewnętrzną heurystyczną, a nie według kolejności wyboru.

W związku z tym zaleca się wybranie za każdym razem jednej pary kolumn, jednej dla kolumn dyskretnych i jednej dla kolumn zastępczych.

Jeśli musisz wygenerować wyniki dla wielu kolumn, użyj oddzielnych wystąpień zastąp wartości dyskretnych.

  1. Dodaj moduł Replace Discrete Values (Zamień wartości dyskretne) do eksperymentu. Ten moduł można znaleźć w grupie Funkcje statystyczne na liście elementów eksperymentu w programie Machine Learning Studio (wersja klasyczna).

  2. Połączenie zestaw danych zawierający co najmniej jedną kolumnę danych kategorii.

  3. Kolumny dyskretne: kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumnę zawierającą wartości dyskretne (lub podzielone na kategorie).

    Wszystkie wybrane kolumny dyskretne muszą być podzielone na kategorie. Jeśli wystąpi błąd, użyj modułu Edit Metadata (Edytowanie metadanych ), aby zmienić typ kolumny.

  4. Kolumny zastępcze: kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumnę zawierającą wartości do użycia podczas obliczania wyniku zastępczego.

    W przypadku wybrania wielu kolumn dla dyskretnych kolumn należy wybrać równą liczbę kolumn zastępczych.

  5. Uruchom eksperyment.

    Uwaga

    Nie można wybrać funkcji statystycznej do zastosowania. Moduł oblicza odpowiednią miarę na podstawie typu danych kolumny wybranej dla kolumny Zastępcze.

Wyniki

Moduł oblicza jedną z następujących wartości dla każdej pary kolumn:

  • Jeśli druga kolumna zawiera wartości kategorii, moduł oblicza prawdopodobieństwo warunkowe drugiej kolumny , biorąc pod uwagę wartości w pierwszej kolumnie.

    Załóżmy na przykład, że wybrano z occupation zestawu danych spisu jako odrębną gender kolumnę i wybrano kolumnę zastępczą. Dane wyjściowe modułu to:

    P(gender | occupation)

  • Jeśli druga kolumna zawiera wartości niekategoryczne, które można przekonwertować na liczby (takie jak wartości liczbowe lub logiczne, które nie są oznaczone jako podzielone na kategorii), moduł wyprowadza średnią i odchylenie standardowe dla każdej grupy wartości w pierwszej kolumnie.

    Załóżmy na przykład, że używasz wartości occupation jako odrębnej kolumny , a druga kolumna to kolumna liczbowa hours-per-week. Moduł będzie wyprowadzać następujące nowe wartości:

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

Oprócz ocen prawdopodobieństwa moduł wyprowadza również przekształcony zestaw danych. W tym zestawie danych kolumna wybrana jako kolumny zastępcze jest zastępowana kolumną zawierającą obliczone wyniki.

Porada

Kolumny w źródłowym zestawie danych nie są w rzeczywistości zmieniane ani usuwane przez operację. Kolumny wyników to nowe kolumny generowane przez moduł i dane wyjściowe zamiast danych źródłowych.

Aby wyświetlić wartości źródłowe wraz z wynikami prawdopodobieństwa, użyj modułu Dodawanie kolumn .

Przykłady

Użycie zamień wartości dyskretnych można zilustrować w kilku prostych przykładach.

Przykład 1 . Zastąp wartość kategorii wynikiem prawdopodobieństwa

W poniższej tabeli przedstawiono kolumnę kategorii X i kolumnę Y z wartościami prawda/fałsz, które są traktowane jako wartości kategorii. Jeśli używasz zastąpić wartości dyskretnych, oblicza wynik prawdopodobieństwa warunkowego dla prawdopodobieństwa Y danego X, jak pokazano w trzeciej kolumnie.

X Y P(Y| X)
Blue (Niebieski) 0 P(Y=0|X=Blue) = 0.5
Blue (Niebieski) 1 P(Y=1|X=Blue) = 0.5
Green (Zielony) 0 P(Y=0|X=Green) = 2/3
Green (Zielony) 0 P(Y=0|X=Green) = 2/3
Green (Zielony) 1 P(Y=1|X=Green) = 1/3
Red (Czerwony) 0 P(Y=0|X=Red) = .75
Red (Czerwony) 0 P(Y=0|X=Red) = .75
Red (Czerwony) 1 P(Y=1|X=Red) = .25
Red (Czerwony) 0 P(Y=0|X=Red) = .75

Przykład 2 — obliczanie odchylenia średniego i standardowego na podstawie kolumny niekategorii

Gdy druga kolumna jest liczbowa, zastąp wartości dyskretne oblicza średnią i odchylenie standardowe zamiast wyniku prawdopodobieństwa warunkowego.

Poniższy przykład jest oparty na przykładowym zestawie danych Auto Prices (Przykładowe ceny automatyczne) uproszczonym w następujący sposób:

  • Wybrano niewielki podzbiór kolumn.

  • Tylko 30 górnych wierszy zostało wyodrębnione przy użyciu opcji Head modułu Partition (Partycja) i Sample (Przykład ).

  • Moduł Replace Discrete Values ( Zamień wartości dyskretne) został użyty do obliczenia średniej i odchylenia standardowego dla wagi krzywej pojazdu. biorąc pod uwagę kolumnę kategorii , num-of-doors.

W poniższej tabeli przedstawiono wyniki:

Treść Liczba bram Curb-weight (Waga ograniczenia) Średnia (waga curb|numer drzwi) Std-Dev(curb-weight|num-of-doors)
odchylenie standardowe dwa 2548 2429.785714 507.45699
odchylenie standardowe Cztery 2337 2625.6 493.409877
odchylenie standardowe dwa 2507 2429.785714 507.45699
Turbo Cztery 3086 2625.6 5 493.409877
odchylenie standardowe Cztery 1989 2625.6 493.409877
Turbo 2191
odchylenie standardowe Cztery 2535 2625.6 493.409877

Średnią dla każdej grupy wartości można sprawdzić przy AVERAGEIF użyciu funkcji w Excel.

Przykład 3 — Obsługa brakujących wartości

W tym przykładzie pokazano, jak brakujące wartości (null) są propagowane do wyników podczas obliczania warunkowych ocen prawdopodobieństwa.

  • Jeśli kolumna wartości dyskretnych i kolumna wyszukiwania obliczeń zawierają brakujące wartości, brakujące wartości są propagowane do nowej kolumny.

  • Jeśli kolumna wartości dyskretnych zawiera tylko brakujące wartości, moduł nie może przetworzyć kolumny i zostanie wyświetlony komunikat o błędzie.

X Y P(Y| X)
1 Prawda P(Y=true|X=1) = 1/2
1 Fałsz P(Y=false|X=1) = 1/2
2 Prawda P(Y=true|X=2) = 1/3
2 Fałsz P(Y=false|X=2) = 1/3
2 Zero P(Y=null|X=2) = null

Uwagi techniczne

  • Musisz upewnić się, że wszystkie odrębne kolumny, które chcesz zastąpić, są podzielone na kategorie, lub moduł zwróci błąd. W tym celu użyj modułu Edit Metadata (Edytowanie metadanych ).

  • Jeśli druga kolumna zawiera wartości logiczne, wartości True-False są przetwarzane jako liczbowe z wartościami FALSE i TRUE odpowiadającymi odpowiednio wartościom 0 i 1.

  • Formuła dla kolumny odchylenia standardowego oblicza odchylenie standardowe populacji. Dlatego N jest używany w mianowniku zamiast (N–1).

  • Jeśli druga kolumna zawiera dane niekategoryczne (wartości liczbowe lub logiczne), moduł oblicza średnią i odchylenie standardowe Y dla danej wartości X.

    Oznacza to, że dla każdego wiersza w zestawie danych indeksowanego przez element i:

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • Jeśli druga kolumna zawiera dane kategorii lub wartości, które nie są liczbowe ani logiczne, moduł oblicza warunkowe prawdopodobieństwo Y dla danej wartości X.

  • Wszystkie wartości logiczne w drugiej kolumnie są przetwarzane jako dane liczbowe z wartościami FALSE i TRUE odpowiadającymi odpowiednio wartościom 0 i 1.

  • Jeśli w dyskretnej kolumnie znajduje się klasa, tak aby wiersz z brakującą wartością był obecny w drugiej kolumnie, suma prawdopodobieństw warunkowych w klasie jest mniejsza niż jeden.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Kolumny dyskretne Dowolne ColumnSelection Wybiera kolumny zawierające wartości dyskretne
Kolumny zastępcze Dowolne ColumnSelection Wybiera kolumny zawierające dane do użycia w miejsce wartości dyskretnych

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych uzupełniany Tabela danych Zestaw danych ze zastąpionymi danymi
Przekształć funkcję ITransform, interfejs Definicja funkcji transform, którą można zastosować do innych zestawów danych

Wyjątki

Wyjątek Opis
Błąd 0001 Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty.
Błąd 0020 Wyjątek występuje, gdy liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała.
Błąd 0021 Wyjątek występuje, gdy liczba wierszy w niektórych zestawach danych przekazanych do modułu jest zbyt mała.
Błąd 0017 Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.
Błąd 0026 Wyjątek występuje, gdy kolumny o tej samej nazwie są niedozwolone.
Błąd 0022 Wyjątek występuje, jeśli liczba wybranych kolumn w wejściowym zestawie danych nie jest równa oczekiwanej liczbie.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Funkcje statystyczne