Zastępowanie wartości dyskretnych
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Zamienia wartości dyskretne z jednej kolumny na wartości liczbowe oparte na innej kolumnie
Kategoria: Funkcje statystyczne
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób użycia modułu Zastąp wartości dyskretne w programie Machine Learning Studio (wersja klasyczna) w celu wygenerowania wyniku prawdopodobieństwa, który może służyć do reprezentowania wartości dyskretnej. Ten wynik może być przydatny do zrozumienia wartości informacji dyskretnych.
Jak to działa:
Należy wybrać kolumnę zawierającą wartość dyskretną (lub podzielonej na kategorie), a następnie wybrać inną kolumnę do użycia w celu odwołania.
W zależności od tego, czy druga kolumna jest kategoryczna, czy nie, moduł oblicza jedną z następujących wartości:
- Prawdopodobieństwo warunkowe dla drugiej kolumny z wartościami z pierwszej kolumny.
- Średnia iodchylenie standardowe dla każdej grupy wartości w pierwszej kolumnie.
Moduł wyprowadza zarówno zestaw danych z wynikami, jak i funkcję, która można zapisać i zastosować do innych zestawów danych.
Jak skonfigurować zastępowanie wartości dyskretnych
Porada
Zalecamy pracę tylko z jedną parą kolumn na raz. Moduł nie zgłasza błędu, jeśli wybierzesz wiele kolumn do przeanalizowania. Jednak w praktyce, jeśli wybierzesz wiele kolumn, zostaną one dopasowane przez wewnętrzną heurystyczną, a nie według kolejności wyboru.
W związku z tym zaleca się wybranie za każdym razem jednej pary kolumn, jednej dla kolumn dyskretnych i jednej dla kolumn zastępczych.
Jeśli musisz wygenerować wyniki dla wielu kolumn, użyj oddzielnych wystąpień zastąp wartości dyskretnych.
Dodaj moduł Replace Discrete Values (Zamień wartości dyskretne) do eksperymentu. Ten moduł można znaleźć w grupie Funkcje statystyczne na liście elementów eksperymentu w programie Machine Learning Studio (wersja klasyczna).
Połączenie zestaw danych zawierający co najmniej jedną kolumnę danych kategorii.
Kolumny dyskretne: kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumnę zawierającą wartości dyskretne (lub podzielone na kategorie).
Wszystkie wybrane kolumny dyskretne muszą być podzielone na kategorie. Jeśli wystąpi błąd, użyj modułu Edit Metadata (Edytowanie metadanych ), aby zmienić typ kolumny.
Kolumny zastępcze: kliknij pozycję Uruchom selektor kolumn, aby wybrać kolumnę zawierającą wartości do użycia podczas obliczania wyniku zastępczego.
W przypadku wybrania wielu kolumn dla dyskretnych kolumn należy wybrać równą liczbę kolumn zastępczych.
Uruchom eksperyment.
Uwaga
Nie można wybrać funkcji statystycznej do zastosowania. Moduł oblicza odpowiednią miarę na podstawie typu danych kolumny wybranej dla kolumny Zastępcze.
Wyniki
Moduł oblicza jedną z następujących wartości dla każdej pary kolumn:
Jeśli druga kolumna zawiera wartości kategorii, moduł oblicza prawdopodobieństwo warunkowe drugiej kolumny , biorąc pod uwagę wartości w pierwszej kolumnie.
Załóżmy na przykład, że wybrano z
occupation
zestawu danych spisu jako odrębnągender
kolumnę i wybrano kolumnę zastępczą. Dane wyjściowe modułu to:P(gender | occupation)
Jeśli druga kolumna zawiera wartości niekategoryczne, które można przekonwertować na liczby (takie jak wartości liczbowe lub logiczne, które nie są oznaczone jako podzielone na kategorii), moduł wyprowadza średnią i odchylenie standardowe dla każdej grupy wartości w pierwszej kolumnie.
Załóżmy na przykład, że używasz wartości
occupation
jako odrębnej kolumny , a druga kolumna to kolumna liczbowahours-per-week
. Moduł będzie wyprowadzać następujące nowe wartości:Mean(hours-per-week | occupation)
Std-Dev(hours-per-week | occupation)
Oprócz ocen prawdopodobieństwa moduł wyprowadza również przekształcony zestaw danych. W tym zestawie danych kolumna wybrana jako kolumny zastępcze jest zastępowana kolumną zawierającą obliczone wyniki.
Porada
Kolumny w źródłowym zestawie danych nie są w rzeczywistości zmieniane ani usuwane przez operację. Kolumny wyników to nowe kolumny generowane przez moduł i dane wyjściowe zamiast danych źródłowych.
Aby wyświetlić wartości źródłowe wraz z wynikami prawdopodobieństwa, użyj modułu Dodawanie kolumn .
Przykłady
Użycie zamień wartości dyskretnych można zilustrować w kilku prostych przykładach.
Przykład 1 . Zastąp wartość kategorii wynikiem prawdopodobieństwa
W poniższej tabeli przedstawiono kolumnę kategorii X i kolumnę Y z wartościami prawda/fałsz, które są traktowane jako wartości kategorii. Jeśli używasz zastąpić wartości dyskretnych, oblicza wynik prawdopodobieństwa warunkowego dla prawdopodobieństwa Y danego X, jak pokazano w trzeciej kolumnie.
X | Y | P(Y| X) |
---|---|---|
Blue (Niebieski) | 0 | P(Y=0|X=Blue) = 0.5 |
Blue (Niebieski) | 1 | P(Y=1|X=Blue) = 0.5 |
Green (Zielony) | 0 | P(Y=0|X=Green) = 2/3 |
Green (Zielony) | 0 | P(Y=0|X=Green) = 2/3 |
Green (Zielony) | 1 | P(Y=1|X=Green) = 1/3 |
Red (Czerwony) | 0 | P(Y=0|X=Red) = .75 |
Red (Czerwony) | 0 | P(Y=0|X=Red) = .75 |
Red (Czerwony) | 1 | P(Y=1|X=Red) = .25 |
Red (Czerwony) | 0 | P(Y=0|X=Red) = .75 |
Przykład 2 — obliczanie odchylenia średniego i standardowego na podstawie kolumny niekategorii
Gdy druga kolumna jest liczbowa, zastąp wartości dyskretne oblicza średnią i odchylenie standardowe zamiast wyniku prawdopodobieństwa warunkowego.
Poniższy przykład jest oparty na przykładowym zestawie danych Auto Prices (Przykładowe ceny automatyczne) uproszczonym w następujący sposób:
Wybrano niewielki podzbiór kolumn.
Tylko 30 górnych wierszy zostało wyodrębnione przy użyciu opcji Head modułu Partition (Partycja) i Sample (Przykład ).
Moduł Replace Discrete Values ( Zamień wartości dyskretne) został użyty do obliczenia średniej i odchylenia standardowego dla wagi krzywej pojazdu. biorąc pod uwagę kolumnę kategorii ,
num-of-doors
.
W poniższej tabeli przedstawiono wyniki:
Treść | Liczba bram | Curb-weight (Waga ograniczenia) | Średnia (waga curb|numer drzwi) | Std-Dev(curb-weight|num-of-doors) |
---|---|---|---|---|
odchylenie standardowe | dwa | 2548 | 2429.785714 | 507.45699 |
odchylenie standardowe | Cztery | 2337 | 2625.6 | 493.409877 |
odchylenie standardowe | dwa | 2507 | 2429.785714 | 507.45699 |
Turbo | Cztery | 3086 | 2625.6 5 | 493.409877 |
odchylenie standardowe | Cztery | 1989 | 2625.6 | 493.409877 |
Turbo | 2191 | |||
odchylenie standardowe | Cztery | 2535 | 2625.6 | 493.409877 |
Średnią dla każdej grupy wartości można sprawdzić przy AVERAGEIF
użyciu funkcji w Excel.
Przykład 3 — Obsługa brakujących wartości
W tym przykładzie pokazano, jak brakujące wartości (null) są propagowane do wyników podczas obliczania warunkowych ocen prawdopodobieństwa.
Jeśli kolumna wartości dyskretnych i kolumna wyszukiwania obliczeń zawierają brakujące wartości, brakujące wartości są propagowane do nowej kolumny.
Jeśli kolumna wartości dyskretnych zawiera tylko brakujące wartości, moduł nie może przetworzyć kolumny i zostanie wyświetlony komunikat o błędzie.
X | Y | P(Y| X) |
---|---|---|
1 | Prawda | P(Y=true|X=1) = 1/2 |
1 | Fałsz | P(Y=false|X=1) = 1/2 |
2 | Prawda | P(Y=true|X=2) = 1/3 |
2 | Fałsz | P(Y=false|X=2) = 1/3 |
2 | Zero | P(Y=null|X=2) = null |
Uwagi techniczne
Musisz upewnić się, że wszystkie odrębne kolumny, które chcesz zastąpić, są podzielone na kategorie, lub moduł zwróci błąd. W tym celu użyj modułu Edit Metadata (Edytowanie metadanych ).
Jeśli druga kolumna zawiera wartości logiczne, wartości True-False są przetwarzane jako liczbowe z wartościami FALSE i TRUE odpowiadającymi odpowiednio wartościom 0 i 1.
Formuła dla kolumny odchylenia standardowego oblicza odchylenie standardowe populacji. Dlatego N jest używany w mianowniku zamiast (N–1).
Jeśli druga kolumna zawiera dane niekategoryczne (wartości liczbowe lub logiczne), moduł oblicza średnią i odchylenie standardowe Y dla danej wartości X.
Oznacza to, że dla każdego wiersza w zestawie danych indeksowanego przez element
i
:Mean(Y│X)i = Mean(Y│X = Xi)
StdDev(Y│X)i = StdDev(Y│X = Xi)
Jeśli druga kolumna zawiera dane kategorii lub wartości, które nie są liczbowe ani logiczne, moduł oblicza warunkowe prawdopodobieństwo Y dla danej wartości X.
Wszystkie wartości logiczne w drugiej kolumnie są przetwarzane jako dane liczbowe z wartościami FALSE i TRUE odpowiadającymi odpowiednio wartościom 0 i 1.
Jeśli w dyskretnej kolumnie znajduje się klasa, tak aby wiersz z brakującą wartością był obecny w drugiej kolumnie, suma prawdopodobieństw warunkowych w klasie jest mniejsza niż jeden.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Parametry modułu
Nazwa | Zakres | Typ | Domyślny | Opis |
---|---|---|---|---|
Kolumny dyskretne | Dowolne | ColumnSelection | Wybiera kolumny zawierające wartości dyskretne | |
Kolumny zastępcze | Dowolne | ColumnSelection | Wybiera kolumny zawierające dane do użycia w miejsce wartości dyskretnych |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych uzupełniany | Tabela danych | Zestaw danych ze zastąpionymi danymi |
Przekształć funkcję | ITransform, interfejs | Definicja funkcji transform, którą można zastosować do innych zestawów danych |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0001 | Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych. |
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty. |
Błąd 0020 | Wyjątek występuje, gdy liczba kolumn w niektórych zestawach danych przekazanych do modułu jest zbyt mała. |
Błąd 0021 | Wyjątek występuje, gdy liczba wierszy w niektórych zestawach danych przekazanych do modułu jest zbyt mała. |
Błąd 0017 | Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł. |
Błąd 0026 | Wyjątek występuje, gdy kolumny o tej samej nazwie są niedozwolone. |
Błąd 0022 | Wyjątek występuje, jeśli liczba wybranych kolumn w wejściowym zestawie danych nie jest równa oczekiwanej liczbie. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).