Nahradit diskrétní hodnoty

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Nahradí diskrétní hodnoty z jednoho sloupce číselnými hodnotami založenými na jiném sloupci.

Kategorie: statistické funkce

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul nahradit diskrétní hodnoty v Machine Learning studiu (classic) k vygenerování pravděpodobnostního skóre, které lze použít k reprezentaci diskrétní hodnoty. Toto skóre může být užitečné pro porozumění hodnotě informací diskrétních hodnot.

Jak to funguje:

Vyberte sloupec, který obsahuje diskrétní hodnotu (nebo kategorií), a potom vyberte jiný sloupec, který se má použít pro referenci.

V závislosti na tom, jestli je druhý sloupec kategorií nebo ne kategorií, modul vypočítá jednu z následujících hodnot:

Podmíněná pravděpodobnost pro druhý sloupec podle hodnot v prvním sloupci.
Střední a Směrodatná odchylka pro každou skupinu hodnot v prvním sloupci.

Modul výstupuje jak datovou sadu, tak s skóre a funkcí, kterou můžete uložit a použít na jiné datové sady.

Jak nakonfigurovat nahrazení diskrétních hodnot

Tip

Doporučujeme pracovat současně pouze s jednou dvojicí sloupců. Modul nevyvolá chybu, pokud vyberete více sloupců k analýze. Pokud však vyberete více sloupců, v praxi budou odpovídat interní heuristikě, nikoli podle pořadí výběru.

Proto doporučujeme vybrat jednu dvojici sloupců pokaždé, jednu pro samostatné sloupce a jednu pro náhradní sloupce.

Pokud potřebujete vygenerovat skóre pro více sloupců, použijte samostatné instance nahradit diskrétní hodnoty.

Přidejte modul nahrazení diskrétních hodnot do experimentu. tento modul najdete ve skupině statistické funkce v seznamu položky experimentu v Machine Learning studiu (classic).
Připojení datovou sadu obsahující alespoň jeden sloupec dat kategorií.
Diskrétní sloupce: klikněte na Spustit selektor sloupců a vyberte sloupec, který obsahuje diskrétní hodnoty (nebo kategorií).

Všechny samostatné sloupce, které vyberete, musí být kategorií. Pokud se zobrazí chyba, změňte typ sloupce pomocí modulu Upravit metadata .
Nahrazující sloupce: kliknutím na Spustit selektor sloupců vyberte sloupec, který obsahuje hodnoty, které se mají použít při výpočtu nahrazujícího skóre.

Pokud pro samostatné sloupcevyberete více sloupců, je nutné zvolit stejný počet náhradních sloupců.
Spusťte experiment.

Poznámka

Nemůžete zvolit, která Statistická funkce se má použít. Modul vypočítá odpovídající míru na základě datového typu sloupce vybraného pro sloupec pro nahrazení.

Výsledky

Modul vypočítá jednu z následujících hodnot pro každou dvojici sloupců:

Pokud druhý sloupec obsahuje hodnoty kategorií, modul vypočítá podmíněnou pravděpodobnost druhého sloupce s ohledem na hodnoty v prvním sloupci.

Předpokládejme například, že jste zvolili occupation z této datové sady jako samostatný sloupec a zvolíte možnost gender jako sloupec pro nahrazení. Výstupem modulu by byl:

P(gender | occupation)
Pokud druhý sloupec obsahuje hodnoty, které mohou být převedeny na čísla (například číselné nebo logické hodnoty, které nejsou označeny jako kategorií), modul vypíše průměrnou a směrodatnou odchylku pro každou skupinu hodnot v prvním sloupci.

Předpokládejme například, že použijete occupation jako samostatný sloupec a druhý sloupec je číselného sloupce hours-per-week . Modul by měl výstup těchto nových hodnot:

Mean(hours-per-week | occupation)

Std-Dev(hours-per-week | occupation)

Kromě skóre pravděpodobnosti modul také výstup transformovaná datová sada. V této datové sadě se sloupec vybraný jako náhradní sloupce nahradí sloupcem obsahujícím vypočtené skóre.

Tip

Sloupce ve zdrojové datové sadě se v rámci operace ve skutečnosti nemění ani neodstraňují. sloupce skóre jsou nové generované modulem a výstupem namísto zdrojových dat.

Chcete-li zobrazit zdrojové hodnoty společně s skóre pravděpodobnosti, použijte modul Přidat sloupce .

Příklady

Použití hodnoty nahradit diskrétní hodnoty může být znázorněno v některých jednoduchých příkladech.

Příklad 1 – nahrazení hodnoty kategorií pomocí skóre pravděpodobnosti

Následující tabulka obsahuje sloupec kategorií X a sloupec Y s hodnotami true nebo false, které jsou považovány za hodnoty kategorií. Použijete-li funkci nahradit diskrétní hodnoty, vypočítá skóre podmíněné pravděpodobnosti pro pravděpodobnost Y daného X, jak je znázorněno ve třetím sloupci.

×	Y	P (Y \| Znak
Blue	0	`P(Y=0\|X=Blue) = 0.5`
Blue	1	`P(Y=1\|X=Blue) = 0.5`
Green	0	`P(Y=0\|X=Green) = 2/3`
Green	0	`P(Y=0\|X=Green) = 2/3`
Green	1	`P(Y=1\|X=Green) = 1/3`
Red	0	`P(Y=0\|X=Red) = .75`
Red	0	`P(Y=0\|X=Red) = .75`
Red	1	`P(Y=1\|X=Red) = .25`
Red	0	`P(Y=0\|X=Red) = .75`

Příklad 2 – výpočet střední hodnoty a směrodatné odchylky na základě sloupce noncategorical

Když je druhý sloupec číselný, nahradí diskrétní hodnoty průměrnou a směrodatnou odchylku namísto skóre podmíněné pravděpodobnosti.

Následující příklad je založen na ukázkové datové sadě s automatickými cenami , zjednodušený postup:

Byla vybrána malá podmnožina sloupců.
Bylo extrahováno pouze prvních 30 řádků pomocí možnosti headoddílu a vzorového modulu.
Modul nahradit diskrétní hodnoty byl použit k výpočtu střední a směrodatné odchylky pro hmotnost obrubníku vozidla. byl zadán sloupec kategorií, num-of-doors .

Výsledky jsou znázorněné v následující tabulce:

Text	Počet dveří	Obrubník – váha	Střední (obrubník-Weight \| počet dvířek)	STD-dev (obrubník-Weight \| počet dvířek)
std	dva	2548	2429,785714	507.45699
std	Čtyři	2337	2625.6	493.409877
std	dva	2507	2429.785714	507.45699
Turbo	Čtyři	3086	2625.6 5	493.409877
std	Čtyři	1989	2625.6	493.409877
Turbo		2191
std	Čtyři	2535	2625.6	493.409877

Střední hodnotu pro každou skupinu hodnot můžete ověřit pomocí funkce AVERAGEIF v Excel.

Příklad 3 – Zpracování chybějících hodnot

Tento příklad ukazuje, jak se chybějící hodnoty (null) šíří do výsledků při výpočtu skóre podmíněné pravděpodobnosti.

Pokud sloupec diskrétní hodnoty a vyhledávací sloupec výpočtu obsahují nějaké chybějící hodnoty, chybějící hodnoty se rozšíří do nového sloupce.
Pokud sloupec diskrétní hodnoty obsahuje pouze chybějící hodnoty, modul nemůže sloupec zpracovat a zobrazí se chybová zpráva.

×	Y	P(Y\| X)
1	Ano	`P(Y=true\|X=1) = 1/2`
1	Ne	`P(Y=false\|X=1) = 1/2`
2	Ano	`P(Y=true\|X=2) = 1/3`
2	Ne	`P(Y=false\|X=2) = 1/3`
2	Null	`P(Y=null\|X=2) = null`

Technické poznámky

Musíte zajistit, aby všechny samostatné sloupce, které chcete nahradit, byly kategorické, jinak modul vrátí chybu. K tomu použijte modul Upravit metadata .
Pokud druhý sloupec obsahuje logické hodnoty, True-False se zpracují jako číselné hodnoty s hodnotou FALSE a true, která odpovídá hodnotám 0 a 1.
Vzorec pro sloupec směrodatné odchylky vypočítá směrodatnou odchylku základního souboru. Proto se ve jmenovateli používá N místo (N –1).
Pokud druhý sloupec obsahuje nekategorická data (číselné nebo logické hodnoty), modul vypočítá střední hodnotu a směrodatnou odchylku Y pro danou hodnotu X.

To znamená, že pro každý řádek v datové sadě indexované pomocí i:

Mean(Y│X)i = Mean(Y│X = Xi)

StdDev(Y│X)i = StdDev(Y│X = Xi)
Pokud druhý sloupec obsahuje kategorická data nebo hodnoty, které nejsou číselné ani logické, modul vypočítá podmíněnou pravděpodobnost Y pro danou hodnotu X.
Všechny logické hodnoty ve druhém sloupci se zpracovávají jako číselná data s hodnotou FALSE a hodnotou TRUE, která odpovídá hodnotám 0 a 1.
Pokud je v samostatném sloupci třída, která ve druhém sloupci obsahuje řádek s chybějící hodnotou, je součet podmíněných pravděpodobností v rámci třídy menší než jedna.

Očekávané vstupy

Název	Typ	Description
Datová sada	Tabulka dat	Vstupní datová sada

Parametry modulu

Name	Rozsah	Typ	Výchozí	Description
Diskrétní sloupce	Všechny	Výběr sloupce		Vybere sloupce, které obsahují diskrétní hodnoty.
Náhradní sloupce	Všechny	Výběr sloupce		Vybere sloupce obsahující data, která se mají použít místo diskrétních hodnot.

Výstupy

Název	Typ	Description
Doplňková datová sada	Tabulka dat	Datová sada s nahrazená data
Transformační funkce	ITransform – rozhraní	Definice transformační funkce, která se může použít u jiných datových sad

Výjimky

Výjimka	Description
Chyba 0001	K výjimce dochází v případě, že se nenašel jeden nebo více zadaných sloupců datové sady.
Chyba 0003	K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný.
Chyba 0020	K výjimce dochází v případě, že je počet sloupců v některých datových sadách předaný modulu příliš malý.
Chyba 0021	K výjimce dochází v případě, že je počet řádků v některých datových sadách předaný modulu příliš malý.
Chyba 0017	K výjimce dojde v případě, že jeden nebo více zadaných sloupců má typ, který není podporován aktuálním modulem.
Chyba 0026	K výjimce dojde, pokud sloupce se stejným názvem nejsou povoleny.
Chyba 0022	K výjimce dojde, pokud počet vybraných sloupců ve vstupní datové sadě se nerovná očekávanému počtu.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Statistické funkce

Sdílet prostřednictvím