Nahradit diskrétní hodnoty
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Nahradí diskrétní hodnoty z jednoho sloupce číselnými hodnotami založenými na jiném sloupci.
Kategorie: statistické funkce
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek popisuje, jak použít modul nahradit diskrétní hodnoty v Machine Learning studiu (classic) k vygenerování pravděpodobnostního skóre, které lze použít k reprezentaci diskrétní hodnoty. Toto skóre může být užitečné pro porozumění hodnotě informací diskrétních hodnot.
Jak to funguje:
Vyberte sloupec, který obsahuje diskrétní hodnotu (nebo kategorií), a potom vyberte jiný sloupec, který se má použít pro referenci.
V závislosti na tom, jestli je druhý sloupec kategorií nebo ne kategorií, modul vypočítá jednu z následujících hodnot:
- Podmíněná pravděpodobnost pro druhý sloupec podle hodnot v prvním sloupci.
- Střední a Směrodatná odchylka pro každou skupinu hodnot v prvním sloupci.
Modul výstupuje jak datovou sadu, tak s skóre a funkcí, kterou můžete uložit a použít na jiné datové sady.
Jak nakonfigurovat nahrazení diskrétních hodnot
Tip
Doporučujeme pracovat současně pouze s jednou dvojicí sloupců. Modul nevyvolá chybu, pokud vyberete více sloupců k analýze. Pokud však vyberete více sloupců, v praxi budou odpovídat interní heuristikě, nikoli podle pořadí výběru.
Proto doporučujeme vybrat jednu dvojici sloupců pokaždé, jednu pro samostatné sloupce a jednu pro náhradní sloupce.
Pokud potřebujete vygenerovat skóre pro více sloupců, použijte samostatné instance nahradit diskrétní hodnoty.
Přidejte modul nahrazení diskrétních hodnot do experimentu. tento modul najdete ve skupině statistické funkce v seznamu položky experimentu v Machine Learning studiu (classic).
Připojení datovou sadu obsahující alespoň jeden sloupec dat kategorií.
Diskrétní sloupce: klikněte na Spustit selektor sloupců a vyberte sloupec, který obsahuje diskrétní hodnoty (nebo kategorií).
Všechny samostatné sloupce, které vyberete, musí být kategorií. Pokud se zobrazí chyba, změňte typ sloupce pomocí modulu Upravit metadata .
Nahrazující sloupce: kliknutím na Spustit selektor sloupců vyberte sloupec, který obsahuje hodnoty, které se mají použít při výpočtu nahrazujícího skóre.
Pokud pro samostatné sloupcevyberete více sloupců, je nutné zvolit stejný počet náhradních sloupců.
Spusťte experiment.
Poznámka
Nemůžete zvolit, která Statistická funkce se má použít. Modul vypočítá odpovídající míru na základě datového typu sloupce vybraného pro sloupec pro nahrazení.
Výsledky
Modul vypočítá jednu z následujících hodnot pro každou dvojici sloupců:
Pokud druhý sloupec obsahuje hodnoty kategorií, modul vypočítá podmíněnou pravděpodobnost druhého sloupce s ohledem na hodnoty v prvním sloupci.
Předpokládejme například, že jste zvolili
occupation
z této datové sady jako samostatný sloupec a zvolíte možnostgender
jako sloupec pro nahrazení. Výstupem modulu by byl:P(gender | occupation)
Pokud druhý sloupec obsahuje hodnoty, které mohou být převedeny na čísla (například číselné nebo logické hodnoty, které nejsou označeny jako kategorií), modul vypíše průměrnou a směrodatnou odchylku pro každou skupinu hodnot v prvním sloupci.
Předpokládejme například, že použijete
occupation
jako samostatný sloupec a druhý sloupec je číselného sloupcehours-per-week
. Modul by měl výstup těchto nových hodnot:Mean(hours-per-week | occupation)
Std-Dev(hours-per-week | occupation)
Kromě skóre pravděpodobnosti modul také výstup transformovaná datová sada. V této datové sadě se sloupec vybraný jako náhradní sloupce nahradí sloupcem obsahujícím vypočtené skóre.
Tip
Sloupce ve zdrojové datové sadě se v rámci operace ve skutečnosti nemění ani neodstraňují. sloupce skóre jsou nové generované modulem a výstupem namísto zdrojových dat.
Chcete-li zobrazit zdrojové hodnoty společně s skóre pravděpodobnosti, použijte modul Přidat sloupce .
Příklady
Použití hodnoty nahradit diskrétní hodnoty může být znázorněno v některých jednoduchých příkladech.
Příklad 1 – nahrazení hodnoty kategorií pomocí skóre pravděpodobnosti
Následující tabulka obsahuje sloupec kategorií X a sloupec Y s hodnotami true nebo false, které jsou považovány za hodnoty kategorií. Použijete-li funkci nahradit diskrétní hodnoty, vypočítá skóre podmíněné pravděpodobnosti pro pravděpodobnost Y daného X, jak je znázorněno ve třetím sloupci.
× | Y | P (Y | Znak |
---|---|---|
Blue | 0 | P(Y=0|X=Blue) = 0.5 |
Blue | 1 | P(Y=1|X=Blue) = 0.5 |
Green | 0 | P(Y=0|X=Green) = 2/3 |
Green | 0 | P(Y=0|X=Green) = 2/3 |
Green | 1 | P(Y=1|X=Green) = 1/3 |
Red | 0 | P(Y=0|X=Red) = .75 |
Red | 0 | P(Y=0|X=Red) = .75 |
Red | 1 | P(Y=1|X=Red) = .25 |
Red | 0 | P(Y=0|X=Red) = .75 |
Příklad 2 – výpočet střední hodnoty a směrodatné odchylky na základě sloupce noncategorical
Když je druhý sloupec číselný, nahradí diskrétní hodnoty průměrnou a směrodatnou odchylku namísto skóre podmíněné pravděpodobnosti.
Následující příklad je založen na ukázkové datové sadě s automatickými cenami , zjednodušený postup:
Byla vybrána malá podmnožina sloupců.
Bylo extrahováno pouze prvních 30 řádků pomocí možnosti headoddílu a vzorového modulu.
Modul nahradit diskrétní hodnoty byl použit k výpočtu střední a směrodatné odchylky pro hmotnost obrubníku vozidla. byl zadán sloupec kategorií,
num-of-doors
.
Výsledky jsou znázorněné v následující tabulce:
Text | Počet dveří | Obrubník – váha | Střední (obrubník-Weight | počet dvířek) | STD-dev (obrubník-Weight | počet dvířek) |
---|---|---|---|---|
std | dva | 2548 | 2429,785714 | 507.45699 |
std | Čtyři | 2337 | 2625.6 | 493.409877 |
std | dva | 2507 | 2429.785714 | 507.45699 |
Turbo | Čtyři | 3086 | 2625.6 5 | 493.409877 |
std | Čtyři | 1989 | 2625.6 | 493.409877 |
Turbo | 2191 | |||
std | Čtyři | 2535 | 2625.6 | 493.409877 |
Střední hodnotu pro každou skupinu hodnot můžete ověřit pomocí funkce AVERAGEIF
v Excel.
Příklad 3 – Zpracování chybějících hodnot
Tento příklad ukazuje, jak se chybějící hodnoty (null) šíří do výsledků při výpočtu skóre podmíněné pravděpodobnosti.
Pokud sloupec diskrétní hodnoty a vyhledávací sloupec výpočtu obsahují nějaké chybějící hodnoty, chybějící hodnoty se rozšíří do nového sloupce.
Pokud sloupec diskrétní hodnoty obsahuje pouze chybějící hodnoty, modul nemůže sloupec zpracovat a zobrazí se chybová zpráva.
× | Y | P(Y| X) |
---|---|---|
1 | Ano | P(Y=true|X=1) = 1/2 |
1 | Ne | P(Y=false|X=1) = 1/2 |
2 | Ano | P(Y=true|X=2) = 1/3 |
2 | Ne | P(Y=false|X=2) = 1/3 |
2 | Null | P(Y=null|X=2) = null |
Technické poznámky
Musíte zajistit, aby všechny samostatné sloupce, které chcete nahradit, byly kategorické, jinak modul vrátí chybu. K tomu použijte modul Upravit metadata .
Pokud druhý sloupec obsahuje logické hodnoty, True-False se zpracují jako číselné hodnoty s hodnotou FALSE a true, která odpovídá hodnotám 0 a 1.
Vzorec pro sloupec směrodatné odchylky vypočítá směrodatnou odchylku základního souboru. Proto se ve jmenovateli používá N místo (N –1).
Pokud druhý sloupec obsahuje nekategorická data (číselné nebo logické hodnoty), modul vypočítá střední hodnotu a směrodatnou odchylku Y pro danou hodnotu X.
To znamená, že pro každý řádek v datové sadě indexované pomocí
i
:Mean(Y│X)i = Mean(Y│X = Xi)
StdDev(Y│X)i = StdDev(Y│X = Xi)
Pokud druhý sloupec obsahuje kategorická data nebo hodnoty, které nejsou číselné ani logické, modul vypočítá podmíněnou pravděpodobnost Y pro danou hodnotu X.
Všechny logické hodnoty ve druhém sloupci se zpracovávají jako číselná data s hodnotou FALSE a hodnotou TRUE, která odpovídá hodnotám 0 a 1.
Pokud je v samostatném sloupci třída, která ve druhém sloupci obsahuje řádek s chybějící hodnotou, je součet podmíněných pravděpodobností v rámci třídy menší než jedna.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Vstupní datová sada |
Parametry modulu
Name | Rozsah | Typ | Výchozí | Description |
---|---|---|---|---|
Diskrétní sloupce | Všechny | Výběr sloupce | Vybere sloupce, které obsahují diskrétní hodnoty. | |
Náhradní sloupce | Všechny | Výběr sloupce | Vybere sloupce obsahující data, která se mají použít místo diskrétních hodnot. |
Výstupy
Název | Typ | Description |
---|---|---|
Doplňková datová sada | Tabulka dat | Datová sada s nahrazená data |
Transformační funkce | ITransform – rozhraní | Definice transformační funkce, která se může použít u jiných datových sad |
Výjimky
Výjimka | Description |
---|---|
Chyba 0001 | K výjimce dochází v případě, že se nenašel jeden nebo více zadaných sloupců datové sady. |
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdný. |
Chyba 0020 | K výjimce dochází v případě, že je počet sloupců v některých datových sadách předaný modulu příliš malý. |
Chyba 0021 | K výjimce dochází v případě, že je počet řádků v některých datových sadách předaný modulu příliš malý. |
Chyba 0017 | K výjimce dojde v případě, že jeden nebo více zadaných sloupců má typ, který není podporován aktuálním modulem. |
Chyba 0026 | K výjimce dojde, pokud sloupce se stejným názvem nejsou povoleny. |
Chyba 0022 | K výjimce dojde, pokud počet vybraných sloupců ve vstupní datové sadě se nerovná očekávanému počtu. |
seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.
seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.