Oříznutí hodnot
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
- Další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Rozpozná odlehlé hodnoty a klipy nebo nahradí jejich hodnoty.
Kategorie: Transformace dat / Škálování a redukce
Poznámka
Platí pro: Machine Learning Studio (classic)
Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.
Přehled modulu
Tento článek popisuje, jak pomocí modulu Oříznutí hodnot v Machine Learning Studiu (klasickém) identifikovat a volitelně nahradit datové hodnoty, které jsou nad nebo pod zadanou prahovou hodnotou. To je užitečné, když chcete odebrat odlehlé hodnoty nebo je nahradit střední hodnotou, konstantou nebo jinou substitute hodnotou.
Modul připojíte k datové sadě s čísly, která chcete oříznutí, zvolíte sloupce, se které chcete použít, a pak nastavíte prahovou hodnotu nebo rozsah hodnot a metodu nahrazení. Výstupem modulu mohou být buď pouze výsledky, nebo změněné hodnoty připojené k původní datové sadě.
Jak nakonfigurovat hodnoty klipů
Než začnete, identifikujte sloupce, které chcete oříznutí, a metodu, kterou chcete použít. Doporučujeme nejprve otestovat jakoukoli metodu oříznutí malé podmnožiny dat.
Modul použije stejná kritéria a metodu nahrazení pro všechny sloupce, které do výběru zahráte. Proto nezapomeňte vyloučit sloupce, které nechcete měnit.
Pokud u některých sloupců potřebujete použít metody oříznutí nebo jiná kritéria, musíte pro každou sadu podobných sloupců použít novou instanci oříznutí hodnot.
Přidejte do experimentu modul Oříznutí hodnot a připojte ho k datové sadě, kterou chcete upravit. Tento modul najdete v části Transformace dat vkategorii Škálování a redukce .
V seznamu sloupců pomocí selektoru sloupců vyberte sloupce, na které se použijí hodnoty oříznutí.
V části Sada prahových hodnot vyberte z rozevíracího seznamu jednu z následujících možností. Tyto možnosti určují, jak nastavit horní a dolní hranice pro přijatelné hodnoty vs. hodnoty, které musí být oříznuty.
KlipPeaks: Při oříznutí hodnot podle špízů zadáte pouze horní hranici. Hodnoty větší než tato hodnota hranice se nahradí nebo odstraní.
ClipSubpeaks: Při oříznutí hodnot podle dílčích špízů zadáte pouze dolní hranici. Hodnoty, které jsou menší než tato hodnota hranice, se nahradí nebo odstraní.
ClipPeaksAndSubpeaks: Při oříznutí hodnot podle špízů a dílčích špízů můžete zadat horní i dolní hranice. Hodnoty, které jsou mimo tento rozsah, se nahradí nebo odstraní. Hodnoty, které odpovídají hodnotám hranic, se nezmění.
V závislosti na výběru v předchozím kroku můžete nastavit následující prahové hodnoty:
- Nižší prahová hodnota: Zobrazuje se jenom v případě, že zvolíte ClipSubPeaks.
- Horní prahová hodnota: Zobrazuje se jenom v případě, že zvolíte ClipPeaks.
- Prahová hodnota: Zobrazuje se jenom v případě, že zvolíte ClipPeaksAndSubPeaks.
Pro každý typ prahové hodnoty zvolte konstantu nebopercentil.
Pokud vyberete Konstanta, zadejte do textového pole maximální nebo minimální hodnotu. Předpokládejme například, že víte, že se hodnota 999 použila jako zástupná hodnota. Jako horní prahovou hodnotu můžete zvolit Konstanta a do pole Konstantní hodnota horní prahové hodnoty zadejte 999.
Pokud zvolíte Percentil, omezíte hodnoty sloupců na rozsah percentilu.
Předpokládejme například, že chcete zachovat pouze hodnoty v rozsahu 10–80 percentilu a nahradit všechny ostatní. Zvolili byste Percentil a pak jako Hodnotu percentilu nižší prahové hodnoty zadejte 10 a jako Hodnotu percentilu horní prahové hodnoty zadejte 80.
Některé příklady použití rozsahů percentilů najdete v části percentilů.
Definujte náhradní hodnotu.
Čísla, která přesně odpovídají právě zadaným hranicím, se považují za čísla, která jsou v povoleném rozsahu hodnot, a proto se nenahrazují ani odebraly. Všechna čísla, která spadají mimo zadaný rozsah, se nahradí nahraďte hodnotou.
- Nahrazení hodnoty pro špičky: Definuje hodnotu, která má být nahrazena všemi hodnotami sloupců, které jsou větší než zadaná prahová hodnota.
- Nahrazení hodnoty pro dílčí weby: Definuje hodnotu, která se má použít jako náhrada všech hodnot sloupců, které jsou nižší než zadaná prahová hodnota.
- Pokud použijete možnost ClipPeaksAndSubpeaks , můžete zadat samostatné náhradní hodnoty pro horní a nižší oříznuté hodnoty.
Podporují se následující náhradní hodnoty:
Prahová hodnota: Nahradí oříznuté hodnoty zadanou prahovou hodnotou.
Střední hodnota: Nahradí oříznuté hodnoty střední hodnotou hodnot sloupců. Průměr se vypočítá před oříznutím hodnot.
Medián: Nahradí oříznuté hodnoty mediánem hodnot sloupců. Medián se vypočítá před oříznutím hodnot.
Chybí. Nahradí oříznuté hodnoty chybějící (prázdnou) hodnotou.
Přidat sloupce indikátorů: Tuto možnost vyberte, pokud chcete vygenerovat nový sloupec, který informuje, jestli se zadaná operace oříznutí použila na data v tomto řádku. Tato možnost je užitečná zejména při testování nové sady hodnot oříznutí a nahrazení.
Příznak přepsání: Určete, jak chcete vygenerovat nové hodnoty. Ve výchozím nastavení funkce Oříznutí hodnot vytvoří nový sloupec s hodnotami ve špičce oříznutou na požadovanou prahovou hodnotu. Nové hodnoty přepíší původní sloupec.
Pokud chcete zachovat původní sloupec a přidat nový sloupec s oříznutou hodnotou, zrušte výběr této možnosti.
Spusťte experiment.
Klikněte pravým tlačítkem na výstup modulu Oříznutí hodnot a výběrem vizualizovat zkontrolujte hodnoty a ujistěte se, že operace oříznutí splnila vaše očekávání.
Příklady
Informace o tom, jak se tento modul používá v experimentech strojového učení, najdete v Azure AI Gallery:
- Odlehlé hodnoty služby Forest Fire: Tento příklad z EdX couse v oblasti datových věd ukazuje metody oříznutí pomocí ukázkové datové sady Forest Fires.
Oříznutí pomocí percentilů
Abyste pochopili, jak funguje oříznutí percentilem, zvažte datovou sadu s 10 řádky, které mají jednu instanci pro každou z hodnot 1–10.
Pokud jako horní prahovou hodnotu používáte percentil, musí být při hodnotě 90. percentilu 90 procent všech hodnot v datové sadě menší než tato hodnota.
Pokud jako dolní prahovou hodnotu používáte percentil, musí být při hodnotě 10. percentilu 10 procent všech hodnot v datové sadě menší než tato hodnota.
V části Sada prahových hodnot zvolte ClipPeaksAndSubPeaks.
V části Horní prahová hodnota zvolte Percentil a jako Percentil zadejte 90.
Jako Horní nahradit hodnotu zvolte Chybějící hodnota.
V části Dolní prahová hodnota zvolte Percentil a jako Percentil zadejte 10.
V části Lower substitute value (Nižší hodnota nahrazení) zvolte Missing Value (Chybějící hodnota).
Zrušte výběr možnosti Přepsat příznak a vyberte možnost Přidat sloupec indikátoru.
Teď vyzkoušejte stejný experiment s použitím hodnoty 60 jako horní prahové hodnoty percentilu a 30 jako dolní prahové hodnoty percentilu a jako nahrazování použijte prahovou hodnotu. Následující tabulka porovnává tyto dva výsledky:
Nahraďte chybějícím. Horní prahová hodnota = 90; Nižší prahová hodnota = 10
Nahraďte prahovou hodnotou. Horní percentil = 60; Nižší percentil = 30
Původní data | Nahraďte chybějícím | Nahraďte prahovou hodnotou. |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE PRAVDA 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, PRAVDA 4, PRAVDA 4, PRAVDA 4, PRAVDA 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Technické poznámky
Hodnoty klipu lze použít pouze ve sloupcích obsahujících čísla nebo hodnoty data a času.
Pokud zahrnete sloupce s textovým nebo kategorií daty, sloupce se přeskočí.
Chybějící hodnoty jsou při výpočtu střední hodnoty nebo mediánu pro sloupec ignorovány.
Hodnoty klipů nepodporují ordinální data.
Chybějící hodnoty se nezmění při rozšiřování do výstupní datové sady. Sloupec, který označuje oříznuté hodnoty, vždy obsahuje hodnotu FALSE pro chybějící hodnoty.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Vstupní datová sada |
Parametry modulu
Name | Rozsah | Typ | Výchozí | Description |
---|---|---|---|---|
Přidat sloupce indikátorů | TRUE NEBO FALSE | Logická hodnota | FALSE | Zda má být přidán indikátor pro oříznutí hodnoty, je provedena |
Konstantní hodnota pro nižší prahovou hodnotu | Libovolný | Float | -1 | Hodnota, pod kterou se podvrcholy oříznou |
Konstantní hodnota pro horní prahovou hodnotu | Libovolný | Float | 1 | Hodnota, nad kterou budou oříznuty vrcholy |
Konstantní hodnota dolní prahové hodnoty | Libovolný | Float | -1 | Hodnota, pod kterou se podvrcholy oříznou |
Konstantní hodnota horní prahové hodnoty | >= 1 | Float | 1 | Hodnota, nad kterou se špičky oříznou |
Seznam sloupců | ColumnSelection | Seznam sloupců pro klip | ||
Nižší náhrada hodnoty | Prahová hodnota Mean Medián Nenašel |
SubstituteValues | Prahová hodnota | Hodnota použitá pro vystřižení podšpičky |
Nižší prahová hodnota | Konstanta Percentil |
Režim prahové hodnoty | Konstanta | Hodnota, pod kterou budou dílčí vrcholy oříznuté |
Příznak přepsání | TRUE NEBO FALSE | Logická hodnota | TRUE | Zda mají být sloupce s oříznutými daty přepsány sloupcem vstupních dat |
Číslo percentilu pro nižší prahovou hodnotu | [1; 99] | Integer | 1 | Percentil, pod kterým se podvrcholy oříznou |
Číslo percentilu pro horní prahovou hodnotu | [1; 99] | Integer | 99 | Percentil – číslo, nad kterým budou oříznuty špičky |
Percentil – počet nižší prahové hodnoty | [1; 99] | Integer | 1 | Percentil, pod kterým jsou vyčíslení podšpičky oříznuty |
Percentil – číslo horní prahové hodnoty | [1; 99] | Integer | 99 | Percentil – číslo, nad kterým jsou oříznuté špičky |
Sada prahových hodnot | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Sada mezních hodnot | ClipPeaks | Určuje typ prahové hodnoty, která se má použít. |
Náhrada hodnoty pro špičky | Prahová hodnota Mean Medián Nenašel |
SubstituteValues | Prahová hodnota | Hodnota použitá během špičky oříznutí |
Náhradní hodnota pro podšpičky | Prahová hodnota Mean Medián Nenašel |
SubstituteValues | Prahová hodnota | Hodnota použitá během Vystřižení podšpičky |
Prahová hodnota | Konstanta Percentil |
Režim prahové hodnoty | Konstanta | Hodnota nad a pod kterou se špičky oříznou režimem |
Horní náhrada hodnoty | Prahová hodnota Mean Medián Nenašel |
Prahová hodnota | Prahová hodnota | Hodnota, která se používá pro ořezové špičky |
Horní prahová hodnota | Konstanta Percentil |
Režim prahové hodnoty | Konstanta | Hodnota, nad kterou budou hodnoty v režimu oříznuté |
Výstupy
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Datová sada s oříznutými sloupci |
Výjimky
Výjimka | Description |
---|---|
Chyba 0011 | K výjimce dojde, pokud se předaný argument sady sloupců nevztahuje na žádný sloupec DataSet. |
Chyba 0017 | K výjimce dojde v případě, že jeden nebo více zadaných sloupců má nepodporovaný typ aktuálním modulem. |
seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.
seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.