Regrese rozhodovacího lesa
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Vytvoří regresní model pomocí algoritmu rozhodovací doménové struktury.
Kategorie: inicializovat model – regrese
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek popisuje, jak pomocí modulu pro regresi rozhodovací doménové struktury v Machine Learning studiu (classic) vytvořit regresní model založený na kompletu rozhodovacích stromů.
Po nakonfigurování modelu je nutné proškolit model pomocí popisku DataSet a modulu vlakového modelu . K vytvoření předpovědi se pak dá použít trained model. Alternativně je možné nevýukový model předat modelu křížové validaci pro křížové ověřování u označených datových sad.
Jak rozhodovací doménové struktury fungují v regresních úlohách
Rozhodovací stromy jsou modely nevyužívající parametry, které provádějí sekvenci jednoduchých testů pro každou instanci a přecházejí do binární struktury dat stromu, dokud není dosaženo uzel na úrovni listu (rozhodnutí).
Stromy pro rozhodování mají tyto výhody:
Jsou efektivní v výpočetních i využití paměti během školení a předpovědi.
Můžou představovat hranice nelineárního rozhodování.
Provádějí integrovaný výběr a klasifikaci funkcí a jsou odolné proti přítomnosti funkcí s vysokou dostupností.
Tento regresní model se skládá ze kompletu rozhodovacích stromů. U každého stromu v doménové struktuře regrese se jako předpověď vytvoří Gaussovské distribuce. Agregace se provádí přes kompletování stromů, aby bylo možné najít Gaussovské rozdělení, které je nejblíže kombinované distribuci pro všechny stromy v modelu.
další informace o teoretickém rozhraní tohoto algoritmu a jeho implementaci najdete v tomto článku: doménové struktury rozhodnutí: sjednocený rámec pro klasifikaci, regresi, odhad hustoty, Učeníů a Semi-Supervised Učení
Jak nakonfigurovat regresní model doménové struktury
Přidejte do experimentu modul regrese pro rozhodovací doménovou strukturu . modul můžete najít v studiu (classic) v části Machine Learning, inicializovat Modela regresi.
Otevřete vlastnosti modulu a pro metodu převzorkovánívyberte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z zavazadla nebo replikace.
Zaznamenání do zavazadlase také označuje jako agregace Bootstrap. Každý strom v doménové struktuře regrese má za následek Gaussovské rozdělení způsobem předpovědi. Agregaci je najít Gaussovské, jehož první dvě momenty se shodují se momentem kombinace Gaussovské, která je dána kombinací všech Gaussovskéů vrácených jednotlivými stromy.
Další informace najdete v tématu Wikipedii pro agregaci Bootstrap.
Replikace: vrámci replikace je každý strom vyškolen na přesně stejných vstupních datech. Určení, které dělicí predikát se používá pro každý uzel stromu, zůstane náhodné a stromy budou odlišné.
další informace o procesu školení s možností replikace najdete v tématu rozhodovací doménové struktury pro Počítačové zpracování obrazu a analýzu lékařských imagí. Criminisi a J. Shotton. Springer 2013...
Určete, jak chcete model vyškolet nastavením možnosti vytvořit Trainer režim .
Jeden parametr
Pokud víte, jak chcete model konfigurovat, můžete zadat konkrétní sadu hodnot jako argumenty. Tyto hodnoty jste pravděpodobně dozvěděli experimentováním nebo je přijali jako doprovodné materiály.
Rozsah parametrů
Pokud si nejste jisti, jaké jsou nejlepší parametry, můžete najít optimální parametry zadáním více hodnot a pomocí Sweep parametrů najít optimální konfiguraci.
Laditelné parametry modelu vychází ze všech možných kombinací nastavení, které jste zadali, a určují kombinaci nastavení, která vytváří optimální výsledky.
Pro počet rozhodovacích stromůurčete celkový počet rozhodovacích stromů, které se mají v kompletu vytvořit. Vytvořením dalších rozhodovacích stromů můžete získat lepší pokrytí, ale čas školení se zvýší.
Tip
Tato hodnota také určuje počet stromů zobrazených při vizualizaci výukového modelu. Pokud chcete zobrazit nebo vytisknout jeden strom, můžete hodnotu nastavit na 1. to však znamená, že bude vytvořen pouze jeden strom (strom s počáteční sadou parametrů) a žádné další iterace nebudou provedeny.
Pro maximální hloubku rozhodovacích stromůzadejte číslo, abyste omezili maximální hloubku rozhodovacího stromu. Zvýšení hloubky stromové struktury může zvýšit přesnost, a to na riziko nějakého přeložení a zvýšené doby školení.
Pro počet náhodných rozdělení na uzelzadejte počet rozdělení, který se má použít při sestavování jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně děleny.
Pro minimální počet vzorků na uzel listuUrčete minimální počet případů, které jsou nutné k vytvoření libovolného uzlu terminálu (list) ve stromu.
Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například výchozí hodnota 1, dokonce i jeden případ, může způsobit vytvoření nového pravidla. Pokud zvýšíte hodnotu na 5, musí školicí data obsahovat alespoň 5 případů, které splňují stejné podmínky.
Vyberte možnost Povolení neznámých hodnot pro funkce kategorií a vytvořte skupinu pro neznámé hodnoty v rámci školicích nebo ověřovacích sad.
Pokud ho zrušíte, model může přijmout jenom hodnoty, které jsou obsažené v školicích datech. V bývalém případě může být model pro známé hodnoty méně přesný, ale může poskytovat lepší předpovědi pro nové (neznámé) hodnoty.
Připojení datovou sadu s popiskem, vyberte sloupec s jedním popiskem, který neobsahuje více než dva výsledky, a propojte buď model výuky , nebo parametry modelu ladění.
Pokud nastavíte možnost vytvořit režim Trainer na jeden parametr, provedete model pomocí modulu výuka modelu .
Pokud nastavíte možnost vytvořit režim Trainer na rozsah parametrů, provedete tento model pomocí předparametrů ladění modelu.
Spusťte experiment.
Výsledky
Po dokončení školení:
Chcete-li zobrazit strom, který byl vytvořen při každé iteraci, klikněte pravým tlačítkem myši na výstup školicího modulu a vyberte vizualizovat.
Chcete-li zobrazit pravidla pro každý uzel, klikněte na jednotlivé stromové struktury a přejděte k podrobnostem o rozdělení.
Pokud chcete uložit snímek výukového modelu, klikněte pravým tlačítkem na výstup školicího modulu a vyberte Uložit jako trained model. Tato kopie modelu není aktualizována při následných spuštění experimentu.
Příklady
příklady regresních modelů najdete v těchto ukázkových experimentech v Cortana Intelligence Gallery:
Porovnání ukázkových modelů regrese: kontrastí několik různých druhů regresních modelů.
Ukázka analýzy mínění: používá několik různých regresních modelů ke generování předpokládaných hodnocení.
Technické poznámky
Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.
Pokud předáte rozsah parametru pro vlakový model, použije se v seznamu rozsah parametrů jenom první hodnota.
Pokud předáte jednu sadu hodnot parametrů do modulu předparametrů modelu ladění , když očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro učit se.
Pokud vyberete možnost rozsahu parametrů a zadáte jednu hodnotu pro libovolný parametr, bude se tato jediná hodnota, kterou jste zadali, používat v celém období, a to i v případě, že se jiné parametry mění v rozsahu hodnot.
Tipy k použití
Pokud máte omezená data nebo chcete minimalizovat čas strávený školením modelu, zkuste toto nastavení:
Sada omezeného školení. Pokud školicí sada obsahuje omezený počet instancí:
Vytvořte rozhodovací doménovou strukturu pomocí velkého počtu rozhodovacích stromů (například více než 20).
Použití možnosti zavazadla pro převzorkování
Zadejte velký počet náhodných rozdělení na jeden uzel (například více než 1000).
Omezená doba školení. Pokud školicí sada obsahuje velký počet instancí a doba školení je omezená:
Vytvořte rozhodovací doménovou strukturu pomocí méně rozhodovacích stromů (například 5-10).
Pro převzorkování použijte možnost replikace
Zadejte malý počet náhodných rozdělení na uzel (například menší než 100).
Parametry modulu
Name | Rozsah | Typ | Výchozí | Description |
---|---|---|---|---|
Metoda převzorkování | Libovolný | ResamplingMethod | Zazavazadlí | Zvolit metodu převzorkování |
Počet rozhodovacích stromů | >= 1 | Integer | 8 | Zadejte počet rozhodovacích stromů, které se mají v kompletu vytvořit. |
Maximální hloubka rozhodovacích stromů | >= 1 | Integer | 32 | Zadejte maximální hloubku rozhodovacího stromu, který se dá vytvořit v kompletu. |
Počet náhodných rozdělení na uzel | >= 1 | Integer | 128 | Zadejte počet rozdělení generovaných na uzel, ze kterých je vybráno optimální rozdělení. |
Minimální počet vzorků na uzel na list | >= 1 | Integer | 1 | Zadejte minimální počet školicích vzorků vyžadovaných k vygenerování uzlu na úrovni listu. |
Povolení neznámých hodnot pro funkce kategorií | Libovolný | Logická hodnota | true | Určuje, jestli je možné namapovat neznámé hodnoty existujících funkcí kategorií na novou, další funkci. |
Výstupy
Název | Typ | Description |
---|---|---|
Nevlakový model | Rozhraní ILearner | Nevýukový model regrese |