Rozhodovací les s více třídami
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Vytvoří model klasifikace s více třídami pomocí algoritmu doménové struktury pro rozhodování.
kategorie: Machine Learning/inicializovat Model/klasifikace
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek popisuje, jak použít modul více tříd pro rozhodovací doménovou strukturu v Machine Learning studiu (classic) k vytvoření modelu Machine Learning na základě algoritmu doménové struktury rozhodnutí . Rozhodovací doménová struktura je model kompletování, který velmi rychle sestaví sérii rozhodovacích stromů při učení od tagovaných dat.
Další informace o rozhodovacích doménových strukturách
Algoritmus doménové struktury pro rozhodování je metoda učení kompletu pro klasifikaci. Algoritmus funguje tak, že sestaví více rozhodovacích stromů a pak bude hlasovat na nejoblíbenější výstupní třídě. Hlasovací je forma agregace, ve které každý strom v doménové struktuře rozhodnutí klasifikace výstupuje nenormalizovaný frekvenční histogram popisků. Agregační proces sečte Tyto histogramy a normalizuje výsledek pro získání "pravděpodobnosti" pro každý popisek. V konečném rozhodnutí kompletu mají stromy, které mají důvěru vysoké předpovědi větší váhu.
Obecné rozhodovací stromy jsou modely bez ukazatelů, což znamená, že podporují data s proměnlivými distribucí. V každém stromu je spuštěná sekvence jednoduchých testů pro každou třídu, která zvyšuje úrovně stromové struktury až do dosažení koncového uzlu (rozhodnutí).
Stromy rozhodování mají mnoho výhod:
- Můžou představovat hranice nelineárního rozhodování.
- Jsou efektivní při výpočtech a využití paměti během školení a předpovědi.
- Provádějí integrovaný výběr a klasifikaci funkcí.
- Jsou odolné proti přítomnosti funkcí s vysokou dostupností.
třídění rozhodovacích domén v Machine Learning studiu (classic) se skládá ze kompletu rozhodovacích stromů. Obecně platí, že modely kompletování poskytují lepší pokrytí a přesnost než jednotlivé rozhodovací stromy. Další informace najdete v tématu rozhodovací stromy.
Jak konfigurovat doménovou strukturu s více třídami
Tip
Pokud si nejste jistí nejlepších parametrů, doporučujeme, abyste použili modul předparametrů pro ladění modelu pro výuku a testování více modelů a našli optimální parametry.
Přidejte modul více tříd pro rozhodovací doménovou strukturu do experimentu v studiu (Classic). tento modul najdete v části Machine Learning, inicializace modelua klasifikace.
Dvojitým kliknutím na modul otevřete podokno vlastnosti .
V případě metody převzorkovánívyberte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z zavazadla nebo replikace.
Zaznamenání do zavazadlase také označuje jako agregace Bootstrap. V této metodě se každý strom vypěstuje na novém vzorku, který vytvořil náhodným vzorkováním původní datové sady s náhradou, dokud nebudete mít datovou velikost původní. Výstupy modelů jsou kombinovány hlasováním, což je forma agregace. Další informace najdete v tématu Wikipedii pro agregaci Bootstrap.
Replikace: vrámci replikace je každý strom vyškolen na přesně stejných vstupních datech. Určení, které dělicí predikát se používá pro každý uzel stromu, zůstane náhodné a vytvoří různé stromy.
Pokyny najdete v části Postup konfigurace modelu doménové struktury s více třídami .
Určete, jak chcete model vyškolet nastavením možnosti vytvořit Trainer režim .
Jeden parametr: tuto možnost vyberte, pokud víte, jak chcete model konfigurovat, a jako argumenty zadejte sadu hodnot.
Rozsah parametrů: tuto možnost použijte, pokud si nejste jisti nejlepšími parametry a chcete použít Sweep parametrů.
Počet rozhodovacích stromů: zadejte maximální počet rozhodovacích stromů, které lze v kompletu vytvořit. Vytvořením dalších rozhodovacích stromů můžete získat lepší pokrytí, ale čas školení se může zvýšit.
Tato hodnota také určuje počet stromů zobrazených ve výsledcích při vizualizaci vyučeného modelu. Chcete-li zobrazit nebo vytisknout jeden strom, můžete nastavit hodnotu na 1. to však znamená, že lze vytvořit pouze jeden strom (strom s počáteční sadou parametrů) a nejsou provedeny žádné další iterace.
Maximální hloubka rozhodovacích stromů: zadejte číslo pro omezení maximální hloubky jakéhokoli rozhodovacího stromu. Zvýšení hloubky stromové struktury může zvýšit přesnost, a to na riziko nějakého přeložení a zvýšené doby školení.
Počet náhodných rozdělení na uzel: zadejte počet rozdělení, který se použije při sestavování jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně děleny.
Minimální počet vzorků na uzel na list: Určuje minimální počet případů, které jsou nutné k vytvoření libovolného uzlu terminálu (list) ve stromu. Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel.
Například výchozí hodnota 1, dokonce i jeden případ, může způsobit vytvoření nového pravidla. Pokud zvýšíte hodnotu na 5, musí školicí data obsahovat alespoň 5 případů, které splňují stejné podmínky.
Povolení neznámých hodnot pro funkce kategorií: tuto možnost vyberte, pokud chcete vytvořit skupinu pro neznámé hodnoty v rámci školicích nebo ověřovacích sad. Model může být pro známé hodnoty méně přesný, ale může poskytovat lepší předpovědi pro nové (neznámé) hodnoty.
Pokud zrušíte výběr této možnosti, může model přijímat pouze hodnoty, které jsou k dispozici ve školicích datech.
Připojení označený datset a jeden z školicích modulů:
Pokud nastavíte režim vytvořit Trainer na jeden parametr, použijte modul vlakového modelu .
Pokud nastavíte možnost vytvořit režim Trainer na rozsah parametrů, použijte modul ladit model s parametry . Pomocí této možnosti může Trainer iterovat více kombinací nastavení a určit hodnoty parametrů, které vydávají nejlepší model.
Poznámka
Pokud předáte rozsah parametru pro vlakový model, použije se pouze první hodnota v seznamu rozsah parametrů.
Pokud předáte jednu sadu hodnot parametrů do modulu předparametrů modelu ladění , když očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro učit se.
Pokud vyberete možnost rozsahu parametrů a zadáte jednu hodnotu pro libovolný parametr, tato jediná hodnota, kterou jste zadali, se použije v celém oblouku, a to i v případě, že se jiné parametry mění v rozsahu hodnot.
Spusťte experiment.
Výsledky
Po dokončení školení:
- Pokud chcete zobrazit strom, který byl vytvořen při každé iteraci, klikněte pravým tlačítkem na modul výuka modelů a vyberte trained model , který chcete vizualizovat. Pokud používáte parametry modelu ladění, klikněte pravým tlačítkem na modul a vyberte vyškolený nejlepší model , abyste mohli vizualizovat nejlepší model. Chcete-li zobrazit pravidla pro každý uzel, klikněte na jednotlivé stromové struktury a přejděte k podrobnostem o rozdělení.
Příklady
Příklady toho, jak se ve službě Machine Learning používají doménové struktury, najdete v Azure AI Gallery:
- Porovnání vzorků s více třídami: používá několik algoritmů a popisuje jejich odborníky a nevýhody.
Technické poznámky
Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.
Podrobnosti o implementaci
Každý strom v doménové struktuře rozhodnutí o klasifikaci má výstup nenormalizovaného histogramu popisků. Agregaci je sečíst Tyto histogramy a normalizovat a získat tak "pravděpodobnost" pro každý popisek. Tímto způsobem mají v konečném rozhodnutí kompletu více stromů, jejichž důvěra v vysoké předpovědi má vyšší váhu.
Související výzkum
Další informace o procesu školení s možností replikace najdete v těchto tématech:
Jak nakonfigurovat model doménové struktury s více třídami
Způsob, jakým je modul nakonfigurovaný, můžete změnit tak, aby vyhovoval scénářům, jako je příliš málo dat, nebo omezený čas pro školení.
Omezená doba školení
Pokud školicí sada obsahuje velký počet instancí, ale čas, který je k dispozici pro školení modelu, je omezený, zkuste použít tyto možnosti:
- Vytvořte rozhodovací doménovou strukturu, která používá menší počet rozhodovacích stromů (například 5-10).
- Pro převzorkování použijte možnost replikace .
- Zadejte menší počet náhodných rozdělení na uzel (například menší než 100).
Sada omezeného školení
Pokud školicí sada obsahuje omezený počet instancí, zkuste použít tyto možnosti:
- Vytvořte rozhodovací doménovou strukturu, která používá velký počet rozhodovacích stromů (například více než 20).
- Pro převzorkování použijte možnost Zazavazadlí .
- Zadejte velký počet náhodných rozdělení na jeden uzel (například více než 1 000).
Parametry modulu
Name | Rozsah | Typ | Výchozí | Description |
---|---|---|---|---|
Metoda převzorkování | Všechny | ResamplingMethod | Zazavazadlí | Zvolit metodu převzorkování: Zazavazadlí nebo replikace |
Počet rozhodovacích stromů | >= 1 | Integer | 8 | Zadejte počet rozhodovacích stromů, které se mají v kompletu vytvořit. |
Maximální hloubka rozhodovacích stromů | >= 1 | Integer | 32 | Zadejte maximální hloubku rozhodovacího stromu, který se dá vytvořit. |
Počet náhodných rozdělení na uzel | >= 1 | Integer | 128 | Zadejte počet rozdělení generovaných na uzel, ze kterých je vybráno optimální rozdělení. |
Minimální počet vzorků na uzel na list | >= 1 | Integer | 1 | Zadejte minimální počet školicích vzorků vyžadovaných k vygenerování uzlu na úrovni listu. |
Povolení neznámých hodnot pro funkce kategorií | Všechny | Logická hodnota | Ano | Určuje, jestli je možné namapovat neznámé hodnoty existujících funkcí kategorií na novou, další funkci. |
Výstupy
Název | Typ | Description |
---|---|---|
Nevlakový model | Rozhraní ILearner | Nevlakový model klasifikace s více třídami |
Viz také
Classification
Rozhodovací les se dvěma třídami
Regrese rozhodovacího lesa
Seznam modulů a-Z