Sdílet prostřednictvím


Rozhodovací les s více třídami

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vytvoří model klasifikace s více třídami pomocí algoritmu doménové struktury pro rozhodování.

kategorie: Machine Learning/inicializovat Model/klasifikace

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul více tříd pro rozhodovací doménovou strukturu v Machine Learning studiu (classic) k vytvoření modelu Machine Learning na základě algoritmu doménové struktury rozhodnutí . Rozhodovací doménová struktura je model kompletování, který velmi rychle sestaví sérii rozhodovacích stromů při učení od tagovaných dat.

Další informace o rozhodovacích doménových strukturách

Algoritmus doménové struktury pro rozhodování je metoda učení kompletu pro klasifikaci. Algoritmus funguje tak, že sestaví více rozhodovacích stromů a pak bude hlasovat na nejoblíbenější výstupní třídě. Hlasovací je forma agregace, ve které každý strom v doménové struktuře rozhodnutí klasifikace výstupuje nenormalizovaný frekvenční histogram popisků. Agregační proces sečte Tyto histogramy a normalizuje výsledek pro získání "pravděpodobnosti" pro každý popisek. V konečném rozhodnutí kompletu mají stromy, které mají důvěru vysoké předpovědi větší váhu.

Obecné rozhodovací stromy jsou modely bez ukazatelů, což znamená, že podporují data s proměnlivými distribucí. V každém stromu je spuštěná sekvence jednoduchých testů pro každou třídu, která zvyšuje úrovně stromové struktury až do dosažení koncového uzlu (rozhodnutí).

Stromy rozhodování mají mnoho výhod:

  • Můžou představovat hranice nelineárního rozhodování.
  • Jsou efektivní při výpočtech a využití paměti během školení a předpovědi.
  • Provádějí integrovaný výběr a klasifikaci funkcí.
  • Jsou odolné proti přítomnosti funkcí s vysokou dostupností.

třídění rozhodovacích domén v Machine Learning studiu (classic) se skládá ze kompletu rozhodovacích stromů. Obecně platí, že modely kompletování poskytují lepší pokrytí a přesnost než jednotlivé rozhodovací stromy. Další informace najdete v tématu rozhodovací stromy.

Jak konfigurovat doménovou strukturu s více třídami

Tip

Pokud si nejste jistí nejlepších parametrů, doporučujeme, abyste použili modul předparametrů pro ladění modelu pro výuku a testování více modelů a našli optimální parametry.

  1. Přidejte modul více tříd pro rozhodovací doménovou strukturu do experimentu v studiu (Classic). tento modul najdete v části Machine Learning, inicializace modelua klasifikace.

  2. Dvojitým kliknutím na modul otevřete podokno vlastnosti .

  3. V případě metody převzorkovánívyberte metodu použitou k vytvoření jednotlivých stromů. Můžete si vybrat z zavazadla nebo replikace.

    • Zaznamenání do zavazadlase také označuje jako agregace Bootstrap. V této metodě se každý strom vypěstuje na novém vzorku, který vytvořil náhodným vzorkováním původní datové sady s náhradou, dokud nebudete mít datovou velikost původní. Výstupy modelů jsou kombinovány hlasováním, což je forma agregace. Další informace najdete v tématu Wikipedii pro agregaci Bootstrap.

    • Replikace: vrámci replikace je každý strom vyškolen na přesně stejných vstupních datech. Určení, které dělicí predikát se používá pro každý uzel stromu, zůstane náhodné a vytvoří různé stromy.

    Pokyny najdete v části Postup konfigurace modelu doménové struktury s více třídami .

  4. Určete, jak chcete model vyškolet nastavením možnosti vytvořit Trainer režim .

    • Jeden parametr: tuto možnost vyberte, pokud víte, jak chcete model konfigurovat, a jako argumenty zadejte sadu hodnot.

    • Rozsah parametrů: tuto možnost použijte, pokud si nejste jisti nejlepšími parametry a chcete použít Sweep parametrů.

  5. Počet rozhodovacích stromů: zadejte maximální počet rozhodovacích stromů, které lze v kompletu vytvořit. Vytvořením dalších rozhodovacích stromů můžete získat lepší pokrytí, ale čas školení se může zvýšit.

    Tato hodnota také určuje počet stromů zobrazených ve výsledcích při vizualizaci vyučeného modelu. Chcete-li zobrazit nebo vytisknout jeden strom, můžete nastavit hodnotu na 1. to však znamená, že lze vytvořit pouze jeden strom (strom s počáteční sadou parametrů) a nejsou provedeny žádné další iterace.

  6. Maximální hloubka rozhodovacích stromů: zadejte číslo pro omezení maximální hloubky jakéhokoli rozhodovacího stromu. Zvýšení hloubky stromové struktury může zvýšit přesnost, a to na riziko nějakého přeložení a zvýšené doby školení.

  7. Počet náhodných rozdělení na uzel: zadejte počet rozdělení, který se použije při sestavování jednotlivých uzlů stromu. Rozdělení znamená, že funkce v každé úrovni stromu (uzlu) jsou náhodně děleny.

  8. Minimální počet vzorků na uzel na list: Určuje minimální počet případů, které jsou nutné k vytvoření libovolného uzlu terminálu (list) ve stromu. Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel.

    Například výchozí hodnota 1, dokonce i jeden případ, může způsobit vytvoření nového pravidla. Pokud zvýšíte hodnotu na 5, musí školicí data obsahovat alespoň 5 případů, které splňují stejné podmínky.

  9. Povolení neznámých hodnot pro funkce kategorií: tuto možnost vyberte, pokud chcete vytvořit skupinu pro neznámé hodnoty v rámci školicích nebo ověřovacích sad. Model může být pro známé hodnoty méně přesný, ale může poskytovat lepší předpovědi pro nové (neznámé) hodnoty.

    Pokud zrušíte výběr této možnosti, může model přijímat pouze hodnoty, které jsou k dispozici ve školicích datech.

  10. Připojení označený datset a jeden z školicích modulů:

    • Pokud nastavíte režim vytvořit Trainer na jeden parametr, použijte modul vlakového modelu .

    • Pokud nastavíte možnost vytvořit režim Trainer na rozsah parametrů, použijte modul ladit model s parametry . Pomocí této možnosti může Trainer iterovat více kombinací nastavení a určit hodnoty parametrů, které vydávají nejlepší model.

    Poznámka

    Pokud předáte rozsah parametru pro vlakový model, použije se pouze první hodnota v seznamu rozsah parametrů.

    Pokud předáte jednu sadu hodnot parametrů do modulu předparametrů modelu ladění , když očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro učit se.

    Pokud vyberete možnost rozsahu parametrů a zadáte jednu hodnotu pro libovolný parametr, tato jediná hodnota, kterou jste zadali, se použije v celém oblouku, a to i v případě, že se jiné parametry mění v rozsahu hodnot.

  11. Spusťte experiment.

Výsledky

Po dokončení školení:

  • Pokud chcete zobrazit strom, který byl vytvořen při každé iteraci, klikněte pravým tlačítkem na modul výuka modelů a vyberte trained model , který chcete vizualizovat. Pokud používáte parametry modelu ladění, klikněte pravým tlačítkem na modul a vyberte vyškolený nejlepší model , abyste mohli vizualizovat nejlepší model. Chcete-li zobrazit pravidla pro každý uzel, klikněte na jednotlivé stromové struktury a přejděte k podrobnostem o rozdělení.

Příklady

Příklady toho, jak se ve službě Machine Learning používají doménové struktury, najdete v Azure AI Gallery:

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Podrobnosti o implementaci

Každý strom v doménové struktuře rozhodnutí o klasifikaci má výstup nenormalizovaného histogramu popisků. Agregaci je sečíst Tyto histogramy a normalizovat a získat tak "pravděpodobnost" pro každý popisek. Tímto způsobem mají v konečném rozhodnutí kompletu více stromů, jejichž důvěra v vysoké předpovědi má vyšší váhu.

Další informace o procesu školení s možností replikace najdete v těchto tématech:

Jak nakonfigurovat model doménové struktury s více třídami

Způsob, jakým je modul nakonfigurovaný, můžete změnit tak, aby vyhovoval scénářům, jako je příliš málo dat, nebo omezený čas pro školení.

Omezená doba školení

Pokud školicí sada obsahuje velký počet instancí, ale čas, který je k dispozici pro školení modelu, je omezený, zkuste použít tyto možnosti:

  • Vytvořte rozhodovací doménovou strukturu, která používá menší počet rozhodovacích stromů (například 5-10).
  • Pro převzorkování použijte možnost replikace .
  • Zadejte menší počet náhodných rozdělení na uzel (například menší než 100).

Sada omezeného školení

Pokud školicí sada obsahuje omezený počet instancí, zkuste použít tyto možnosti:

  • Vytvořte rozhodovací doménovou strukturu, která používá velký počet rozhodovacích stromů (například více než 20).
  • Pro převzorkování použijte možnost Zazavazadlí .
  • Zadejte velký počet náhodných rozdělení na jeden uzel (například více než 1 000).

Parametry modulu

Name Rozsah Typ Výchozí Description
Metoda převzorkování Všechny ResamplingMethod Zazavazadlí Zvolit metodu převzorkování: Zazavazadlí nebo replikace
Počet rozhodovacích stromů >= 1 Integer 8 Zadejte počet rozhodovacích stromů, které se mají v kompletu vytvořit.
Maximální hloubka rozhodovacích stromů >= 1 Integer 32 Zadejte maximální hloubku rozhodovacího stromu, který se dá vytvořit.
Počet náhodných rozdělení na uzel >= 1 Integer 128 Zadejte počet rozdělení generovaných na uzel, ze kterých je vybráno optimální rozdělení.
Minimální počet vzorků na uzel na list >= 1 Integer 1 Zadejte minimální počet školicích vzorků vyžadovaných k vygenerování uzlu na úrovni listu.
Povolení neznámých hodnot pro funkce kategorií Všechny Logická hodnota Ano Určuje, jestli je možné namapovat neznámé hodnoty existujících funkcí kategorií na novou, další funkci.

Výstupy

Název Typ Description
Nevlakový model Rozhraní ILearner Nevlakový model klasifikace s více třídami

Viz také

Classification
Rozhodovací les se dvěma třídami
Regrese rozhodovacího lesa
Seznam modulů a-Z