Komponenta rozhodovacího stromu se dvěma třídami
Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.
Tato komponenta slouží k vytvoření modelu strojového učení založeného na algoritmu posílených rozhodovacích stromů.
Posílený rozhodovací strom je metoda učení souboru, ve které druhý strom opravuje chyby prvního stromu, třetí strom opravuje chyby prvního a druhého stromu atd. Předpovědi jsou založeny na celé skupině stromů, která vytváří předpověď.
Obecně platí, že pokud jsou správně nakonfigurované, jsou posílené rozhodovací stromy nejjednoduššími metodami, se kterými dosáhnete nejvyššího výkonu v nejrůznějších úlohách strojového učení. Jsou ale také jedním z více náročných na paměť a aktuální implementace obsahuje všechno v paměti. Proto model posíleného rozhodovacího stromu nemusí být schopen zpracovat velké datové sady, které mohou někteří lineární studenti zpracovat.
Tato komponenta je založená na algoritmu LightGBM.
Způsob konfigurace
Tato komponenta vytvoří trénovaný klasifikační model. Protože klasifikace je metoda učení pod dohledem, pro trénování modelu potřebujete označenou datovou sadu , která obsahuje sloupec popisku s hodnotou pro všechny řádky.
Tento typ modelu můžete vytrénovat pomocí modelu trénování.
Ve službě Azure Machine Learning přidejte do kanálu komponentu Boosted Decision Tree .
Určete, jak chcete model trénovat, nastavením možnosti Vytvořit režim trenéra.
Jeden parametr: Pokud víte, jak chcete model nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot.
Rozsah parametrů: Pokud si nejste jistí nejlepšími parametry, můžete optimální parametry najít pomocí komponenty Tune Model Hyperparameters . Zadáte určitý rozsah hodnot a trenér iteruje více kombinací nastavení, aby určil kombinaci hodnot, které vedou k dosažení nejlepšího výsledku.
Maximální počet listů na strom označuje maximální počet uzlů terminálu (listů), které lze vytvořit v libovolném stromu.
Tím, že tuto hodnotu zvýšíte, potenciálně zvětšíte velikost stromu a získáte lepší přesnost, s rizikem přeurčení a delší dobu trénování.
V případě minimálního počtu vzorků na uzel typu list uveďte počet případů potřebných k vytvoření libovolného koncového uzlu (list) ve stromu.
Zvýšením této hodnoty zvýšíte prahovou hodnotu pro vytváření nových pravidel. Například s výchozí hodnotou 1 může vytvoření nového pravidla způsobit i jeden případ. Pokud zvýšíte hodnotu na 5, trénovací data by musela obsahovat alespoň pět případů, které splňují stejné podmínky.
V části Rychlost učení zadejte číslo od 0 do 1, které definuje velikost kroku při učení.
Rychlost učení určuje, jak rychle nebo pomalu se učení konverguje na optimálním řešení. Pokud je velikost kroku příliš velká, můžete optimální řešení překroutit. Pokud je velikost kroku příliš malá, trénování trvá déle, než se shodí s nejlepším řešením.
U počtu vytvořených stromů uveďte celkový počet rozhodovacích stromů, které se mají vytvořit v souboru. Vytvořením více rozhodovacích stromů můžete potenciálně získat lepší pokrytí, ale doba trénování se zvýší.
Pokud nastavíte hodnotu na 1, vytvoří se pouze jeden strom (strom s počáteční sadou parametrů) a neprovedou se žádné další iterace.
Pro počáteční hodnotu náhodného čísla volitelně zadejte nezáporné celé číslo, které se má použít jako náhodná počáteční hodnota. Určení počáteční hodnoty zajišťuje reprodukovatelnost napříč běhy, která mají stejná data a parametry.
Náhodné počáteční hodnoty je nastaveno ve výchozím nastavení na hodnotu 0, což znamená, že počáteční počáteční hodnota se získá ze systémových hodin. Po sobě jdoucí spuštění pomocí náhodného počátečního souboru může mít různé výsledky.
Trénování modelu:
Pokud nastavíte režim Vytvořit trenéra na Jeden parametr, připojte označenou datovou sadu a komponentu Train Model .
Pokud nastavíte režim Vytvořit trenéra na rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí hyperparametrů ladění modelu.
Poznámka:
Pokud do trénování modelu předáte rozsah parametrů, použije pouze výchozí hodnotu v seznamu parametrů.
Pokud předáte jednu sadu hodnot parametrů komponentě Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro žáka.
Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se v rámci úklidu zadaná jedna hodnota, i když se v rozsahu hodnot změní jiné parametry.
Výsledky
Po dokončení trénování:
Pokud chcete uložit snímek natrénovaného modelu, vyberte kartu Výstupy v pravém panelu komponenty Trénování modelu . Výběrem ikony Zaregistrovat datovou sadu uložte model jako opakovaně použitelnou komponentu.
Pokud chcete použít model pro bodování, přidejte do kanálu komponentu Určení skóre modelu .
Další kroky
Podívejte se na sadu komponent dostupných pro Azure Machine Learning.