Komponenta logistické regrese se dvěma třídami
Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.
Tato komponenta slouží k vytvoření logistického regresního modelu, který lze použít k predikci dvou (a pouze dvou) výsledků.
Logistická regrese je známá statistická technika, která se používá k modelování mnoha druhů problémů. Tento algoritmus je metoda učení pod dohledem. Proto musíte zadat datovou sadu, která už obsahuje výsledky pro trénování modelu.
Informace o logistické regresi
Logistická regrese je dobře známá metoda ve statistikách, která slouží k predikci pravděpodobnosti výsledku a je obzvláště oblíbená pro klasifikační úkoly. Algoritmus předpovídá pravděpodobnost výskytu události přizpůsobením dat logistické funkci.
V této komponentě je klasifikační algoritmus optimalizovaný pro didikotomické nebo binární proměnné. Pokud potřebujete klasifikovat více výsledků, použijte komponentu Multiclass Logistic Regression .
Způsob konfigurace
Pokud chcete tento model vytrénovat, musíte zadat datovou sadu, která obsahuje sloupec popisku nebo třídy. Vzhledem k tomu, že tato komponenta je určená pro problémy se dvěma třídami, musí sloupec popisku nebo třídy obsahovat přesně dvě hodnoty.
Například sloupec popisku může být [Hlasovalo] s možnými hodnotami "Ano" nebo "Ne". Nebo to může být [Úvěrové riziko] s možnými hodnotami "Vysoká" nebo "Nízká".
Přidejte do kanálu komponentu logistické regrese se dvěma třídami .
Určete, jak chcete model trénovat, nastavením možnosti Vytvořit režim trenéra.
Jeden parametr: Pokud víte, jak chcete model nakonfigurovat, můžete jako argumenty zadat konkrétní sadu hodnot.
Rozsah parametrů: Pokud si nejste jistí nejlepšími parametry, můžete optimální parametry najít pomocí komponenty Tune Model Hyperparameters . Zadáte určitý rozsah hodnot a trenér iteruje více kombinací nastavení, aby určil kombinaci hodnot, které vedou k dosažení nejlepšího výsledku.
V případě tolerance optimalizace zadejte prahovou hodnotu, kterou chcete použít při optimalizaci modelu. Pokud zlepšení mezi iteracemi klesne pod zadanou prahovou hodnotu, považuje se algoritmus za sblížený s řešením a trénování se zastaví.
Pro váhu regularizace L1 a váhu regularizace L2 zadejte hodnotu, která se má použít pro parametry regularizace L1 a L2. Pro oba se doporučuje nenulová hodnota.
Regularizace je metoda prevence přeurčení pomocí penalizace modelů s extrémními hodnotami koeficientu. Regularizace funguje tak, že k chybě hypotézy přidá penále, která je přidružená k hodnotám koeficientu. Přesný model s extrémními hodnotami koeficientu by tedy byl penalizován více, ale méně přesný model s konzervativnějšími hodnotami by byl penalizován méně.Regularizace L1 a L2 mají různé účinky a použití.
L1 lze použít u řídkých modelů, což je užitečné při práci s vysoce dimenzionálními daty.
Naproti tomu regularizace L2 je vhodnější pro data, která nejsou řídká.
Tento algoritmus podporuje lineární kombinaci hodnot regularizace L1 a L2: to znamená, že pokud
x = L1
ay = L2
pakax + by = c
definuje lineární rozsah regulárních termínů.Poznámka:
Chcete se dozvědět více o regularizaci L1 a L2? Následující článek obsahuje diskuzi o tom, jak se liší regularizace L1 a L2 a jak ovlivňují přizpůsobení modelu, s vzorovými vzorci kódu pro logistické regrese a neurální síťové modely: L1 a L2 Regularization for Machine Learning.
Pro logistické regresní modely byly navrženy různé lineární kombinace termínů L1 a L2: například elastická regularizace sítě. Doporučujeme na tyto kombinace odkazovat, abyste definovali lineární kombinaci, která je efektivní ve vašem modelu.
Pro velikost paměti pro L-BFGS zadejte velikost paměti, která se má použít pro optimalizaci L-BFGS .
L-BFGS je zkratka pro "omezenou paměť Broyden-Fletcher-Goldfarb-Shanno". Jedná se o algoritmus optimalizace, který je oblíbený pro odhad parametrů. Tento parametr označuje počet minulých pozic a přechodů, které se mají uložit pro výpočet dalšího kroku.
Tento parametr optimalizace omezuje množství paměti, které se používá k výpočtu dalšího kroku a směru. Když zadáte méně paměti, trénování je rychlejší, ale méně přesné.
Jako počáteční hodnotu náhodného čísla zadejte celočíselnou hodnotu. Definování počáteční hodnoty je důležité, pokud chcete, aby výsledky byly reprodukovatelné při několika spuštěních stejného kanálu.
Přidejte do kanálu datovou sadu s popiskem a vytrénujte model:
Pokud nastavíte režim Vytvořit trenéra na Jeden parametr, připojte označenou datovou sadu a komponentu Train Model .
Pokud nastavíte režim Vytvořit trenéra na rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí hyperparametrů ladění modelu.
Poznámka:
Pokud do trénování modelu předáte rozsah parametrů, použije pouze výchozí hodnotu v seznamu parametrů.
Pokud předáte jednu sadu hodnot parametrů komponentě Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro žáka.
Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se v rámci úklidu zadaná jedna hodnota, i když se v rozsahu hodnot změní jiné parametry.
Odešlete kanál.
Výsledky
Po dokončení trénování:
- K předpovědím pro nová data použijte natrénovaný model a nová data jako vstup do komponenty Určení skóre modelu .
Další kroky
Podívejte se na sadu komponent dostupných pro Azure Machine Learning.