Komponenta lineární regrese
Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.
Tato komponenta slouží k vytvoření modelu lineární regrese pro použití v kanálu. Lineární regrese se pokouší vytvořit lineární vztah mezi jednou nebo více nezávislými proměnnými a číselným výsledkem nebo závislými proměnnými.
Tuto komponentu použijete k definování metody lineární regrese a následnému trénování modelu pomocí označené datové sady. Vytrénovaný model se pak dá použít k předpovědím.
O lineární regresi
Lineární regrese je běžná statistická metoda, která byla přijata ve strojovém učení a vylepšena o mnoho nových metod pro přizpůsobení přímky a měření chyb. Jednoduše řečeno, regrese odkazuje na předpověď číselného cíle. Lineární regrese je stále dobrou volbou, pokud chcete jednoduchý model pro základní prediktivní úlohu. Lineární regrese také často funguje dobře na vysoce dimenzionálních řídkých datových sadách, které nemají složitost.
Azure Machine Learning podporuje kromě lineární regrese různé regresní modely. Termín "regrese" je však možné volně interpretovat a některé typy regrese poskytované v jiných nástrojích se nepodporují.
Klasický problém regrese zahrnuje jednu nezávislou proměnnou a závislá proměnnou. Tomu se říká jednoduchá regrese. Tato komponenta podporuje jednoduchou regresi.
Vícenásobná lineární regrese zahrnuje dvě nebo více nezávislých proměnných, které přispívají k jedné závislé proměnné. Problémy, ve kterých se k predikci jednoho číselného výsledku používá více vstupů, se také označují jako multivariát lineární regrese.
Komponenta lineární regrese může tyto problémy vyřešit, stejně jako většina ostatních regresních komponent.
Regrese více popisků je úloha predikce více závislých proměnných v rámci jednoho modelu. Například v logistické regresi s více popisky lze ukázku přiřadit více různým popiskům. (To se liší od úlohy predikce více úrovní v rámci proměnné jedné třídy.)
Tento typ regrese není ve službě Azure Machine Learning podporován. Pokud chcete předpovědět více proměnných, vytvořte pro každý výstup samostatný learner, který chcete předpovědět.
V letech se statistiky vyvíjejí stále pokročilejší metody pro regresi. To platí i pro lineární regresi. Tato komponenta podporuje dvě metody měření chyb a přizpůsobení regresní přímky: běžné metody nejmenších čtverců a gradientní sestup.
Gradientní sestup je metoda, která minimalizuje množství chyb v každém kroku procesu trénování modelu. Existuje mnoho variací na gradientní sestup a jeho optimalizace pro různé problémy učení byla široce zkoumána. Pokud zvolíte tuto možnost pro metodu řešení, můžete nastavit různé parametry pro řízení velikosti kroku, rychlosti učení atd. Tato možnost také podporuje použití integrovaného úklidu parametrů.
Běžné nejmenší čtverce je jednou z nejčastěji používaných technik lineární regrese. Například nejmenší čtverce je metoda, která se používá v doplňku Analytické nástroje pro Microsoft Excel.
Běžné nejmenší čtverce odkazují na funkci ztráty, která vypočítá chybu jako součet čtverců vzdálenosti od skutečné hodnoty k předpovězené přímce a odpovídá modelu minimalizací kvadratická chyba. Tato metoda předpokládá silný lineární vztah mezi vstupy a závislými proměnnými.
Konfigurace lineární regrese
Tato komponenta podporuje dvě metody pro přizpůsobení regresního modelu s různými možnostmi:
Přizpůsobení regresního modelu pomocí běžných nejmenších čtverců
U malých datových sad je nejlepší vybrat obyčejné nejmenší čtverce. To by mělo mít podobné výsledky jako v Excelu.
Vytvoření regresního modelu pomocí online gradientního sestupu
Gradientní sestup je lepší funkce ztráty pro modely, které jsou složitější nebo mají příliš málo trénovacích dat s ohledem na počet proměnných.
Vytvoření regresního modelu pomocí běžných nejmenších čtverců
Přidejte komponentu Lineární regresní model do kanálu v návrháři.
Tuto komponentu najdete v kategorii Machine Learning . Rozbalte inicializovat model, rozbalte regresi a potom přetáhněte komponentu Lineární regresní model do kanálu.
V podokně Vlastnosti v rozevíracím seznamu Metoda řešení vyberte Obyčejné nejmenší čtverce. Tato možnost určuje výpočetní metodu použitou k vyhledání regresní přímky.
V váhu regularizace L2 zadejte hodnotu, která se má použít jako váha pro regularizaci L2. Doporučujeme použít nenulovou hodnotu, abyste se vyhnuli přeurčení.
Další informace o tom, jak regularizace ovlivňuje přizpůsobení modelu, najdete v tomto článku: Regularizace L1 a L2 pro Machine Learning.
Vyberte možnost Zahrnout termín průsečíku, pokud chcete zobrazit termín pro průsečík.
Tuto možnost zrušte, pokud není potřeba regresní vzorec zkontrolovat.
V případě počátečního počtu náhodných čísel můžete volitelně zadat hodnotu k vytvoření generátoru náhodných čísel, který model používá.
Použití počáteční hodnoty je užitečné, pokud chcete zachovat stejné výsledky napříč různými spuštěními stejného kanálu. V opačném případě je výchozí použít hodnotu ze systémových hodin.
Přidejte do kanálu komponentu Trénování modelu a připojte označenou datovou sadu.
Odešlete kanál.
Výsledky pro běžný model nejmenších čtverců
Po dokončení trénování:
- Pokud chcete vytvořit předpovědi, připojte trénovaný model ke komponentě Určení skóre modelu spolu s datovou sadou nových hodnot.
Vytvoření regresního modelu pomocí online gradientního sestupu
Přidejte komponentu Lineární regresní model do kanálu v návrháři.
Tuto komponentu najdete v kategorii Machine Learning . Rozbalte inicializovat model, rozbalte regresi a přetáhněte komponentu Lineární regresní model do kanálu.
V podokně Vlastnosti v rozevíracím seznamu Metoda řešení zvolte online gradientní sestup jako výpočetní metodu použitou k vyhledání regresní přímky.
V případě režimu Vytvořit trenéra určete, jestli chcete model vytrénovat pomocí předdefinované sady parametrů, nebo jestli chcete model optimalizovat pomocí úklidu parametrů.
Jeden parametr: Pokud víte, jak chcete konfigurovat lineární regresní síť, můžete zadat konkrétní sadu hodnot jako argumenty.
Rozsah parametrů: Tuto možnost vyberte, pokud si nejste jisti nejlepšími parametry a chcete spustit úklid parametrů. Vyberte rozsah hodnot, který chcete iterovat, a Hyperparametry modelu tunes iteruje přes všechny možné kombinace nastavení, která jste zadali k určení hyperparametrů, které vytvářejí optimální výsledky.
V části Rychlost učení zadejte počáteční rychlost učení pro optimalizátor stochastického gradientního sestupu.
Do pole Počet epoch trénování zadejte hodnotu, která označuje, kolikrát má algoritmus iterovat příklady. U datových sad s malým počtem příkladů by mělo být toto číslo velké, aby bylo dosaženo konvergence.
Normalizovat funkce: Pokud jste už normalizovali číselná data použitá k trénování modelu, můžete tuto možnost zrušit. Ve výchozím nastavení komponenta normalizuje všechny číselné vstupy do rozsahu od 0 do 1.
Poznámka:
Nezapomeňte použít stejnou metodu normalizace na nová data použitá pro bodování.
V váhu regularizace L2 zadejte hodnotu, která se má použít jako váha pro regularizaci L2. Doporučujeme použít nenulovou hodnotu, abyste se vyhnuli přeurčení.
Další informace o tom, jak regularizace ovlivňuje přizpůsobení modelu, najdete v tomto článku: Regularizace L1 a L2 pro Machine Learning.
Pokud chcete, aby se míra učení s průběhem iterací snížila, vyberte možnost Snížit rychlost učení.
V případě počátečního počtu náhodných čísel můžete volitelně zadat hodnotu k vytvoření generátoru náhodných čísel, který model používá. Použití počáteční hodnoty je užitečné, pokud chcete zachovat stejné výsledky napříč různými spuštěními stejného kanálu.
Trénování modelu:
Pokud nastavíte režim Vytvořit trenéra na Jeden parametr, připojte označenou datovou sadu a komponentu Train Model .
Pokud nastavíte režim Vytvořit trenéra na rozsah parametrů, připojte označenou datovou sadu a vytrénujte model pomocí hyperparametrů ladění modelu.
Poznámka:
Pokud do trénování modelu předáte rozsah parametrů, použije pouze výchozí hodnotu v seznamu parametrů.
Pokud předáte jednu sadu hodnot parametrů komponentě Tune Model Hyperparameters , pokud očekává rozsah nastavení pro každý parametr, ignoruje hodnoty a použije výchozí hodnoty pro žáka.
Pokud vyberete možnost Rozsah parametrů a zadáte jednu hodnotu pro libovolný parametr, použije se v rámci úklidu zadaná jedna hodnota, i když se v rozsahu hodnot změní jiné parametry.
Odešlete kanál.
Výsledky pro online gradientní sestup
Po dokončení trénování:
- Pokud chcete vytvářet předpovědi, připojte trénovaný model ke komponentě Určení skóre modelu spolu s novými vstupními daty.
Další kroky
Podívejte se na sadu komponent dostupných pro Azure Machine Learning.