Kurz 2: Trénování modelů úvěrového rizika – Machine Learning Studio (classic)
PLATÍ PRO: Machine Learning Studio (Classic)
Azure Machine Learning
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Přečtěte si informace o přesunu projektů strojového učení ze sady ML Studio (classic) do služby Azure Machine Learning.
- Další informace o službě Azure Machine Learning
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
V tomto kurzu se podíváme na proces vývoje řešení prediktivní analýzy. V nástroji Machine Learning Studio (classic) vyvíjíte jednoduchý model. Model pak nasadíte jako webovou službu Machine Learning. Tento nasazený model může vytvářet předpovědi pomocí nových dat. Tento kurz je druhou částí třídílné série kurzů.
Předpokládejme, že potřebujete předpovědět úvěrové riziko u jednotlivých zákazníků na základě údajů, které uvedli v žádosti o úvěr.
Posouzení úvěrového rizika je složitý problém, ale tento kurz ho trochu zjednoduší. Použijete ho jako příklad vytvoření řešení prediktivní analýzy pomocí nástroje Machine Learning Studio (classic). Pro toto řešení použijete Machine Learning Studio (classic) a webovou službu Machine Learning.
V tomto třídílném kurzu začnete s veřejně dostupnými údaji o úvěrovém riziku. Pak vytvoříte a vytrénujete prediktivní model. Nakonec model nasadíte jako webovou službu.
V první části kurzu jste vytvořili pracovní prostor Machine Learning Studia (classic), nahráli data a vytvořili experiment.
V této části kurzu:
- Trénování více modelů
- Určení skóre a vyhodnocení modelů
Ve třetí části kurzu nasadíte model jako webovou službu.
Požadavky
Dokončete část tohoto kurzu.
Trénování více modelů
Jednou z výhod použití nástroje Machine Learning Studio (classic) pro vytváření modelů strojového učení je možnost vyzkoušet v jednom experimentu více typů modelů najednou a porovnat výsledky. Tento typ experimentování vám pomůže najít nejlepší řešení vašeho problému.
V experimentu, který vyvíjíme v tomto kurzu, vytvoříte dva různé typy modelů a pak porovnáte výsledky vyhodnocování a rozhodnete se, který algoritmus chcete použít v našem posledním experimentu.
Můžete si vybrat z různých modelů. Pokud chcete zobrazit dostupné modely, rozbalte uzel Machine Learning na paletě modulu a pak rozbalte inicializovat model a uzly pod nimi. Pro účely tohoto experimentu vyberete moduly SVM (Two-Class Support Vector Machine ) a two-class boosted Decision Tree .
V tomto experimentu přidáte modul Dvoutřídní posílený rozhodovací strom i modul Dvoutřídní podpůrný vektorový stroj .
Posílený rozhodovací strom se dvěma třídami
Nejprve nastavte model posíleného rozhodovacího stromu.
Najděte modul Rozhodovací strom se dvěma třídami na paletě modulů a přetáhněte ho na plátno.
Vyhledejte modul Train Model, přetáhněte ho na plátno a pak propojte výstup modulu Rozhodovací strom se dvěma třídami a levým vstupním portem modulu Train Model.
Modul rozhodovacího stromu se dvěma třídami inicializuje obecný model a trénování modelu používá trénovací data.
Připojte levý výstup modulu Execute R Script k pravému vstupnímu portu modulu Train Model (v tomto kurzu jste použili data přicházející z levé strany modulu Split Data pro trénování).
Tip
Pro tento experiment nepotřebujete dva vstupy a jeden z výstupů modulu Spustit skript jazyka R, takže je můžete nechat nepřipojené.
Tato část experimentu teď vypadá nějak takto:
Teď potřebujete modulu Trénování modelu sdělit, že má model předpovědět hodnotu úvěrového rizika.
Vyberte modul Trénování modelu . V podokně Vlastnosti klepněte na tlačítko Spustit selektor sloupců.
V dialogovém okně Vybrat jeden sloupec do vyhledávacího pole v části Dostupné sloupce zadejte "úvěrové riziko", níže vyberte "Úvěrové riziko" a kliknutím na tlačítko šipky doprava (>) přesuňte "Úvěrové riziko" do vybraných sloupců.
Klikněte na značku zaškrtnutí OK .
Support Vector Machine (SVM) se dvěma třídami
Dále nastavíte model SVM.
Za prvé, trochu vysvětlení o SVM. Posílené rozhodovací stromy dobře fungují s funkcemi libovolného typu. Vzhledem k tomu, že modul SVM generuje lineární klasifikátor, má model, který generuje, nejlepší testovací chybu, pokud mají všechny číselné funkce stejné měřítko. Pokud chcete převést všechny číselné funkce na stejné měřítko, použijte transformaci "Tanh" (s modulem Normalizovat data ). Tím se naše čísla transformují na rozsah [0,1]. Modul SVM převede řetězcové funkce na kategorické funkce a pak na binární funkce 0/1, takže nemusíte ručně transformovat řetězcové funkce. Také nechcete transformovat sloupec Úvěrové riziko (sloupec 21) – jedná se o číselnou hodnotu, ale jedná se o hodnotu, kterou model trénujeme tak, aby předpovídal, takže ho musíte nechat sám.
Pokud chcete nastavit model SVM, postupujte takto:
V paletě modulů najděte modul Dvoutřídní podpůrný vektorový stroj a přetáhněte ho na plátno.
Klikněte pravým tlačítkem myši na modul Trénování modelu , vyberte Kopírovat a potom klikněte pravým tlačítkem myši na plátno a vyberte Vložit. Kopie modulu Trénování modelu má stejný výběr sloupce jako původní.
Propojte výstup modulu Two-Class Support Vector Machine s levým vstupním portem druhého modulu Trénování modelu .
Vyhledejte modul Normalizovat data a přetáhněte ho na plátno.
Připojte levý výstup modulu Execute R Script ke vstupu tohoto modulu (všimněte si, že výstupní port modulu může být připojený k více než jednomu jinému modulu).
Připojte levý výstupní port modulu Normalizovat data ke správnému vstupnímu portu druhého modulu Trénování modelu .
Tato část našeho experimentu by teď měla vypadat nějak takto:
Teď nakonfigurujte modul Normalizovat data :
Kliknutím vyberte modul Normalizovat data . V podokně Vlastnosti vyberte Tanh pro parametr transformační metody.
Klikněte na spustit selektor sloupců, vyberte "Žádné sloupce" pro Začátek, vyberte Zahrnout v prvním rozevíracím seznamu, vyberte typ sloupce v druhém rozevíracím seznamu a ve třetím rozevíracím seznamu vyberte Numeric . Určuje, že se transformují všechny číselné sloupce (a pouze číselné).
Klikněte na znaménko plus (+) napravo od tohoto řádku – tím se vytvoří řádek rozevíracích seznamu. V prvním rozevíracím seznamu vyberte Možnost Vyloučit , v druhém rozevíracím seznamu vyberte názvy sloupců a do textového pole zadejte "Úvěrové riziko". Určuje, že sloupec Úvěrové riziko by se měl ignorovat (musíte to udělat, protože tento sloupec je číselný a proto by se transformoval, pokud byste ho nevyloučili).
Klikněte na značku zaškrtnutí OK .
Modul Normalizovat data je teď nastavený tak, aby prováděl transformaci Tanh ve všech číselných sloupcích s výjimkou sloupce Úvěrové riziko.
Určení skóre a vyhodnocení modelů
použijete testovací data oddělená modulem Split Data k určení skóre našich natrénovaných modelů. Pak můžete porovnat výsledky těchto dvou modelů a zjistit, které generovaly lepší výsledky.
Přidání modulů určení skóre modelu
Vyhledejte modul Score Model a přetáhněte ho na plátno.
Připojte modul Trénování modelu, který je připojený k modulu rozhodovacího stromu se dvěma třídami, k levému vstupnímu portu modulu Určení skóre modelu.
Připojte správný modul Execute R Script (naše testovací data) ke správnému vstupnímu portu modulu Určení skóre modelu .
Modul Určení skóre modelu teď může přijímat informace o kreditech z testovacích dat, spouštět je prostřednictvím modelu a porovnávat předpovědi, které model generuje, se sloupcem skutečného úvěrového rizika v testovacích datech.
Zkopírujte a vložte modul Score Model a vytvořte druhou kopii.
Připojte výstup modelu SVM (tj. výstupní port modulu Trénování modelu , který je připojený k modulu Vektorový stroj se dvěma třídami) ke vstupnímu portu druhého modulu Určení skóre modelu .
U modelu SVM musíte provést stejnou transformaci na testovací data, jako jste to udělali s trénovacími daty. Proto zkopírujte a vložte modul Normalizovat data , abyste vytvořili druhou kopii a připojili ho ke správnému modulu Execute R Script .
Připojte levý výstup druhého modulu Normalize Data k pravému vstupnímu portu druhého modulu Určení skóre modelu .
Přidání modulu Vyhodnotit model
K vyhodnocení dvou výsledků bodování a jejich porovnání použijete modul Vyhodnocení modelu .
Vyhledejte modul Vyhodnotit model a přetáhněte ho na plátno.
Připojte výstupní port modulu Určení skóre modelu přidruženého k modelu posíleného rozhodovacího stromu k levému vstupnímu portu modulu Vyhodnotit model .
Připojte druhý modul Score Model ke správnému vstupnímu portu.
Spusťte experiment a zkontrolujte výsledky.
Pokud chcete experiment spustit, klikněte na tlačítko SPUSTIT pod plátnem. Může to trvat několik minut. Indikátor otáčení v každém modulu ukazuje, že je spuštěný, a po dokončení modulu se zobrazí zelená značka zaškrtnutí. Když mají všechny moduly značku zaškrtnutí, experiment se dokončil.
Experiment by teď měl vypadat nějak takto:
Pokud chcete zkontrolovat výsledky, klikněte na výstupní port modulu Vyhodnotit model a vyberte Vizualizovat.
Modul Vyhodnotit model vytvoří dvojici křivek a metrik, které umožňují porovnat výsledky dvou hodnocených modelů. Výsledky můžete zobrazit jako křivky ROC (Receiver Operator Charakteristické), křivky přesnosti a úplnosti nebo křivky lift. Další zobrazená data zahrnují konfuzní matici, kumulativní hodnoty oblasti pod křivkou (AUC) a další metriky. Prahovou hodnotu můžete změnit přesunutím posuvníku doleva nebo doprava a zjistit, jak ovlivňuje sadu metrik.
Napravo od grafu klikněte na Výsledná datová sada nebo Datová sada s skóre, abyste mohli porovnat přidruženou křivku a zobrazit přidružené metriky níže. V legendě pro křivky odpovídá hodnota "Scored dataset" (Vyhodnocená datová sada) levému vstupnímu portu modulu Vyhodnocení modelu – v našem případě se jedná o posílený model rozhodovacího stromu. Výsledná datová sada, která se má porovnat, odpovídá správnému vstupnímu portu – modelu SVM v našem případě. Když kliknete na některý z těchto popisků, zvýrazní se křivka pro daný model a zobrazí se odpovídající metriky, jak je znázorněno na následujícím obrázku.
Prozkoumáním těchto hodnot můžete rozhodnout, který model je nejblíže k získání výsledků, které hledáte. V experimentu se můžete vrátit a iterovat změnou hodnot parametrů v různých modelech.
Věda a umění interpretace těchto výsledků a ladění výkonu modelu je mimo rozsah tohoto kurzu. Další nápovědu najdete v následujících článcích:
- Vyhodnocení výkonu modelu v nástroji Machine Learning Studio (Classic)
- Volba parametrů pro optimalizaci algoritmů v nástroji Machine Learning Studio (classic)
- Interpretace výsledků modelu v nástroji Machine Learning Studio (classic)
Tip
Pokaždé, když experiment spustíte, se záznam této iterace uchovává v historii spuštění. Tyto iterace můžete zobrazit a vrátit se k některému z nich kliknutím na ZOBRAZIT HISTORII SPUŠTĚNÍ pod plátnem. Můžete také kliknout na předchozí spuštění v podokně Vlastnosti a vrátit se k iteraci bezprostředně před vámi otevřenou.
Kopii libovolné iterace experimentu můžete vytvořit kliknutím na ULOŽIT AS pod plátnem. Vlastnosti Souhrn a popis experimentu slouží k uchování záznamu o tom, co jste vyzkoušeli v iteraci experimentu.
Další informace najdete v tématu Správa iterací experimentů v nástroji Machine Learning Studio (classic).
Vyčištění prostředků
Pokud už prostředky vytvořené pomocí tohoto článku nepotřebujete, odstraňte je, abyste se vyhnuli poplatkům. Přečtěte si, jak v článku exportovat a odstranit uživatelská data v produktu.
Další kroky
V tomto kurzu jste dokončili tyto kroky:
- Vytvoření experimentu
- Trénování více modelů
- Určení skóre a vyhodnocení modelů
Teď jste připraveni nasadit modely pro tato data.