Vyhodnocení modelu
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Přečtěte si informace o přesouvání projektů strojového učení z ML Studia (classic) na Azure Machine Learning.
- Přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Vyhodnotí výsledky klasifikačního nebo regresního modelu pomocí standardních metrik.
Kategorie: Machine Learning / Vyhodnotit
Poznámka
Platí jenom pro: Machine Learning Studio (jenom Classic)
Podobné moduly pro přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
Tento článek popisuje, jak pomocí modulu Vyhodnotit model v Machine Learning Studiu (classic) změřit přesnost natrénovaného modelu. Zadáte datovou sadu obsahující skóre vygenerovaná z modelu a modul Vyhodnotit model vypočítá sadu standardních metrik vyhodnocení.
Metriky vrácené modelem Vyhodnocení závisí na typu modelu, který vyhodnocujete:
Pro modely doporučení použijte modul Evaluate Recommender .
Tip
Pokud s vyhodnocením modelu začínáte, doporučujeme tyto ukázky v galerii Azure AI, která sestaví model, a pak vysvětlíme, jak používat související metriky:
- Porovnání regresních modelů
- Porovnání binárních klasifikátorů
- Porovnání klasifikátorů s více třídami
V rámci kurzu strojového učení od EdX doporučujeme také video seriál dr. Stephena Elstona.
Jak používat model Evaluate
Modul Vyhodnotit model můžete použít třemi způsoby:
- Generování skóre pro trénovací data a vyhodnocení modelu na základě těchto skóre
- Vygenerujte skóre modelu, ale porovnejte je s skóre u rezervované testovací sady.
- Porovnání skóre pro dva různé, ale související modely s použitím stejné sady dat
Použití trénovacích dat
Pokud chcete vyhodnotit model, musíte připojit datovou sadu obsahující sadu vstupních sloupců a skóre. Pokud nejsou k dispozici žádná jiná data, můžete použít původní datovou sadu.
- Připojení výstupu datové sady Scoredmodelu skóre pro vstup vyhodnocení modelu.
- Klikněte na Modul Vyhodnotit model a výběrem možnosti Spustit vybraný vygenerujte skóre vyhodnocení.
Použití testovacích dat
Běžným scénářem strojového učení je oddělení původní datové sady na trénovací a testovací datové sady pomocí modulu Split nebo modulu Partition a Sample .
- Připojení výstupu výkonnostní datové sadymodelu skóre pro vstup vyhodnocení modelu.
- Připojení výstup modulu Split Data, který obsahuje testovací data do pravého vstupu modelu Evaluate Model.
- Klikněte na Modul Vyhodnotit model a výběrem možnosti Spustit vybraný vygenerujte skóre vyhodnocení.
Porovnání skóre ze dvou modelů
K vyhodnocení modelu můžete připojit také druhou sadu skóre. Skóre můžou být sdílená vyhodnocovací sada, která obsahuje známé výsledky, nebo sadu výsledků z jiného modelu pro stejná data.
Tato funkce je užitečná, protože můžete snadno porovnat výsledky ze dvou různých modelů na stejných datech. Nebo můžete porovnat skóre ze dvou různých běhů na stejných datech s různými parametry.
- Připojení výstupu datové sady Scoredmodelu skóre pro vstup vyhodnocení modelu.
- Připojení výstup modulu Score Model pro druhý model do pravého vstupu vyhodnocení modelu.
- Klikněte pravým tlačítkem myši na Vyhodnotit model a výběrem možnosti Spustit vybraný vygenerujte skóre vyhodnocení.
Výsledky
Po spuštění vyhodnocení modelu klikněte pravým tlačítkem myši na modul a výběrem výsledků vyhodnocení zobrazte výsledky. Další možnosti:
- Uložení výsledků jako datové sady pro snadnější analýzu s jinými nástroji
- Vygenerování vizualizace v rozhraní sady Studio (Classic)
Pokud připojíte datové sady k oběma vstupům vyhodnocení modelu, výsledky budou obsahovat metriky pro obě sady dat nebo oba modely. Model nebo data připojená k levému portu se zobrazí jako první v sestavě a metriky datové sady nebo modelu připojeného na pravém portu.
Následující obrázek například představuje porovnání výsledků ze dvou modelů clusteringu, které byly postaveny na stejných datech, ale s různými parametry.
Vzhledem k tomu, že se jedná o model clusteringu, výsledky vyhodnocení se liší od porovnání skóre ze dvou regresních modelů nebo porovnání dvou klasifikačních modelů. Celková prezentace je ale stejná.
Metriky
Tato část popisuje metriky vrácené pro konkrétní typy modelů podporovaných pro použití s modelem Evaluate:
Metriky pro klasifikační modely
Při vyhodnocování klasifikačních modelů se hlásí následující metriky. Pokud porovnáváte modely, jsou seřazené podle metriky, kterou vyberete pro vyhodnocení.
Přesnost měří dobrou hodnotu klasifikačního modelu jako poměr pravdivých výsledků k celkovým případům.
Přesnost je podíl skutečných výsledků u všech pozitivních výsledků.
Úplnost je zlomek všech správných výsledků vrácených modelem.
Skóre F se vypočítá jako vážený průměr přesnosti a úplnosti mezi 0 a 1, kde ideální hodnota skóre F je 1.
AUC měří oblast pod křivkou vykreslovanou skutečnými pozitivními výsledky na ose y a falešně pozitivními výsledky na ose x. Tato metrika je užitečná, protože poskytuje jedno číslo, které umožňuje porovnat modely různých typů.
Průměrná ztráta protokolu je jediné skóre, které slouží k vyjádření penalizace za nesprávné výsledky. Vypočítá se jako rozdíl mezi dvěma rozděleními pravděpodobnosti – skutečnou a druhou v modelu.
Ztráta trénovacího protokolu je jediné skóre, které představuje výhodu klasifikátoru oproti náhodné predikci. Ztráta protokolu měří nejistotu modelu porovnáním pravděpodobností, které výstupuje, se známými hodnotami (základní pravdou) v popiscích. Chcete minimalizovat ztrátu protokolů pro model jako celek.
Metriky pro regresní modely
Metriky vrácené pro regresní modely jsou obecně navržené tak, aby odhadly množství chyb. Model se považuje za vhodný pro data, pokud je rozdíl mezi pozorovanými a predikovanými hodnotami malý. Při pohledu na vzor reziduí (rozdíl mezi libovolným předpovězeným bodem a odpovídající skutečnou hodnotou) však můžete zjistit spoustu informací o potenciálních předsudkech v modelu.
Pro vyhodnocení regresních modelů se zobrazují následující metriky. Při porovnávání modelů jsou seřazené podle metriky, kterou vyberete pro vyhodnocení.
Pravděpodobnost negativního protokolu měří funkci ztráty, nižší skóre je lepší. Všimněte si, že tato metrika se počítá pouze pro Bayesian Linear Regression a Decision Forest Regression; pro jiné algoritmy je
Infinity
hodnota, která znamená pro nic.Střední absolutní chyba (MAE) měří, jak blízko jsou předpovědi skutečným výsledkům; nižší skóre je tedy lepší.
Kořenová střední kvadratická chyba (RMSE) vytvoří jednu hodnotu, která shrnuje chybu v modelu. Díky rozdělení rozdílu metrika ignoruje rozdíl mezi předpovědí a podpovědí.
Relativní absolutní chyba (RAE) je relativní absolutní rozdíl mezi očekávanými a skutečnými hodnotami; vzhledem k tomu, že střední rozdíl je dělený aritmetickou střední hodnotou.
Relativní kvadratická chyba (RSE) podobně normalizuje celkovou kvadratická chybu predikovaných hodnot tak, že vydělí celkovou kvadratická chyba skutečných hodnot.
Střední chyba nula jedna (MZOE) označuje, jestli byla předpověď správná nebo ne. Jinými slovy:
ZeroOneLoss(x,y) = 1
kdyžx!=y
; jinak0
.Koeficient stanovení, často označovaný jako R2, představuje prediktivní výkon modelu jako hodnotu v rozmezí 0 až 1. Nula znamená, že model je náhodný (vysvětluje nic); 1 znamená, že tam je perfektní fit. Při interpretaci hodnot R2 byste však měli být opatrní, protože nízké hodnoty mohou být zcela normální a vysoké hodnoty mohou být podezřelé.
Metriky pro modely clusteringu
Vzhledem k tomu, že se modely clusteringu výrazně liší od klasifikačních a regresních modelů v mnoha ohledech, vrátí funkce Evaluate Model také jinou sadu statistik pro modely clusteringu.
Statistiky vrácené pro clusteringový model popisují, kolik datových bodů bylo přiřazeno ke každému clusteru, množství oddělení mezi clustery a jak úzce jsou datové body rozdělené do jednotlivých clusterů.
Statistiky pro model clusteringu se průměrují po celé datové sadě s dalšími řádky obsahujícími statistiky na cluster.
Například následující výsledky ukazují část výsledků z ukázkového experimentu, který seskupuje data v datové sadě PIMA Indian Diabetes Binary Classification, která je dostupná v Machine Learning Studiu (classic).
Popis výsledku | Průměrná vzdálenost ke středu clusteru | Průměrná vzdálenost k jinému centru | Počet bodů | Maximální vzdálenost ke středu clusteru |
---|---|---|---|---|
Kombinované vyhodnocení | 55.915068 | 169.897505 | 538 | 303.545166 |
Vyhodnocení clusteru č.0 | 0 | 1 | 570 | 0 |
Vyhodnocení clusteru č. 1 | 0 | 1 | 178 | 0 |
Vyhodnocení clusteru č. 2 | 0 | 1 | 178 | 0 |
Z těchto výsledků získáte následující informace:
Modul Uklidit clustering vytvoří několik modelů clusteringu , které jsou uvedeny v pořadí přesnosti. Pro jednoduchost jsme zde ukázali pouze nejlépe hodnocený model. Modely se měří pomocí všech možných metrik, ale modely jsou seřazené pomocí zadané metriky. Pokud jste metriku změnili, může být jiný model seřazený výš.
Skóre kombinovaného vyhodnocení v horní části jednotlivých částí výsledků uvádí průměrné skóre pro clustery vytvořené v daném modelu.
K tomuto nejlépe hodnoceného modelu došlo k vytvoření tří clusterů; Jiné modely můžou vytvářet dva clustery nebo čtyři clustery. Toto kombinované skóre hodnocení vám proto pomůže porovnat modely s různým počtem clusterů.
Skóre ve sloupci Average Distance to Cluster Center (Průměrná vzdálenost do centra clusteru) představují blízkost všech bodů v clusteru k centroidu daného clusteru.
Skóre ve sloupci Average Distance to Other Center (Průměrná vzdálenost do jiného centra) představují, jak blízko je v průměru každý bod v clusteru na centroidy všech ostatních clusterů.
K měření této vzdálenosti můžete zvolit libovolnou ze čtyř metrik, ale všechna měření musí používat stejnou metriku.
Sloupec Počet bodů ukazuje, kolik datových bodů bylo přiřazeno každému clusteru, spolu s celkovým celkovým počtem datových bodů v libovolném clusteru.
Pokud je počet datových bodů přiřazených ke clusterům menší než celkový počet dostupných datových bodů, znamená to, že datové body nelze přiřadit ke clusteru.
Skóre ve sloupci Maximální vzdálenost ke středu clusteru představují součet vzdáleností mezi jednotlivými body a centroidem clusteru daného bodu.
Pokud je toto číslo vysoké, může to znamenat, že cluster je široce rozptýlený. Tuto statistiku byste měli zkontrolovat společně s průměrnou vzdáleností do centra clusteru a určit rozložení clusteru.
Příklady
Příklady, jak generovat, vizualizovat a interpretovat metriky vyhodnocení, najdete v těchto ukázkových experimentech v galerii Azure AI. Tyto experimenty ukazují, jak sestavit více modelů a pomocí funkce Vyhodnotit model určit, který model je nejlepší.
Porovnání binárních klasifikátorů: Vysvětluje, jak porovnat výkon různých klasifikátorů vytvořených pomocí stejných dat.
Porovnání klasifikátorů s více třídami: Ukazuje, jak porovnat přesnost různých klasifikačních modelů, které byly založené na datové sadě pro rozpoznávání písmen.
Porovnání regresorů: Provede vás procesem vyhodnocování různých regresních modelů.
Odhad poptávky: Zjistěte, jak kombinovat metriky vyhodnocení z více modelů.
Predikce vztahů se zákazníky: Ukazuje, jak vyhodnotit více souvisejících modelů.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada s skóre | Tabulka dat | Datová sada s skóre |
Výsledná datová sada pro porovnání | Tabulka dat | Datová sada s skóre pro porovnání (volitelné) |
Výstupy
Název | Typ | Description |
---|---|---|
Výsledky vyhodnocení | Tabulka dat | Výsledek vyhodnocení dat |
Výjimky
Výjimka | Description |
---|---|
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů je null nebo prázdný. |
Chyba 0013 | K výjimce dochází v případě, že předaný modulu má neplatný typ. |
Chyba 0020 | K výjimce dochází, pokud je počet sloupců v některých datových sadách předaných modulu příliš malý. |
Chyba 0021 | K výjimce dochází, pokud je počet řádků v některých datových sadách předaných modulu příliš malý. |
Chyba 0024 | K výjimce dochází v případě, že datová sada neobsahuje sloupec popisku. |
Chyba 0025 | K výjimce dochází, pokud datová sada neobsahuje sloupec skóre. |
Viz také
Křížové ověření modelu
Vyhodnocení doporučovacího systému
Vyhodnotit
Určení skóre modelu