Sdílet prostřednictvím


Vyhodnocení modelu

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vyhodnotí výsledky klasifikačního nebo regresního modelu pomocí standardních metrik.

Kategorie: Machine Learning / Vyhodnotit

Poznámka

Platí jenom pro: Machine Learning Studio (jenom Classic)

Podobné moduly pro přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Vyhodnotit model v Machine Learning Studiu (classic) změřit přesnost natrénovaného modelu. Zadáte datovou sadu obsahující skóre vygenerovaná z modelu a modul Vyhodnotit model vypočítá sadu standardních metrik vyhodnocení.

Metriky vrácené modelem Vyhodnocení závisí na typu modelu, který vyhodnocujete:

Pro modely doporučení použijte modul Evaluate Recommender .

Tip

Pokud s vyhodnocením modelu začínáte, doporučujeme tyto ukázky v galerii Azure AI, která sestaví model, a pak vysvětlíme, jak používat související metriky:

V rámci kurzu strojového učení od EdX doporučujeme také video seriál dr. Stephena Elstona.

Jak používat model Evaluate

Modul Vyhodnotit model můžete použít třemi způsoby:

  • Generování skóre pro trénovací data a vyhodnocení modelu na základě těchto skóre
  • Vygenerujte skóre modelu, ale porovnejte je s skóre u rezervované testovací sady.
  • Porovnání skóre pro dva různé, ale související modely s použitím stejné sady dat

Použití trénovacích dat

Pokud chcete vyhodnotit model, musíte připojit datovou sadu obsahující sadu vstupních sloupců a skóre. Pokud nejsou k dispozici žádná jiná data, můžete použít původní datovou sadu.

  1. Připojení výstupu datové sady Scoredmodelu skóre pro vstup vyhodnocení modelu.
  2. Klikněte na Modul Vyhodnotit model a výběrem možnosti Spustit vybraný vygenerujte skóre vyhodnocení.

Použití testovacích dat

Běžným scénářem strojového učení je oddělení původní datové sady na trénovací a testovací datové sady pomocí modulu Split nebo modulu Partition a Sample .

  1. Připojení výstupu výkonnostní datové sadymodelu skóre pro vstup vyhodnocení modelu.
  2. Připojení výstup modulu Split Data, který obsahuje testovací data do pravého vstupu modelu Evaluate Model.
  3. Klikněte na Modul Vyhodnotit model a výběrem možnosti Spustit vybraný vygenerujte skóre vyhodnocení.

Porovnání skóre ze dvou modelů

K vyhodnocení modelu můžete připojit také druhou sadu skóre. Skóre můžou být sdílená vyhodnocovací sada, která obsahuje známé výsledky, nebo sadu výsledků z jiného modelu pro stejná data.

Tato funkce je užitečná, protože můžete snadno porovnat výsledky ze dvou různých modelů na stejných datech. Nebo můžete porovnat skóre ze dvou různých běhů na stejných datech s různými parametry.

  1. Připojení výstupu datové sady Scoredmodelu skóre pro vstup vyhodnocení modelu.
  2. Připojení výstup modulu Score Model pro druhý model do pravého vstupu vyhodnocení modelu.
  3. Klikněte pravým tlačítkem myši na Vyhodnotit model a výběrem možnosti Spustit vybraný vygenerujte skóre vyhodnocení.

Výsledky

Po spuštění vyhodnocení modelu klikněte pravým tlačítkem myši na modul a výběrem výsledků vyhodnocení zobrazte výsledky. Další možnosti:

  • Uložení výsledků jako datové sady pro snadnější analýzu s jinými nástroji
  • Vygenerování vizualizace v rozhraní sady Studio (Classic)

Pokud připojíte datové sady k oběma vstupům vyhodnocení modelu, výsledky budou obsahovat metriky pro obě sady dat nebo oba modely. Model nebo data připojená k levému portu se zobrazí jako první v sestavě a metriky datové sady nebo modelu připojeného na pravém portu.

Následující obrázek například představuje porovnání výsledků ze dvou modelů clusteringu, které byly postaveny na stejných datech, ale s různými parametry.

AML_Comparing2Models

Vzhledem k tomu, že se jedná o model clusteringu, výsledky vyhodnocení se liší od porovnání skóre ze dvou regresních modelů nebo porovnání dvou klasifikačních modelů. Celková prezentace je ale stejná.

Metriky

Tato část popisuje metriky vrácené pro konkrétní typy modelů podporovaných pro použití s modelem Evaluate:

Metriky pro klasifikační modely

Při vyhodnocování klasifikačních modelů se hlásí následující metriky. Pokud porovnáváte modely, jsou seřazené podle metriky, kterou vyberete pro vyhodnocení.

  • Přesnost měří dobrou hodnotu klasifikačního modelu jako poměr pravdivých výsledků k celkovým případům.

  • Přesnost je podíl skutečných výsledků u všech pozitivních výsledků.

  • Úplnost je zlomek všech správných výsledků vrácených modelem.

  • Skóre F se vypočítá jako vážený průměr přesnosti a úplnosti mezi 0 a 1, kde ideální hodnota skóre F je 1.

  • AUC měří oblast pod křivkou vykreslovanou skutečnými pozitivními výsledky na ose y a falešně pozitivními výsledky na ose x. Tato metrika je užitečná, protože poskytuje jedno číslo, které umožňuje porovnat modely různých typů.

  • Průměrná ztráta protokolu je jediné skóre, které slouží k vyjádření penalizace za nesprávné výsledky. Vypočítá se jako rozdíl mezi dvěma rozděleními pravděpodobnosti – skutečnou a druhou v modelu.

  • Ztráta trénovacího protokolu je jediné skóre, které představuje výhodu klasifikátoru oproti náhodné predikci. Ztráta protokolu měří nejistotu modelu porovnáním pravděpodobností, které výstupuje, se známými hodnotami (základní pravdou) v popiscích. Chcete minimalizovat ztrátu protokolů pro model jako celek.

Metriky pro regresní modely

Metriky vrácené pro regresní modely jsou obecně navržené tak, aby odhadly množství chyb. Model se považuje za vhodný pro data, pokud je rozdíl mezi pozorovanými a predikovanými hodnotami malý. Při pohledu na vzor reziduí (rozdíl mezi libovolným předpovězeným bodem a odpovídající skutečnou hodnotou) však můžete zjistit spoustu informací o potenciálních předsudkech v modelu.

Pro vyhodnocení regresních modelů se zobrazují následující metriky. Při porovnávání modelů jsou seřazené podle metriky, kterou vyberete pro vyhodnocení.

  • Pravděpodobnost negativního protokolu měří funkci ztráty, nižší skóre je lepší. Všimněte si, že tato metrika se počítá pouze pro Bayesian Linear Regression a Decision Forest Regression; pro jiné algoritmy je Infinity hodnota, která znamená pro nic.

  • Střední absolutní chyba (MAE) měří, jak blízko jsou předpovědi skutečným výsledkům; nižší skóre je tedy lepší.

  • Kořenová střední kvadratická chyba (RMSE) vytvoří jednu hodnotu, která shrnuje chybu v modelu. Díky rozdělení rozdílu metrika ignoruje rozdíl mezi předpovědí a podpovědí.

  • Relativní absolutní chyba (RAE) je relativní absolutní rozdíl mezi očekávanými a skutečnými hodnotami; vzhledem k tomu, že střední rozdíl je dělený aritmetickou střední hodnotou.

  • Relativní kvadratická chyba (RSE) podobně normalizuje celkovou kvadratická chybu predikovaných hodnot tak, že vydělí celkovou kvadratická chyba skutečných hodnot.

  • Střední chyba nula jedna (MZOE) označuje, jestli byla předpověď správná nebo ne. Jinými slovy: ZeroOneLoss(x,y) = 1 když x!=y; jinak 0.

  • Koeficient stanovení, často označovaný jako R2, představuje prediktivní výkon modelu jako hodnotu v rozmezí 0 až 1. Nula znamená, že model je náhodný (vysvětluje nic); 1 znamená, že tam je perfektní fit. Při interpretaci hodnot R2 byste však měli být opatrní, protože nízké hodnoty mohou být zcela normální a vysoké hodnoty mohou být podezřelé.

Metriky pro modely clusteringu

Vzhledem k tomu, že se modely clusteringu výrazně liší od klasifikačních a regresních modelů v mnoha ohledech, vrátí funkce Evaluate Model také jinou sadu statistik pro modely clusteringu.

Statistiky vrácené pro clusteringový model popisují, kolik datových bodů bylo přiřazeno ke každému clusteru, množství oddělení mezi clustery a jak úzce jsou datové body rozdělené do jednotlivých clusterů.

Statistiky pro model clusteringu se průměrují po celé datové sadě s dalšími řádky obsahujícími statistiky na cluster.

Například následující výsledky ukazují část výsledků z ukázkového experimentu, který seskupuje data v datové sadě PIMA Indian Diabetes Binary Classification, která je dostupná v Machine Learning Studiu (classic).

Popis výsledku Průměrná vzdálenost ke středu clusteru Průměrná vzdálenost k jinému centru Počet bodů Maximální vzdálenost ke středu clusteru
Kombinované vyhodnocení 55.915068 169.897505 538 303.545166
Vyhodnocení clusteru č.0 0 1 570 0
Vyhodnocení clusteru č. 1 0 1 178 0
Vyhodnocení clusteru č. 2 0 1 178 0

Z těchto výsledků získáte následující informace:

  • Modul Uklidit clustering vytvoří několik modelů clusteringu , které jsou uvedeny v pořadí přesnosti. Pro jednoduchost jsme zde ukázali pouze nejlépe hodnocený model. Modely se měří pomocí všech možných metrik, ale modely jsou seřazené pomocí zadané metriky. Pokud jste metriku změnili, může být jiný model seřazený výš.

  • Skóre kombinovaného vyhodnocení v horní části jednotlivých částí výsledků uvádí průměrné skóre pro clustery vytvořené v daném modelu.

    K tomuto nejlépe hodnoceného modelu došlo k vytvoření tří clusterů; Jiné modely můžou vytvářet dva clustery nebo čtyři clustery. Toto kombinované skóre hodnocení vám proto pomůže porovnat modely s různým počtem clusterů.

  • Skóre ve sloupci Average Distance to Cluster Center (Průměrná vzdálenost do centra clusteru) představují blízkost všech bodů v clusteru k centroidu daného clusteru.

  • Skóre ve sloupci Average Distance to Other Center (Průměrná vzdálenost do jiného centra) představují, jak blízko je v průměru každý bod v clusteru na centroidy všech ostatních clusterů.

    K měření této vzdálenosti můžete zvolit libovolnou ze čtyř metrik, ale všechna měření musí používat stejnou metriku.

  • Sloupec Počet bodů ukazuje, kolik datových bodů bylo přiřazeno každému clusteru, spolu s celkovým celkovým počtem datových bodů v libovolném clusteru.

    Pokud je počet datových bodů přiřazených ke clusterům menší než celkový počet dostupných datových bodů, znamená to, že datové body nelze přiřadit ke clusteru.

  • Skóre ve sloupci Maximální vzdálenost ke středu clusteru představují součet vzdáleností mezi jednotlivými body a centroidem clusteru daného bodu.

    Pokud je toto číslo vysoké, může to znamenat, že cluster je široce rozptýlený. Tuto statistiku byste měli zkontrolovat společně s průměrnou vzdáleností do centra clusteru a určit rozložení clusteru.

Příklady

Příklady, jak generovat, vizualizovat a interpretovat metriky vyhodnocení, najdete v těchto ukázkových experimentech v galerii Azure AI. Tyto experimenty ukazují, jak sestavit více modelů a pomocí funkce Vyhodnotit model určit, který model je nejlepší.

Očekávané vstupy

Název Typ Description
Datová sada s skóre Tabulka dat Datová sada s skóre
Výsledná datová sada pro porovnání Tabulka dat Datová sada s skóre pro porovnání (volitelné)

Výstupy

Název Typ Description
Výsledky vyhodnocení Tabulka dat Výsledek vyhodnocení dat

Výjimky

Výjimka Description
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů je null nebo prázdný.
Chyba 0013 K výjimce dochází v případě, že předaný modulu má neplatný typ.
Chyba 0020 K výjimce dochází, pokud je počet sloupců v některých datových sadách předaných modulu příliš malý.
Chyba 0021 K výjimce dochází, pokud je počet řádků v některých datových sadách předaných modulu příliš malý.
Chyba 0024 K výjimce dochází v případě, že datová sada neobsahuje sloupec popisku.
Chyba 0025 K výjimce dochází, pokud datová sada neobsahuje sloupec skóre.

Viz také

Křížové ověření modelu
Vyhodnocení doporučovacího systému
Vyhodnotit
Určení skóre modelu