Metriky vyhodnocení pro modely pracovních postupů orchestrace
Datová sada je rozdělená na dvě části: sadu pro trénování a sadu pro testování. Trénovací sada se používá k trénování modelu, zatímco testovací sada se používá jako test modelu po trénování k výpočtu výkonu a vyhodnocení modelu. Testovací sada se do modelu nevejde prostřednictvím trénovacího procesu, aby se zajistilo, že je model testován na nových datech.
Vyhodnocení modelu se aktivuje automaticky po úspěšném dokončení trénování. Proces vyhodnocení začíná použitím natrénovaného modelu k predikci záměrů definovaných uživatelem v testovací sadě a porovná je s poskytnutými značkami (které stanoví směrný plán pravdy). Výsledky se vrátí, abyste mohli zkontrolovat výkon modelu. Pracovní postup orchestrace pro vyhodnocení používá následující metriky:
Přesnost: Měří, jak přesný/přesný model je. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Úplnost: Měří schopnost modelu předpovědět skutečné kladné třídy. Jedná se o poměr mezi predikovanými pravdivě pozitivními výsledky a skutečným příznakem. Metrika úplnosti ukazuje, kolik predikovaných tříd je správné.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 skóre: Skóre F1 je funkce přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
Skóre přesnosti, úplnosti a F1 se vypočítá pro:
- Každý záměr samostatně (vyhodnocení na úrovni záměru)
- Pro model souhrnně (vyhodnocení na úrovni modelu)
Definice přesnosti, úplnosti a vyhodnocení jsou stejné pro vyhodnocení na úrovni záměru a na úrovni modelu. Počty pravdivě pozitivních výsledků, falešně pozitivních výsledků a falešně negativních výsledků se ale můžou lišit. Představte si například následující text.
Příklad
- Udělejte odpověď s poděkováním velmi
- Zavolejte mému příteli
- Hello (Nazdar)
- Dobré ráno
Toto jsou použité záměry: CLUEmail a Greeting
Model by mohl vytvořit následující předpovědi:
Výrok | Předpovězený záměr | Skutečný záměr |
---|---|---|
Udělejte odpověď s poděkováním velmi | CLUEmail | CLUEmail |
Zavolejte mému příteli | Pozdrav | CLUEmail |
Hello (Nazdar) | CLUEmail | Pozdrav |
Goodmorning | Pozdrav | Pozdrav |
Vyhodnocení úrovně záměru pro záměr CLUEmail
Klíč | Počet | Vysvětlení |
---|---|---|
Pravdivě pozitivní | 0 | Promluva 1 byla správně předpovězena jako CLUEmail. |
Falešně pozitivní výsledek | 0 | Promluva 3 byla omylem předpovězena jako CLUEmail. |
Falešně negativní | 0 | Promluva 2 byla omylem předpovězena jako Pozdrav. |
Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Vyhodnocení úrovně záměru pro záměr s pozdravem
Klíč | Počet | Vysvětlení |
---|---|---|
Pravdivě pozitivní | 0 | Promluva 4 byla správně předpovězena jako Pozdrav. |
Falešně pozitivní výsledek | 0 | Promluva 2 byla omylem předpovězena jako Pozdrav. |
Falešně negativní | 0 | Promluva 3 byla omylem předpovězena jako CLUEmail. |
Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Vyhodnocení na úrovni modelu pro kolektivní model
Klíč | Počet | Vysvětlení |
---|---|---|
Pravdivě pozitivní | 2 | Součet TP pro všechny záměry |
Falešně pozitivní výsledek | 2 | Součet FP pro všechny záměry |
Falešně negativní | 2 | Součet FN pro všechny záměry |
Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Matice zmatku
Konfuzní matice je matice N x N používaná pro vyhodnocení výkonu modelu, kde N je počet záměrů. Matice porovnává skutečné značky se značkami predikovanými modelem. Tím získáte ucelený přehled o tom, jak dobře model funguje a jaké druhy chyb provádí.
Konfuzní matici můžete použít k identifikaci záměrů, které jsou příliš blízko sebe, a často se mýlí (nejednoznačnost). V tomto případě zvažte sloučení těchto záměrů dohromady. Pokud to není možné, zvažte přidání dalších označených příkladů obou záměrů, které modelu pomohou rozlišovat mezi nimi.
Metriky vyhodnocení na úrovni modelu můžete vypočítat z konfuzní matice:
- Pravdivě pozitivní výsledek modelu je součet pravdivě pozitivních pro všechny záměry .
- Falešně pozitivní výsledek modelu je součet falešně pozitivních výsledků pro všechny záměry.
- Falešně negativní hodnota modelu je součet falešně negativních výsledků pro všechny záměry.