Metriky vyhodnocení pro modely pracovních postupů orchestrace

Článek
11/21/2024

Datová sada je rozdělená na dvě části: sadu pro trénování a sadu pro testování. Trénovací sada se používá k trénování modelu, zatímco testovací sada se používá jako test modelu po trénování k výpočtu výkonu a vyhodnocení modelu. Testovací sada se do modelu nevejde prostřednictvím trénovacího procesu, aby se zajistilo, že je model testován na nových datech.

Vyhodnocení modelu se aktivuje automaticky po úspěšném dokončení trénování. Proces vyhodnocení začíná použitím natrénovaného modelu k predikci záměrů definovaných uživatelem v testovací sadě a porovná je s poskytnutými značkami (které stanoví směrný plán pravdy). Výsledky se vrátí, abyste mohli zkontrolovat výkon modelu. Pracovní postup orchestrace pro vyhodnocení používá následující metriky:

Přesnost: Měří, jak přesný/přesný model je. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Precision = #True_Positive / (#True_Positive + #False_Positive)
Úplnost: Měří schopnost modelu předpovědět skutečné kladné třídy. Jedná se o poměr mezi predikovanými pravdivě pozitivními výsledky a skutečným příznakem. Metrika úplnosti ukazuje, kolik predikovaných tříd je správné.

Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1 skóre: Skóre F1 je funkce přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.

F1 Score = 2 * Precision * Recall / (Precision + Recall)

Skóre přesnosti, úplnosti a F1 se vypočítá pro:

Každý záměr samostatně (vyhodnocení na úrovni záměru)
Pro model souhrnně (vyhodnocení na úrovni modelu)

Definice přesnosti, úplnosti a vyhodnocení jsou stejné pro vyhodnocení na úrovni záměru a na úrovni modelu. Počty pravdivě pozitivních výsledků, falešně pozitivních výsledků a falešně negativních výsledků se ale můžou lišit. Představte si například následující text.

Příklad

Udělejte odpověď s poděkováním velmi
Zavolejte mému příteli
Hello (Nazdar)
Dobré ráno

Toto jsou použité záměry: CLUEmail a Greeting

Model by mohl vytvořit následující předpovědi:

Výrok	Předpovězený záměr	Skutečný záměr
Udělejte odpověď s poděkováním velmi	CLUEmail	CLUEmail
Zavolejte mému příteli	Pozdrav	CLUEmail
Hello (Nazdar)	CLUEmail	Pozdrav
Goodmorning	Pozdrav	Pozdrav

Vyhodnocení úrovně záměru pro záměr CLUEmail

Klíč	Počet	Vysvětlení
Pravdivě pozitivní	0	Promluva 1 byla správně předpovězena jako CLUEmail.
Falešně pozitivní výsledek	0	Promluva 3 byla omylem předpovězena jako CLUEmail.
Falešně negativní	0	Promluva 2 byla omylem předpovězena jako Pozdrav.

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Vyhodnocení úrovně záměru pro záměr s pozdravem

Klíč	Počet	Vysvětlení
Pravdivě pozitivní	0	Promluva 4 byla správně předpovězena jako Pozdrav.
Falešně pozitivní výsledek	0	Promluva 2 byla omylem předpovězena jako Pozdrav.
Falešně negativní	0	Promluva 3 byla omylem předpovězena jako CLUEmail.

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5

Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5

F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Vyhodnocení na úrovni modelu pro kolektivní model

Klíč	Počet	Vysvětlení
Pravdivě pozitivní	2	Součet TP pro všechny záměry
Falešně pozitivní výsledek	2	Součet FP pro všechny záměry
Falešně negativní	2	Součet FN pro všechny záměry

Přesnost = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5

Odvolat = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5

F1 Score = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5

Matice zmatku

Konfuzní matice je matice N x N používaná pro vyhodnocení výkonu modelu, kde N je počet záměrů. Matice porovnává skutečné značky se značkami predikovanými modelem. Tím získáte ucelený přehled o tom, jak dobře model funguje a jaké druhy chyb provádí.

Konfuzní matici můžete použít k identifikaci záměrů, které jsou příliš blízko sebe, a často se mýlí (nejednoznačnost). V tomto případě zvažte sloučení těchto záměrů dohromady. Pokud to není možné, zvažte přidání dalších označených příkladů obou záměrů, které modelu pomohou rozlišovat mezi nimi.

Metriky vyhodnocení na úrovni modelu můžete vypočítat z konfuzní matice:

Pravdivě pozitivní výsledek modelu je součet pravdivě pozitivních pro všechny záměry .
Falešně pozitivní výsledek modelu je součet falešně pozitivních výsledků pro všechny záměry.
Falešně negativní hodnota modelu je součet falešně negativních výsledků pro všechny záměry.

Další kroky

Trénování modelu v sadě Language Studio

Sdílet prostřednictvím

Metriky vyhodnocení pro modely pracovních postupů orchestrace

Příklad

Vyhodnocení úrovně záměru pro záměr CLUEmail

Vyhodnocení úrovně záměru pro záměr s pozdravem

Vyhodnocení na úrovni modelu pro kolektivní model

Matice zmatku

Další kroky

Váš názor

Další materiály