Utvärderingsmått för arbetsflödesmodeller för orkestrering
Datamängden är uppdelad i två delar: en uppsättning för träning och en uppsättning för testning. Träningsuppsättningen används för att träna modellen, medan testuppsättningen används som ett test för modell efter träning för att beräkna modellens prestanda och utvärdering. Testuppsättningen introduceras inte i modellen genom träningsprocessen för att se till att modellen testas på nya data.
Modellutvärdering utlöses automatiskt när träningen har slutförts. Utvärderingsprocessen börjar med att använda den tränade modellen för att förutsäga användardefinierade avsikter för yttranden i testuppsättningen och jämför dem med de angivna taggarna (som upprättar en baslinje för sanning). Resultaten returneras så att du kan granska modellens prestanda. För utvärdering använder orkestreringsarbetsflödet följande mått:
Precision: Mäter hur exakt/exakt din modell är. Det är förhållandet mellan de korrekt identifierade positiva identifieringarna (sanna positiva identifieringar) och alla identifierade positiva identifieringar. Precisionsmåttet visar hur många av de förutsagda klasserna som är korrekt märkta.
Precision = #True_Positive / (#True_Positive + #False_Positive)
Kom ihåg: Mäter modellens förmåga att förutsäga faktiska positiva klasser. Det är förhållandet mellan de förutsagda sanna positiva och vad som faktiskt taggades. Återkallningsmåttet visar hur många av de förutsagda klasserna som är korrekta.
Recall = #True_Positive / (#True_Positive + #False_Negatives)
F1-poäng: F1-poängen är en funktion av Precision och Recall. Det behövs när du söker en balans mellan Precision och Recall.
F1 Score = 2 * Precision * Recall / (Precision + Recall)
Precision, träffsäkerhet och F1-poäng beräknas för:
- Varje avsikt separat (utvärdering på avsiktsnivå)
- För modellen kollektivt (utvärdering på modellnivå).
Definitionerna av precision, återkallande och utvärdering är desamma för utvärderingar på avsiktsnivå och modellnivå. Antalet sanna positiva identifieringar, falska positiva identifieringar och falska negativa värden kan dock variera. Tänk till exempel på följande text.
Exempel
- Gör ett svar med tack så mycket
- Ring min vän
- Hello (Hej)
- God morgon
Det här är avsikterna som används: CLUEmail och Greeting
Modellen kan göra följande förutsägelser:
Yttrande | Förutsagd avsikt | Faktisk avsikt |
---|---|---|
Gör ett svar med tack så mycket | CLUEmail | CLUEmail |
Ring min vän | Hälsning | CLUEmail |
Hello (Hej) | CLUEmail | Hälsning |
Goodmorning | Hälsning | Hälsning |
Utvärdering av avsiktsnivå för CLUEmail-avsikt
Nyckel | Antal | Förklaring |
---|---|---|
Sann positiv händelse | 1 | Yttrande 1 förutsades korrekt som CLUEmail. |
Falsk positiv | 1 | Yttrande 3 förutsades felaktigt som CLUEmail. |
Falsk negativ händelse | 1 | Yttrande 2 förutsades felaktigt som Hälsning. |
Precision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Komma ihåg = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Utvärdering på avsiktsnivå för avsikten Hälsning
Nyckel | Antal | Förklaring |
---|---|---|
Sann positiv händelse | 1 | Yttrande 4 förutsades korrekt som Hälsning. |
Falsk positiv | 1 | Yttrande 2 förutsades felaktigt som Hälsning. |
Falsk negativ händelse | 1 | Yttrande 3 förutsades felaktigt som CLUEmail. |
Precision = #True_Positive / (#True_Positive + #False_Positive) = 1 / (1 + 1) = 0.5
Komma ihåg = #True_Positive / (#True_Positive + #False_Negatives) = 1 / (1 + 1) = 0.5
F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Utvärdering på modellnivå för den kollektiva modellen
Nyckel | Antal | Förklaring |
---|---|---|
Sann positiv händelse | 2 | Summan av TP för alla avsikter |
Falsk positiv | 2 | Summa av FP för alla avsikter |
Falsk negativ händelse | 2 | Summa av FN för alla avsikter |
Precision = #True_Positive / (#True_Positive + #False_Positive) = 2 / (2 + 2) = 0.5
Komma ihåg = #True_Positive / (#True_Positive + #False_Negatives) = 2 / (2 + 2) = 0.5
F1-poäng = 2 * Precision * Recall / (Precision + Recall) = (2 * 0.5 * 0.5) / (0.5 + 0.5) = 0.5
Förvirringsmatris
En förvirringsmatris är en N x N-matris som används för utvärdering av modellprestanda, där N är antalet avsikter. Matrisen jämför de faktiska taggarna med taggarna som förutsägs av modellen. Detta ger en holistisk vy över hur bra modellen presterar och vilka typer av fel den gör.
Du kan använda matrisen Förvirring för att identifiera avsikter som är för nära varandra och ofta misstas (tvetydighet). I det här fallet bör du överväga att slå samman dessa avsikter. Om det inte är möjligt kan du överväga att lägga till fler taggade exempel på båda avsikterna för att hjälpa modellen att skilja mellan dem.
Du kan beräkna utvärderingsmåtten på modellnivå från förvirringsmatrisen:
- Modellens verkliga positiva resultat är summan av sanna positiva identifieringar för alla avsikter.
- Modellens falska positiva resultat är summan av falska positiva identifieringar för alla avsikter.
- Modellens falska negativa är summan av falska negativa för alla avsikter.