Bewerten Sie Ihr ML.NET-Modell mit Metriken

Artikel
12/31/2024

Verstehen Sie die Metriken, die zum Auswerten eines ML.NET-Modells verwendet werden.

Auswertungsmetriken sind spezifisch für die Art der machine Learning-Aufgabe, die ein Modell ausführt.

Beispielsweise wird für den Klassifizierungsvorgang das Modell ausgewertet, indem gemessen wird, wie gut eine vorhergesagte Kategorie mit der tatsächlichen Kategorie übereinstimmt. Und für die Clustererstellung basiert die Auswertung darauf, wie nah gruppierte Elemente miteinander liegen und wie viel Trennung zwischen den Clustern besteht.

Auswertungsmetriken für binäre Klassifizierung

Metriken	Beschreibung	Suchen nach
Genauigkeit	Genauigkeit ist der Anteil der richtigen Vorhersagen mit einem Testdatensatz. Es ist das Verhältnis der Anzahl der korrekten Vorhersagen zur Gesamtzahl der Eingabebeispiele. Es funktioniert gut, wenn es eine ähnliche Anzahl von Proben gibt, die zu jeder Klasse gehören.	Je näher an 1,00, desto besser. Aber ein Wert von genau 1,00 zeigt ein Problem an (häufig: Bezeichnung-Ziel-Verlust, Überanpassung oder Test mit Trainingsdaten). Wenn die Testdaten unausgewogen sind (das heißt, dass die meisten Instanzen einer der Klassen zugeordnet sind), der Datensatz klein ist oder sich die Bewertungen 0,00 oder 1,00 nähern, dann spiegelt die Genauigkeit die Effektivität eines Klassifizierers nicht wirklich wider, und es ist notwendig, zusätzliche Metriken zu überprüfen.
AUC	aucROC oder Area under the curve (Fläche unter der Kurve) ist die Messung der Fläche unter der Kurve, die durch Abgleichen der True Positive-Rate mit der False Positive-Rate generiert wird.	Je näher an 1,00, desto besser. Es sollte größer als 0,50 sein, damit ein Modell akzeptabel ist. Ein Modell mit AUC von 0,50 oder weniger ist wertlos.
AUCPR	aucPR oder Area under a Precision-Recall curve (Fläche unter der Precision-Recall-Kurve): Ein nützliches Maß für den Erfolg der Vorhersage, wenn die Klassen unausgewogen sind (stark verzerrte Datasets).	Je näher an 1,00, desto besser. Hohe Werte nahe 1,00 zeigen, dass der Klassifikator sowohl genaue Ergebnisse (hohe Präzision) und einen Großteil aller positiven Ergebnisse zurückgibt (hohe Wiedererkennung).
F1-score	F1-score auch bezeichnet als „balanced F-score“ oder F-Maß. Dies ist das harmonische Mittel zwischen Präzision und Wiedererkennung. F1 Score ist hilfreich, wenn das Verhältnis zwischen Präzision und Wiedererkennung ausgeglichen sein soll.	Je näher an 1,00, desto besser. Ein F1-Wert erreicht seinen besten Wert bei 1,00 und dem schlechtesten Wert bei 0,00. Sie erfahren, wie präzise Ihr Klassifizierungsmodell ist.

Weitere Informationen zu binären Klassifizierungsmetriken finden Sie in den folgenden Artikeln:

Accuracy, Precision, Recall or F1? (Genauigkeit, Präzision, Wiedererkennung oder F1?)
Binary Classification Metrics class (Metrikklassen für die binäre Klassifizierung)
Die Beziehung zwischen Precision-Recall und ROC-Kurven

Auswertungsmetriken für die Mehrklassenklassifizierung und Textklassifizierung

Maßeinheiten	Beschreibung	Suchen nach
Micro-Accuracy (Mikrogenauigkeit)	Die durchschnittliche Mikrogenauigkeit aggregiert die Beiträge aller Klassen zur Berechnung der durchschnittlichen Metrik. Es ist der Anteil der korrekt vorhergesagten Instanzen. Der Mikrodurchschnitt berücksichtigt keine Klassenmitgliedschaft. Jedes Beispiel/Klasse-Paar trägt grundsätzlich zu gleichen Teilen zur Genauigkeitsmetrik bei.	Je näher an 1,00, desto besser. Bei einer Mehrklassenklassifizierungsaufgabe ist die Mikrogenauigkeit gegenüber der Makrogenauigkeit vorzuziehen, wenn Sie vermuten, dass es ein Klassenungleichgewicht gibt (d. h. Sie haben möglicherweise viele weitere Beispiele für eine Klasse als für andere Klassen).
Macro-Accuracy (Makrogenauigkeit)	Makrodurchschnittliche Genauigkeit ist die durchschnittliche Genauigkeit auf der Ebene der Klassen. Die Genauigkeit für jede Klasse wird berechnet, und die Makrogenauigkeit ist der Mittelwert dieser Genauigkeiten. Grundsätzlich trägt jede Klasse gleichermaßen zur Genauigkeitsmetrik bei. Minderheitenklassen werden gleich stark gewichtet wie die größeren Klassen. Die Metrik für den Makrodurchschnitt weist jeder Klasse die gleiche Gewichtung zu, unabhängig davon, wie viele Instanzen aus dieser Klasse das Dataset enthält.	Je näher an 1,00, desto besser. Sie berechnet die Metrik unabhängig für jede Klasse und übernimmt dann den Mittelwert (daher werden alle Klassen gleichmäßig behandelt).
Log-loss (Protokollverlust)	Logarithmischer Verlust misst die Leistung eines Klassifizierungsmodells, bei dem die Vorhersageeingabe ein Wahrscheinlichkeitswert zwischen 0,00 und 1,00 ist. Der Wert steigt, wenn die vorhergesagte Wahrscheinlichkeit von der tatsächlichen Bezeichnung abweicht.	Je näher an 0,00, desto besser. Ein perfektes Modell hätte einen Protokollverlust von 0,00. Ziel der Machine Learning-Modelle ist es, diesen Wert zu minimieren.
Log-Loss Reduction (Reduzierung des Protokollverlusts)	Logarithmische Verlustreduzierung kann als Vorteil des Klassifizierers über eine zufällige Vorhersage interpretiert werden.	Liegt zwischen [-inf, 1.00], wobei „1.00“ perfekte Vorhersagen und „0.00“ durchschnittliche Vorhersagen bedeutet. Wenn der Wert beispielsweise 0,20 beträgt, kann dies als "die Wahrscheinlichkeit einer richtigen Vorhersage ist 20% besser als zufälliges Raten" interpretiert werden.

Die Mikrogenauigkeit ist in der Regel besser an die Geschäftsanforderungen von ML-Vorhersagen ausgerichtet. Wenn Sie eine einzelne Metrik für die Auswahl der Qualität einer Multiklassen-Klassifizierungsaufgabe auswählen möchten, sollte dies in der Regel die Mikro-Genauigkeit sein.

Beispiel für eine Aufgabe zur Klassifizierung von Supporttickets: (ordnet eingehende Tickets den Support-Teams zu)

Genauigkeit auf Mikroebene – wie oft wird ein eingehendes Ticket dem richtigen Team zugewiesen?
Makrogenauigkeit: Wie oft ist ein eingehendes Ticket das richtige Ticket für das Team (gilt für ein durchschnittliches Team)?

Makrogenauigkeit übergewichtet kleine Teams in diesem Beispiel; ein kleines Team, das pro Jahr nur 10 Tickets erhält, zählt so viel wie ein großes Team mit 10k Tickets pro Jahr. Die Mikrogenauigkeit in diesem Fall korreliert besser mit dem Geschäftlichen Bedarf: "Wie viel Zeit/Geld kann das Unternehmen sparen, indem mein Ticketweiterleitungsprozess automatisiert wird".

Weitere Informationen zu Klassifizierungsmetriken mit mehreren Klassen finden Sie in den folgenden Artikeln:

Micro- and Macro-average of Precision, Recall and F-Score (Mikro- und Makrodurchschnitt von Präzision, Wiedererkennung und F-Score)
Multiklassenklassifizierung mit unausgewogenem Dataset

Auswertungsmetriken für Regression und Empfehlung

Sowohl die Regressions- als auch die Empfehlungsaufgaben prognostizieren eine Zahl. Bei Regression kann es sich bei der Zahl um eine beliebige Ausgabeeigenschaft handeln, die von den Eingabeeigenschaften beeinflusst wird. Bei Empfehlung ist die Zahl in der Regel ein Bewertungswert (z. B. zwischen 1 und 5), oder eine Ja/Nein-Empfehlung (dargestellt durch 1 bzw. 0).

Metrik	Beschreibung	Suchen nach
R-Squared (Bestimmtheitsmaß)	R-squared (R2) (Bestimmtheitsmaß R2) oder Coefficient of determination (Bestimmungskoeffizient) stellt die Vorhersageleistung des Modells als Wert zwischen „-inf“ und „1,00“ dar. 1,00 bedeutet, dass es eine perfekte Übereinstimmung gibt, und die Übereinstimmung kann beliebig schlecht sein, sodass die Punktzahlen negativ sein können. Ein Score von 0,00 bedeutet, dass das Modell den erwarteten Wert für die Bezeichnung schätzt. Ein negativer R2-Wert zeigt an, dass die Anpassung dem Trend der Daten nicht folgt und das Modell schlechter abschneidet als zufällige Vermutungen. Dies ist nur mit nicht linearen Regressionsmodellen oder eingeschränkter linearer Regression möglich. R2 misst, wie nahe die tatsächlichen Testdatenwerte den vorhergesagten Werten entsprechen.	Je näher der Wert an 1,00 liegt, desto besser ist die Qualität des Modells. Manchmal können jedoch niedrige R-Quadratwerte (z. B. 0,50) für Ihr Szenario ganz normal oder gut genug sein, und hohe R-Quadratwerte sind nicht immer gut und sind verdächtig.
Absolute-loss (Absoluter Verlust)	Absolute-loss oder Mean absolute error (MAE) (Mittlerer absoluter Fehler) misst, wie nah die Vorhersagen an den tatsächlichen Ergebnissen liegen. Dabei handelt es sich um den Mittelwert aller Modellfehler, wobei der Modellfehler der absolute Abstand zwischen dem vorhergesagten Bezeichnungswert und dem richtigen Bezeichnungswert ist. Dieser Vorhersagefehler wird für jeden Datensatz des Testdatasets berechnet. Schließlich wird der Mittelwert für alle aufgezeichneten absoluten Fehler berechnet.	Je näher an 0,00, umso besser die Qualität. Der mittlere absolute Fehler verwendet die gleiche Skalierung wie die gemessenen Daten (wird nicht auf einen bestimmten Bereich normalisiert). Absolutverlust, Quadratischer Verlust und RMS-Verlust können nur verwendet werden, um Vergleiche zwischen Modellen für denselben Datensatz oder einen Datensatz mit einer ähnlichen Labelwertverteilung anzustellen.
Squared-loss (Quadratischer Verlust)	Squared-loss or Mean Squared Error (MSE), auch Mean Squared Deviation (MSD) (Mittlere quadratische Abweichung) genannt, gibt an, wie nahe eine Regressionslinie an einer Reihe von Testdatenwerten liegt, indem die Abstände der Punkte zur Regressionslinie (diese Abstände sind die Fehler E) ermittelt und quadriert werden. Durch das Quadrieren wird größeren Unterschieden eine höhere Gewichtung zugewiesen.	Der Wert ist immer nicht negativ, und Werte, die näher an 0,00 liegen, sind besser. Je nach Ihren Daten kann es unmöglich sein, einen sehr kleinen Wert für den mittleren Quadratfehler zu erhalten.
RMS-loss (RMS-Verlust)	RMS-loss (RMS-Verlust) oder Root Mean Squared Error (RMSE) (Wurzel aus dem mittleren quadratischen Fehler), auch als Root Mean Square Deviation, RMSD (Wurzel aus der mittleren quadratischen Abweichung) genannt, misst die Differenz zwischen den von einem Modell vorhergesagten Werten und den beobachteten Werten aus der zu modellierenden Umgebung. „RMS-loss“ ist die Quadratwurzel von „Squared-loss“ und verwendet, ähnlich wie „Absolute-loss“ dieselben Einheiten wie die Bezeichnung, weist jedoch größeren Unterschieden mehr Gewichtung zu. Der wurzelmittlere quadratische Fehler wird häufig in der Klimatologie, bei Vorhersagen und in der Regressionsanalyse verwendet, um experimentelle Ergebnisse zu überprüfen.	Der Wert ist immer nicht negativ, und Werte, die näher an 0,00 liegen, sind besser. RMSD ist ein Maß für Genauigkeit, um Prognosefehler verschiedener Modelle für einen bestimmten Datensatz und nicht zwischen Datensätzen zu vergleichen, da es skalierungsabhängig ist.

Weitere Informationen zu Regressionsmetriken finden Sie in den folgenden Artikeln:

Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit? (Regressionsanalyse: Interpretieren von „R-squared“ und Bewerten der Anpassungsgüte)
So interpretieren Sie R-Quadrat in der Regressionsanalyse
R-Squared Definition (R-Squared-Definition)
Der Bestimmungskoeffizienten und die Annahmen linearer Regressionsmodelle
Mean Squared Error Definition (Definition des mittleren quadratischen Fehlers)
What are Mean Squared Error and Root Mean Squared Error? (Was sind der mittlere quadratische Fehler und die Wurzel aus dem mittleren quadratischen Fehler?)

Auswertungsmetriken für Clustering

Metrik	Beschreibung	Suchen nach
Durchschnittliche Entfernung	Durchschnitt des Abstands zwischen Datenpunkten und der Mitte des zugewiesenen Clusters. Der durchschnittliche Abstand ist ein Maß für die Nähe der Datenpunkte zu den Clusterzentroiden. Es ist ein Maß dafür, wie eng der Cluster ist.	Werte, die näher an 0 liegen, sind besser. Je näher null der durchschnittliche Abstand liegt, desto mehr gruppiert sind die Daten. Beachten Sie jedoch, dass diese Metrik verringert wird, wenn die Anzahl der Cluster erhöht wird, und im extremen Fall (in dem jeder unterschiedliche Datenpunkt ein eigener Cluster ist) er gleich Null ist.
Davies-Bouldin-Index	Das durchschnittliche Verhältnis von innerhalb der Cluster liegenden Abständen zu zwischen den Clustern liegenden Abständen. Je enger der Cluster ist, und je weiter auseinander die Cluster sind, desto niedriger ist dieser Wert.	Werte, die näher an 0 liegen, sind besser. Cluster, die weiter auseinander liegen und weniger verteilt sind, führen zu einer besseren Bewertung.
Normalized Mutual Information (normalisierte Transinformation)	Kann verwendet werden, wenn die Trainingsdaten, mit denen das Clusteringmodell trainiert wird, auch mit Ground Truth-Bezeichnungen versehen sind (d. h. überwachtes Clustering). Die Metrik "Normalisierte wechselseitige Information" misst, ob ähnliche Datenpunkte demselben Cluster und unterschiedliche Datenpunkte verschiedenen Clustern zugewiesen werden. „Normalized Mutual Informationen“ ist ein Wert zwischen 0 und 1.	Werte, die näher an 1 liegen, sind besser.

Auswertungsmetriken für Rangfolge

Metrik	Beschreibung	Suchen nach
Discounted Cumulative Gains (diskontierte kumulative Zuwächse)	Discounted Cumulative Gain (DCG) ist ein Maß für Rangfolgequalität. Sie wird von zwei Annahmen abgeleitet. Eine: Hoch relevante Elemente sind nützlicher, wenn sie in der Rangfolge höher angezeigt werden. Zwei: Die Nützlichkeit bemisst sich nach der Relevanz, das heißt, je höher die Relevanz, desto nützlicher ist ein Gegenstand. Der diskontierte kumulierte Gewinn wird für eine bestimmte Position in der Rangfolge berechnet. Die Metrik summiert die Relevanzbewertung, dividiert durch den Logarithmus des Rangfolgeindexes bis zur gewünschten Position. Die Berechnung erfolgt mit $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$. Relevanzgrade werden einem Rangfolge-Trainingsalgorithmus als Ground Truth-Bezeichnungen zur Verfügung gestellt. Ein DCG-Wert wird für jede Position in der Rangfolgetabelle bereitgestellt, daher der Name „Discounted Cumulative Gains“.	Höhere Werte sind besser.
Normalized Discounted Cumulative Gains (normalisierte diskontierte kumulative Zuwächse)	Die Normalisierung von DCG ermöglicht es, die Metrik für Rangfolgenlisten unterschiedlicher Längen zu vergleichen.	Werte, die näher an 1 liegen, sind besser.

Bewertungsmetriken für die Anomalieerkennung

Metrik	Beschreibung	Suchen nach
Bereich unter ROC-Kurve	Der Bereich unter der Empfängeroperatorkurve misst, wie gut das Modell anomale und übliche Datenpunkte trennt.	Werte, die näher an 1 liegen, sind besser. Nur Werte, die größer als 0,5 sind, belegen die Effektivität des Modells. Die Werte von 0,5 oder darunter deuten darauf hin, dass das Modell nicht besser ist als zufällig die Eingaben anomale und übliche Kategorien zuzuordnen.
Detection Rate At False Positive Count (Erkennungsrate bei falsch positiver Anzahl)	Die Erkennungsrate bei falsch positiver Anzahl ist das Verhältnis zwischen der Anzahl der richtig identifizierten Anomalien und der Gesamtzahl der Anomalien in einem Testsatz, indiziert durch die einzelnen falsch positiven Elemente. Das heißt, es gibt einen Wert für die Erkennungsrate bei falscher positiver Anzahl für jedes falsch positive Element.	Werte, die näher an 1 liegen, sind besser. Wenn keine falsch positiven Ergebnisse vorhanden sind, ist dieser Wert 1.

Bewertungsmetriken für Satzähnlichkeit

Metrik	Beschreibung	Suchen nach
Pearson Correlation (Pearson-Korrelation)	Pearson-Korrelation, auch als Korrelationskoeffizient bezeichnet, misst die Abhängigkeit oder Beziehung zwischen zwei Datensätzen.	Absolute Werte näher an 1 sind am ähnlichsten. Diese Metrik reicht von -1 bis 1. Ein Absoluter Wert von 1 impliziert, dass die Datasets identisch sind. Ein Wert von 0 impliziert, dass keine Beziehung zwischen den beiden Datensätzen besteht.

Freigeben über