Nuancen von Testsätzen
Die Verwendung von Testsätzen gilt für die meisten Aspekte des maschinellen Lernens als bewährte Methode, obwohl das Feld noch relativ neu ist, sodass das genaue Wie und Wann häufig diskutiert wird. Im Folgenden werden einige zu berücksichtigende Aspekte erläutert.
Testsätze können irreführend sein
Obwohl Testsätze hilfreich sind, um Übertraining zu erkennen, können sie uns falsches Vertrauen vermitteln. Vor allem sind Testsätze nur nützlich, wenn sie Daten widerspiegeln, die wir in der Praxis erwarten. Unser Testsatz ist beispielsweise sehr klein und nicht repräsentativ für die Vielzahl von Daten, die uns wahrscheinlich in der Praxis begegnen. Testdatasets sind auch nur so gut wie ihre Quelle. Wenn unser Testdataset aus einer unausgewogenen Quelle stammt, spiegeln unsere Metriken nicht die Realität wider.
Nehmen wir beispielsweise an, dass wir versuchen, die Beziehung zwischen der Anzahl der Rettungsaktionen und dem Alter zu ermitteln, in dem das Training eines Hundes begonnen hat. Wenn unser Testsatz nur aus drei Hunden besteht, ist es möglich, dass diese Hunde keine gute Repräsentation der vielen verschiedenen Arbeitshunde in der realen Welt darstellen. Stellen Sie sich außerdem vor, dass wir unseren Testsatz von einem einzigen Züchter erhalten, der keine Erfahrung im Umgang mit Welpen hat. Unser Modell könnte vorhersagen, dass ältere Hunde am besten trainiert werden können, und unser Testdataset würde dies bestätigen, obwohl andere Trainer in Wirklichkeit enormen Erfolg mit jüngeren Tieren haben könnten.
Testsätze sind nicht frei verfügbar
Wir haben bereits Folgendes festgestellt: Je mehr Trainingsdaten uns vorliegen, desto geringer ist die Wahrscheinlichkeit, dass es zu einer Überanpassung unseres Modells kommt. Und je größer die Testsätze sind, desto mehr glauben wir, dass wir unseren Testergebnissen vertrauen können. In der Regel arbeiten wir jedoch mit begrenzten Datenmengen, und ein Datenpunkt kann nicht sowohl im Trainings- als auch im Testsatz enthalten sein. Das bedeutet, dass wir mit größeren Testsätzen kleinere Trainingsdatasets erhalten und umgekehrt. Auf wie viele Daten im Testdataset verzichtet werden sollte, hängt von den individuellen Umständen ab. Je nach Umfang der verfügbaren Daten sind Werte zwischen 10–50% relativ üblich.
Trainieren und Testen ist nicht der einzige Ansatz
Denken Sie daran, dass der Ansatz „Trainieren und Testen“ zwar gängig, aber nicht der einzige häufig verwendete Ansatz ist. Zwei der gebräuchlichsten Alternativen sind der Holdout-Ansatz und der statistische Ansatz.
Der Holdout-Ansatz
Der Holdout-Ansatz ähnelt dem Ansatz „Trainieren und Testen“, aber statt ein Dataset in zwei Teile aufzuteilen, wird es in drei Teile aufgeteilt: Training, Test (auch als Validierung bezeichnet) und Holdout. Die Trainings- und Testdatasets entsprechen der obigen Beschreibung. Das Holdout-Dataset ist eine Art Testsatz, der nur einmal verwendet wird, wenn das Modell für die Bereitstellung in der Praxis bereit ist. Anders ausgedrückt: Es wird erst verwendet, wenn wir mit verschiedenen Arten von Trainingsmethoden, verschiedenen Modellen usw. experimentiert haben.
Bei diesem Ansatz wird berücksichtigt, dass wir in der Regel mit verschiedenen Modellen und Trainingsmethoden experimentieren. Wir passen z. B. ein Modell an, stellen fest, dass es mit dem Testdataset nicht gut funktioniert, ändern einige Aspekte des trainierten Modells und versuchen es erneut, bis wir ein gutes Ergebnis erhalten. Das bedeutet, dass wir unser Modell gezielt so ändern, dass es für einen bestimmten Satz von Daten funktioniert, genau wie beim normalen Training mit dem Trainingsdataset. Dadurch kann ein Modell entstehen, das im Grunde genommen zu stark trainiert ist, um für unser Testdataset zu funktionieren.
Die Idee eines dritten Datasets ist, dass wir auch dieses testen können. Bei diesem Ansatz werden die Daten in drei Teile aufgeteilt, was bedeutet, dass wir mit noch weniger Trainingsdaten beginnen. Wenn wir nicht über viele Daten verfügen, mit denen wir arbeiten können, kann dieser Ansatz unsere Fähigkeit einschränken, ein gutes Modell zu erhalten.
Statistische Ansätze
Einfachere Modelle, die ihren Ursprung in der Statistik haben, benötigen häufig keine Testdatasets. Stattdessen kann der Grad der Überanpassung des Modells direkt als statistische Signifikanz berechnet werden: als p-Wert.
Diese statistischen Methoden sind leistungsstark, gut etabliert und bilden die Grundlage der modernen Wissenschaft. Der Vorteil liegt darin, dass der Trainingssatz nie aufgeteilt werden muss und wir eine sehr viel genauere Vorstellung davon bekommen, wie zuverlässig ein Modell arbeitet. Ein p-Wert von 0,01 bedeutet beispielsweise, dass die Wahrscheinlichkeit sehr gering ist, dass unser Modell eine Beziehung ermittelt hat, die in der Praxis nicht vorhanden ist. Im Gegensatz dazu bedeutet ein p-Wert von 0,5, dass unser Modell zwar mit unseren Trainingsdaten gut abschneidet, in der Praxis aber keine besseren Ergebnisse liefert als beim Werfen einer Münze.
Der Nachteil dieser Ansätze ist, dass sie nur auf bestimmte Modelltypen einfach angewendet werden können, z. B. auf die linearen Regressionsmodelle, mit denen wir gearbeitet haben. Für alle außer den einfachsten Modellen kann die ordnungsgemäße Durchführung dieser Berechnungen äußerst komplex sein, sodass sie den Rahmen des aktuellen Kurses sprengen würden. Sie unterliegen außerdem der gleichen Einschränkung im Hinblick auf die Datenauswahl. Wenn unsere Trainingsdaten unausgewogen sind, führt dies zu irreführenden p-Werten.