Verbessern Ihres ML.NET Modells

Artikel
01/29/2025

Erfahren Sie, wie Sie Ihr ML.NET Modell verbessern.

Neurahmen des Problems

Manchmal hat die Verbesserung eines Modells möglicherweise nichts mit den Daten oder Techniken zu tun, die zum Trainieren des Modells verwendet werden. Stattdessen kann es einfach sein, dass die falsche Frage gestellt wird. Betrachten Sie das Problem aus verschiedenen Blickwinkeln und nutzen Sie die Daten, um latente Indikatoren und ausgeblendete Beziehungen zu extrahieren, um die Frage zu verfeinern.

Bereitstellen weiterer Datenbeispiele

Wie beim Menschen steigt die Wahrscheinlichkeit einer besseren Leistung, je mehr Trainingsdaten die Algorithmen erhalten. Eine Möglichkeit zur Verbesserung der Modellleistung besteht darin, den Algorithmen weitere Schulungsdatenbeispiele bereitzustellen. Je mehr Daten sie lernen, desto mehr Fälle können sie richtig identifizieren.

Hinzufügen von Kontext zu den Daten

Die Bedeutung eines einzelnen Datenpunkts kann schwer zu interpretieren sein. Das Erstellen von Kontexten rund um die Datenpunkte hilft Algorithmen und Fachexperten, entscheidungen besser zu treffen. Zum Beispiel die Tatsache, dass ein Haus drei Schlafzimmer hat, gibt nicht allein einen guten Hinweis auf seinen Preis. Wenn Sie jedoch Kontext hinzufügen und jetzt wissen, dass es sich in einem Vorort außerhalb eines großen Ballungsgebiets liegt, in dem das Durchschnittsalter 38 Jahre beträgt, das durchschnittliche Haushaltseinkommen 80.000 USD beträgt und die Schulen im oberen 20. Perzentil liegen, dann hat der Algorithmus mehr Informationen, um seine Entscheidungen zu stützen. Dieser Kontext kann als Eingabe für das Machine Learning-Modell als Features hinzugefügt werden.

Verwenden aussagekräftiger Daten und Features

Obwohl mehr Datenbeispiele und Features dazu beitragen können, die Genauigkeit des Modells zu verbessern, können sie auch Rauschen verursachen, da nicht alle Daten und Features aussagekräftig sind. Daher ist es wichtig zu verstehen, welche Features diejenigen sind, die sich am stärksten auf Entscheidungen des Algorithmus auswirken. Die Verwendung von Techniken wie Permutation Feature Importance (PFI) kann dazu beitragen, diese salienten Merkmale zu identifizieren und nicht nur das Modell zu erläutern, sondern auch die Ausgabe als Auswahlmethode für Merkmale zu verwenden, um die Menge an rauschenden Merkmalen zu reduzieren, die in den Schulungsprozess eingehen.

Weitere Informationen zur Verwendung von PFI finden Sie unter Erläutern von Modellvorhersagen mithilfe der Wichtigkeit der Permutationsfunktion.

Vergleichsprüfung

Cross-Validation ist eine Schulungs- und Modellbewertungstechnik, die die Daten in mehrere Partitionen aufteilt und mehrere Algorithmen auf diesen Partitionen trainiert. Diese Technik verbessert die Robustheit des Modells, indem Daten aus dem Schulungsvorgang aufbewahrt werden. Neben der Verbesserung der Leistung bei nicht erfassten Beobachtungen kann es in datengeschränkten Umgebungen ein effektives Tool für Schulungsmodelle mit einem kleineren Dataset sein.

Weitere Informationen finden Sie unter Verwenden der Kreuzüberprüfung in ML.NET.

Hyperparameteroptimierung

Das Training von Machine Learning-Modellen ist ein iterativer und explorativer Prozess. Was ist beispielsweise die optimale Anzahl von Clustern beim Trainieren eines Modells mit dem K-Means-Algorithmus? Die Antwort hängt von vielen Faktoren wie der Struktur der Daten ab. Wenn Sie diese Zahl ermitteln möchten, müssen Sie mit verschiedenen Werten für k experimentieren und dann die Leistung auswerten, um zu bestimmen, welcher Wert am besten ist. Die Vorgehensweise zum Optimieren der Parameter, die den Schulungsvorgang leiten, um ein optimales Modell zu finden, wird als Hyperparameteroptimierung bezeichnet.

Auswählen eines anderen Algorithmus

Machine Learning-Aufgaben wie Regression und Klassifizierung enthalten verschiedene Algorithmusimplementierungen. Es kann der Fall sein, dass das Problem, das Sie lösen möchten, und die Art und Weise, wie Ihre Daten strukturiert sind, nicht gut in den aktuellen Algorithmus passt. In diesem Fall sollten Sie einen anderen Algorithmus für Ihre Aufgabe verwenden, um festzustellen, ob sie besser aus Ihren Daten lernt.

Der folgende Link enthält weitere Anleitungen zu dem Algorithmus, derauswählen soll.

Freigeben über