Aufbereiten von Daten für die benutzerdefinierte Stimmungsanalyse
Um ein benutzerdefiniertes Stimmungsanalysemodell zu erstellen, benötigen Sie Qualitätsdaten, um es zu trainieren. In diesem Artikel wird beschrieben, wie Sie Ihre Daten auswählen und aufbereiten und ein Schema definieren. Das Definieren des Schemas ist der erste Schritt im Lebenszyklus der Projektentwicklung. Dabei werden die Klassen definiert, die Sie benötigen, um Ihren Text zur Laufzeit zu klassifizieren.
Datenauswahl
Die Qualität der Daten, mit denen Sie Ihr Modell trainieren, hat großen Einfluss auf die Leistung des Modells.
Verwenden Sie echte Daten, die den Problembereich Ihrer Domäne widerspiegeln, um Ihr Modell effektiv zu trainieren. Sie können synthetische Daten verwenden, um den anfänglichen Trainingsprozess von Modellen zu beschleunigen, aber diese unterscheiden sich wahrscheinlich von Ihren realen Daten und machen Ihr Modell bei Verwendung weniger effektiv.
Gleichen Sie Ihre Datenverteilung so weit wie möglich aus, ohne weit von der realen Verteilung abzuweichen.
Verwenden Sie nach Möglichkeit unterschiedliche Daten, um eine Überanpassung Ihres Modells zu verhindern. Eine geringere Vielfalt der Trainingsdaten kann dazu führen, dass Ihr Modell zweifelhafte Korrelationen lernt, die in realen Daten möglicherweise nicht vorhanden sind.
Vermeiden Sie das Duplizieren von Dokumenten in Ihren Daten. Doppelte Daten wirken sich negativ auf den Trainingsprozess, die Modellmetriken und die Modellleistung aus.
Berücksichtigen Sie, woher Ihre Daten stammen. Wenn Sie Daten von einer Person, aus einer Abteilung oder aus einem Teil Ihres Szenarios sammeln, fehlt ihnen wahrscheinlich die Diversität, deren Erlernen für Ihr Modell möglicherweise wichtig ist.
Hinweis
Wenn Ihre Dokumente in mehreren Sprachen vorliegen, wählen Sie während der Projekterstellung die Option Mehrere Sprachen aus, und legen Sie die Option Sprache auf die Sprache der Mehrheit Ihrer Dokumente fest.
Datenvorbereitung
Als Voraussetzung für die Erstellung eines benutzerdefinierten Stimmungsanalyseprojekts müssen Ihre Trainingsdaten in einen Blobcontainer in Ihrem Speicherkonto hochgeladen werden. Sie können Trainingsdokumente direkt aus Azure oder mithilfe des Tools Azure Storage-Explorer erstellen und hochladen. Mit dem Azure Storage-Explorer-Tool können Sie schneller mehr Daten hochladen.
- Erstellen und Hochladen von Dokumenten aus Azure
- Erstellen und Hochladen von Dokumenten mit Azure Storage-Explorer
Sie können nur .txt
-Dokumente für benutzerdefinierten Text verwenden. Wenn Ihre Daten in einem anderen Format vorliegen, können Sie den Parse-Befehl von CLUtils verwenden, um das Dateiformat zu ändern.
Testsatz
Legen Sie bei der Definition des Testsatzes auch Beispieldokumente fest, die nicht im Trainingssatz enthalten sind. Die Definition des Testsatzes ist ein wichtiger Schritt zur Berechnung der Modellleistung. Stellen Sie außerdem sicher, dass der Testsatz Dokumente enthält, die alle in Ihrem Projekt verwendeten Klassen repräsentieren.
Nächste Schritte
Falls noch nicht geschehen, erstellen Sie ein benutzerdefiniertes Stimmungsanalyseprojekt. Wenn Sie zum ersten Mal die benutzerdefinierte Stimmungsanalyse verwenden, sollten Sie den Schnellstart in Betracht ziehen, um ein Beispielprojekt zu erstellen. Weitere Informationen zu den Voraussetzungen zum Erstellen eines Projekts finden Sie außerdem in den Projektanforderungen.