Freigeben über


In der benutzerdefinierten Textklassifizierung verwendete Begriffe und Definitionen

In diesem Artikel erfahren Sie mehr über einige Definitionen und Benennungen, die beim Verwenden der benutzerdefinierten Textklassifizierung auftreten können.

Klasse

Eine Klasse ist eine benutzerdefinierte Kategorie, die die Gesamtklassifizierung des Texts angibt. Entwickler beschriften ihre Daten mit ihren Klassen, bevor sie zum Trainieren an das Modell übergeben werden.

F1-Score

Der F1-Score ist eine Funktion der Genauigkeit und des Abrufs. Sie ist erforderlich, wenn Sie ein Gleichgewicht zwischen Genauigkeit und Abruf suchen.

Modell

Ein Modell ist ein Objekt, das für eine bestimmte Aufgabe trainiert wird. In diesem Fall geht es um Aufgaben für die Textklassifizierung. Modelle werden trainiert, indem beschriftete Daten zum Lernen zur Verfügung gestellt werden, damit die Modelle später für Klassifizierungsaufgaben verwendet werden können.

  • Das Modelltraining ist der Prozess, bei dem Sie Ihrem Modell beibringen, wie Dokumente basierend auf Ihren beschrifteten Daten klassifiziert werden sollen.
  • Die Modellauswertung ist der Prozess, der direkt nach dem Training ausgeführt wird, um zu erfahren, wie gut Ihr Modell funktioniert.
  • Die Bereitstellung ist der Prozess, bei dem Sie Ihr Modell einer Bereitstellung zuweisen, um es für die Verwendung über die Vorhersage-API verfügbar zu machen.

Genauigkeit

Misst, wie präzise/genau Ihr Modell ist. Dies ist das Verhältnis zwischen den richtig identifizierten positiven (True Positives) und allen identifizierten positiven Ergebnissen. Die Genauigkeitsmetrik gibt an, wie viele der vorhergesagten Klassen richtig beschriftet wurden.

Project

Ein Projekt ist ein Arbeitsbereich zum Erstellen Ihrer benutzerdefinierten ML-Modelle auf der Grundlage Ihrer Daten. Auf Ihr Projekt können nur Sie und andere Personen zugreifen, die Zugriff auf die verwendete Azure-Ressource haben. Als Voraussetzung für das Erstellen eines Projekts zur benutzerdefinierten Textklassifizierung müssen Sie Ihre Ressource mit einem Speicherkonto mit Ihrem Dataset verbinden, wenn Sie ein neues Projekt erstellen. Ihr Projekt enthält automatisch alle Dateien vom Typ .txt, die in Ihrem Container verfügbar sind.

In Ihrem Projekt können Sie die folgenden Vorgänge ausführen:

  • Beschriften Ihrer Daten: Der Prozess des Beschriftens Ihrer Daten, der bewirkt, dass Ihr Modell beim Trainieren lernt, was Sie extrahieren möchten.
  • Erstellen und Trainieren Ihres Modells: Der wichtigste Schritt Ihres Projekts, bei dem Ihr Modell mit dem Lernen auf der Grundlage der beschrifteten Daten beginnt.
  • Anzeigen der Details zur Modellauswertung: Überprüfen Sie die Modellleistung, um zu entscheiden, ob noch Verbesserungen möglich sind oder ob Sie mit den Ergebnissen zufrieden sind.
  • Bereitstellung: Wenn Sie die Leistung des Modells überprüft und entschieden haben, dass es in Ihrer Umgebung verwendet werden kann, müssen Sie es einer Bereitstellung zuweisen, damit es abgefragt werden kann. Durch das Zuweisen des Modells zu einer Bereitstellung wird es für die Verwendung über die Vorhersage-API verfügbar.
  • Testen des Modells: Nach der Bereitstellung Ihres Modells können Sie mithilfe dieses Vorgangs in Language Studio Ihre Bereitstellung ausprobieren und überprüfen, wie es in der Produktion abschneidet.

Projekttypen

Benutzerdefinierte Textklassifizierung unterstützt zwei Arten von Projekten:

  • Klassifizierung mit einzelnen Bezeichnungen: Sie können jeder Datei In Ihrem Datasets eine einzelne Klasse zuweisen. Beispielsweise könnte ein Drehbuch entweder als „Liebesfilm“ oder als „Komödie“ klassifiziert werden.
  • Klassifizierung mit mehreren Bezeichnungen: Sie können jedem Dokument in Ihrem Dataset mehrere Klassen zuweisen. Beispielsweise kann ein Drehbuch als „Komödie“ oder als „Liebesfilm“ und „Komödie“ eingestuft werden.

Recall

Misst die Fähigkeit des Modells, tatsächliche positive Klassen vorherzusagen. Dies ist das Verhältnis zwischen den vorhergesagten True Positives und den tatsächlich markierten Klassen. Die Abrufmetrik gibt an, wie viele der vorhergesagten Klassen richtig sind.

Nächste Schritte