Trainieren eines Modells für die benutzerdefinierte Textanalyse für Gesundheit
Das Training ist der Prozess, bei dem das Modell anhand Ihrer beschrifteten Daten lernt. Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen und ermitteln, ob Sie Ihr Modell verbessern müssen.
Um ein Modell zu trainieren, beginnen Sie mit einem Trainingsauftrag. Nur erfolgreich abgeschlossene Aufträge erstellen ein Modell. Trainingsaufträge laufen nach sieben Tagen ab, was bedeutet, dass Sie die Auftragsdetails nach diesem Zeitraum nicht mehr abrufen können. Wenn Ihr Trainingsauftrag erfolgreich abgeschlossen und ein Modell erstellt wurde, ist das Modell nicht betroffen. Es kann jeweils nur ein Trainingsauftrag ausgeführt werden, und Sie können keine anderen Aufträge im selben Projekt starten.
Die Trainingsdauer kann wenige Minuten (bei einer kleinen Anzahl von Dokumenten) oder auch mehrere Stunden (je nach Größe des Datensatzes und der Komplexität Ihres Schemas) betragen.
Voraussetzungen
- Ein erfolgreich erstelltes Projekt mit einem konfigurierten Azure Blob Storage-Konto
- Textdaten, die in Ihr Speicherkonto hochgeladen wurden
- Gekennzeichnete Daten
Weitere Informationen finden Sie unter Lebenszyklus der Projektentwicklung.
Datenteilung
Bevor Sie den Trainingsprozess starten, werden beschriftete Dokumente in Ihrem Projekt in einen Trainingsdatensatz und einen Testdatensatz unterteilt. Beide haben unterschiedliche Funktion. Der Trainingsdatensatz wird beim Training des Modells verwendet. Aus diesem Datensatz erlernt das Modell die beschrifteten Entitäten und die Textbereiche, die als Entitäten extrahiert werden sollen. Der Testdatensatz ist ein blinder Datensatz, der nicht während des Trainings im Modell eingeführt wird, sondern erst während der Auswertung. Nachdem das Modelltraining erfolgreich abgeschlossen wurde, wird das Modell eingesetzt, um Vorhersagen aus den Dokumenten im Testdatensatz zu machen. Anhand dieser Vorhersagen werden die Auswertungsmetriken berechnet. Modelltraining und -auswertung gelten nur für neu definierte Entitäten mit gelernten Komponenten. Daher sind Entitäten der Textanalyse für Gesundheit vom Modelltraining und von der Modellauswertung ausgeschlossen, da es sich um Entitäten mit vordefinierten Komponenten handelt. Sie sollten sicherstellen, dass alle Ihre bezeichneten Entitäten sowohl im Trainings- als auch im Testdatensatz angemessen dargestellt werden.
Benutzerdefinierte Textanalyse für Gesundheit unterstützt zwei Methoden für die Datenaufteilung:
- Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten: Das System teilt Ihre bezeichneten Daten gemäß den von Ihnen ausgewählten Prozentsätzen zwischen dem Trainings- und dem Testdatensatz auf. Empfohlen wird eine prozentuale Aufteilung von 80 Prozent für das Training und 20 Prozent für die Tests.
Hinweis
Wenn Sie die Option Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten auswählen, werden nur die dem Trainingsdatensatz zugewiesenen Daten gemäß den angegebenen Prozentsätzen aufgeteilt.
- Manuelle Aufteilung von Trainings- und Testdaten verwenden: Mit dieser Methode können Benutzer*innen definieren, welche beschrifteten Dokumente zu welchem Datensatz gehören sollen. Dieser Schritt ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testdatensatz hinzugefügt haben.
Trainieren des Modells
So beginnen Sie das Training Ihres Modells über Language Studio:
Wählen Sie Trainingsaufträge aus dem Menü auf der linken Seite aus.
Wählen Sie im oberen Menü Trainingsauftrag starten aus.
Wählen Sie Neues Modell trainieren aus, und geben Sie den Namen des Modells im Textfeld darunter ein. Sie können auch ein vorhandenes Modell überschreiben, indem Sie diese Option auswählen und das Modell, das Sie überschreiben möchten, im Dropdownmenü auswählen. Das Überschreiben eines trainierten Modells kann nicht rückgängig gemacht werden, wirkt sich jedoch erst auf Ihre bereitgestellten Modelle aus, wenn Sie das neue Modell bereitstellen.
Wählen Sie die Datenteilungsmethode aus. Sie können Automatisches Aufteilen des Testsatzes und der Trainingsdaten auswählen. Dabei teilt das System Ihre beschrifteten Daten gemäß den angegebenen Prozentsätzen zwischen dem Trainings- und dem Testsatz auf. Alternativ können Sie Manuelle Aufteilung von Trainings- und Testdaten verwenden nutzen. Diese Option ist nur aktiviert, wenn Sie Dokumente zu Ihrem Testdatensatz hinzugefügt haben. Weitere Informationen zur Datenteilung finden Sie unter Datenbeschriftung und Trainieren eines Modells.
Wählen Sie die Schaltfläche Train (Trainieren) aus.
Wenn Sie die Trainingsauftrags-ID in der Liste auswählen, wird ein Seitenbereich angezeigt, in dem Sie den Trainingsfortschritt, den Auftragsstatus und andere Details für diesen Auftrag überprüfen können.
Hinweis
- Nur erfolgreich abgeschlossene Trainingsaufträge generieren Modelle.
- Je nach Größe Ihrer beschrifteten Daten kann das Training wenige Minuten oder mehrere Stunden dauern.
- Es kann jeweils nur ein Trainingsauftrag ausgeführt werden. Sie können keinen anderen Trainingsauftrag innerhalb desselben Projekts starten, bis der ausgeführte Auftrag abgeschlossen ist.
Abbrechen eines Trainingsauftrags
Um einen Trainingsauftrag in Language Studio abzubrechen, navigieren Sie zur Seite Trainingsaufträge. Wählen Sie den Trainingsauftrag aus, den Sie abbrechen möchten, und wählen Sie im oberen Menü Abbrechen aus.
Nächste Schritte
Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen, um Ihr Modell ggf. zu verbessern. Sobald Sie mit Ihrem Modell zufrieden sind, können Sie es bereitstellen und für die Extraktion von Entitäten aus Texten zur Verfügung stellen.