Freigeben über


Erstellen und Trainieren eines benutzerdefinierten generativen Modells mit KI Studio

In diesem Artikel erfahren Sie, wie Sie ein benutzerdefiniertes generatives Modell mit Azure KI Studio erstellen und trainieren. Benutzerdefinierte Dokument Intelligenz-Modelle benötigen zum Einstieg nur fünf Trainingsdokumente. Haben Sie mindestens fünf Dokumente? Wenn ja, beginnen wir mit dem Trainieren und Testen des benutzerdefinierten generativen Modells.

Voraussetzungen

  • Sie benötigen ein aktives Azure-Abonnement. Falls Sie über kein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen.

  • Sobald Ihr Azure-Abonnement im Azure-Portal über eine Dokument Intelligenz-Instanz verfügt, gilt Folgendes: Sie können den kostenlosen Tarif (F0) verwenden, um den Dienst auszuprobieren.

  • Wählen Sie nach erfolgter Bereitstellung Ihrer Ressource Zu Ressource wechseln aus, und rufen Sie Ihren Schlüssel und Endpunkt ab.

    • Sie benötigen den Schlüssel und Endpunkt aus der Ressource, um Ihre Anwendung mit dem Dokument Intelligenz-Dienst zu verbinden. Den Schlüssel und den Endpunkt werden Sie später im Schnellstart in den Code einfügen. Diese Werte sind im Azure-Portal auf der Seite Schlüssel und Endpunkt aufgeführt.

Speichercontainerautorisierung

Sie können eine der folgenden Optionen auswählen, um den Zugriff auf Ihre Dokumentressource zu autorisieren.

✔️ Verwaltete Identität. Eine verwaltete Identität ist ein Dienstprinzipal, der eine Microsoft Entra-Identität und bestimmte Berechtigungen für von Azure verwaltete Ressourcen erstellt. Mit verwalteten Identitäten können Sie Ihre Dokument Intelligenz-Anwendung ausführen, ohne Anmeldeinformationen in Ihren Code einbetten zu müssen. Verwaltete Identitäten sind eine sicherere Möglichkeit, Zugriff auf Speicherdaten zu gewähren und die Anforderung zu ersetzen, dass Sie SAS-Token (Shared Access Signature) in Ihre Quell- und Ergebnis-URLs einschließen müssen.

Weitere Informationen finden Sie unter Verwaltete Identitäten für Dokument Intelligenz.

Screenshot des Flows für die verwaltete Identität (rollenbasierte Zugriffssteuerung)

Wichtig

  • Wenn Sie verwaltete Identitäten verwenden, schließen Sie keine SAS-Token-URL in Ihre HTTP-Anforderungen ein – Ihre Anforderungen schlagen sonst fehl. Die Verwendung verwalteter Identitäten ersetzt die Anforderung, dass Sie SAS-Token (Shared Access Signature) einschließen müssen. ✔️ Shared Access Signature (SAS). Eine Shared Access Signature-URL gewährt für einen bestimmten Zeitraum eingeschränkten Zugriff auf Ihren Dokument Intelligenz-Dienst. Um diese Methode zu verwenden, müssen Sie SAS-Token (Shared Access Signature) für Ihre Quell- und Ergebniscontainer erstellen. Die Quell- und Ergebniscontainer müssen ein SAS-Token (Shared Access Signature) enthalten, das als Abfragezeichenfolge angefügt wird. Das Token kann Ihrem Container oder bestimmten Blobs zugewiesen sein.

Screenshot: Speicher-URI mit angehängtem SAS-Token

  • Ihr Quellcontainer oder Blob muss den Zugriff für das Lesen, Schreiben, Auflisten und Löschen festlegen.
  • Ihr Ergebniscontainer oder Blob muss den Zugriff für das Schreiben, Auflisten und Löschen festlegen.

Weitere Informationen finden Sie unter Erstellen von SAS-Token.

Trainingsdaten

Befolgen Sie diese Tipps, um Ihr Dataset für das Training zu optimieren:

  • Verwenden Sie textbasierte PDF-Dokumente anstelle von bildbasierten Dokumenten. Gescannte PDFs werden als Bilder behandelt.

  • Verwenden Sie für Formulare mit Eingabefeldern Beispiele, bei denen alle Felder ausgefüllt sind.

  • Verwenden Sie Formulare mit verschiedenen Werten in jedem Feld.

  • Verwenden Sie einen größeren Datensatz (10–15 Bilder), wenn Ihre Formularbilder von geringerer Qualität sind.

Sobald Sie über Azure Blob Storage-Container verfügen, laden Sie Ihre Trainingsdaten in Ihre Quellcontainer hoch. Jetzt können Sie Ihr benutzerdefiniertes generatives Modell trainieren.

Azure KI Studio

  1. Navigieren Sie zu Azure KI Studio. Bei der ersten Verwendung des Studios müssen Sie zuerst Ihr Abonnement initialisieren und einen Hub erstellen, bevor Sie ein Projekt erstellen können. Benutzerdefinierte generative Modelle sind nur in den Regionen „USA, Osten“ und „USA, Norden-Mitte“ in der Vorschau verfügbar. Stellen Sie sicher, dass Ihre Ressourcengruppe während der Huberstellung auf die Regionen „USA, Osten“ oder „USA, Norden-Mitte“ festgelegt wird.

  2. Wählen Sie die Kachel „Vision + Dokument“ aus.

    Screenshot der Kachel „Dokument Intelligenz/Vision“

  3. Wählen Sie als Nächstes die Kachel „Dokumentfeldextraktion“ und dann die Schaltfläche „Dokumentfeldextraktionsprojekt erstellen“ aus, um ein Projekt zu erstellen.

    Screenshot der Seite zum Erstellen eines Dokumentfeldextraktionsprojekts

  4. Erstellen Ihres Projekts Weitere Informationen finden Sie unter Erstellen eines Projekts in Azure KI Studio.

  5. Erstellen Sie eine Azure KI Services-Verbindung, um auf den Azure Dokument Intelligenz-Dienst zuzugreifen:

    Screenshot der Übersichtsseite zum Erstellen eines Dokumentextraktionsprojekts

  6. Wählen Sie als Nächstes das Speicherkonto aus, das Sie zum Hochladen des Trainingsdatasets für Ihr benutzerdefiniertes Modell verwendet haben.

    Screenshot der Seite mit den Dateneinstellungen eines Dokumentextraktionsprojekts

  7. Prüfen Sie Ihre Projekteinstellungen, und wählen Sie Create a Project aus, um ein neues Projekt zu erstellen. Nachdem Sie das Projekt ausgewählt haben, sollten Sie sich nun im Fenster Define schema befinden und die Dateien in Ihrem Dataset aufgelistet sehen.

Definieren des Schemas

  • Die erste Aufgabe für Ihr Projekt besteht darin, die Felder zum Extrahieren und Definieren eines Schemas hinzuzufügen.

  • Die hochgeladenen Dateien werden aufgelistet, und Sie können die Dropdownoption verwenden, um Dateien auszuwählen. Klicken Sie auf die Schaltfläche ➕ Add new field, um mit dem Hinzufügen von Feldern zu beginnen.

  • Geben Sie einen Namen, eine Beschreibung und einen Typ für das zu extrahierende Feld ein. Nachdem alle Felder hinzugefügt wurden, wählen Sie unten auf dem Bildschirm die Schaltfläche Save aus.

Bezeichnen von Daten

  • Nachdem das Schema gespeichert wurde, werden alle hochgeladenen Trainingsdokumente analysiert, und Feldwerte werden automatisch extrahiert. Feldwerte werden auf dem Bildschirm zur Überprüfung aufgeführt. Die automatisch extrahierten Felder werden als Vorhergesagt gekennzeichnet.

  • Prüfen Sie die vorhergesagten Werte. Wenn der Feldwert falsch ist oder nicht extrahiert wird, können Sie mit dem Mauszeiger auf das vorhergesagte Feld zeigen. Wählen Sie die Schaltfläche zum Bearbeiten aus, um die Änderungen vorzunehmen:

    Screenshot der Schaltfläche zum Bearbeiten des Extraktionsprojekts

  • Sobald die Änderungen vorgenommen wurden, wird das vorhergesagte Tag als Corrected angezeigt:

    Screenshot des Indikators „Korrigiert“ für das Extraktionsprojekt

  • Setzen Sie die Überprüfung der vorhergesagten Felder fort. Nachdem die Bezeichnungen für alle Trainingsdokumente überprüft und korrigiert wurden, fahren Sie mit der Erstellung Ihres Modells fort.

    Hinweis

    Sie können während des Modelltrainings jederzeit zu diesem Schritt zurückkehren und das Schema aktualisieren. Um jedoch die Funktion für die automatische Bezeichnung zu verwenden, müssen Sie die Dateien mithilfe der Option Upload files löschen und erneut laden.

Erstellen des Modells

Nachdem Ihr Dataset mit einer Bezeichnung versehen wurde, können Sie Ihr Modell trainieren. Wählen Sie Build model aus. Geben Sie auf der Dialogfeldseite „Modell erstellen“ einen eindeutigen Modellnamen und optional eine Beschreibung an. Die Modell-ID akzeptiert einen Zeichenfolgendatentyp.

Screenshot der Seite zum Erstellen eines Extraktionsmodells

Wählen Sie Build aus, um den Trainingsprozess zu initiieren. Generative Modelle werden sofort trainiert. Aktualisieren Sie die Seite, um das Modell auszuwählen, nachdem der Status in Erfolgreich geändert wurde.

Testen des Modells

  • Sobald das Modelltraining abgeschlossen ist, können Sie Ihr Modell testen, indem Sie auf der Seite „BenutzerdefiniertGenerativ“ die Schaltfläche Test auswählen.

    Screenshot der Seite „BenutzerdefiniertGenerativ“

  • Laden Sie Ihre Testdateien hoch, und wählen Sie Run Analysis aus, um Feldwerte aus den Dokumenten zu extrahieren. Mit der Option Analyze können Sie auswählen, ob Sie das aktuelle Dokument oder alle Dokumente analysieren möchten.

  • Überprüfen Sie die Modellgenauigkeit, indem Sie die Ergebnisse für jedes Feld auswerten.

Das ist alles! Sie haben gelernt, ein benutzerdefiniertes generatives Modell im Azure KI Studio zu trainieren. Ihr Modell ist für die Verwendung mit der REST-API oder dem SDK zum Analysieren von Dokumenten bereit.

Nächste Schritte

Hier erfahren Sie mehr über das benutzerdefinierte generative Modell.

Hier erfahren Sie mehr über die Genauigkeit und Konfidenz bei benutzerdefinierten Modellen.