Benutzerdefiniertes Vorlagenmodell von Dokument Intelligenz
Wichtig
- Public Preview-Releases von Dokument Intelligenz bieten frühzeitigen Zugriff auf Features, die sich in der aktiven Entwicklung befinden. Features, Ansätze und Prozesse können sich aufgrund von Benutzerfeedback vor der allgemeinen Verfügbarkeit (General Availability, GA) ändern.
- Die Public Preview von Dokument Intelligenz-Clientbibliotheken verwendet standardmäßig Version 2024-07-31-preview der REST-API.
- Die Public Preview 2024-07-31-preview ist derzeit lediglich in den folgenden Azure-Regionen verfügbar. Beachten Sie, dass das benutzerdefinierte generative Modell (Dokumentfeldextraktion) in KI Studio nur in der Region „USA, Norden-Mitte“ verfügbar ist:
- USA, Osten
- USA, Westen 2
- Europa, Westen
- USA Nord Mitte
Dieser Inhalt gilt für: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.1 (GA) Version 3.0 (GA) Version 2.1 (GA)
Dieser Inhalt gilt für: Version 3.1 (GA) | Aktuelle Version: Version 4.0 (Vorschau) | Vorherige Versionen: Version 3.0 Version 2.1
Dieser Inhalt gilt für: Version 3.0 (GA) | Aktuelle Versionen: Version 4.0 (Vorschau) Version 3.1 | Vorherige Version: Version 2.1
Dieser Inhalt gilt für: Version 2.1 | Neueste Version: Version 4.0 (Vorschau)
Eine benutzerdefinierte Vorlage (früher benutzerdefiniertes Formular genannt) ist ein einfach zu trainierendes Dokumentmodell, das beschriftete Schlüssel-Wert-Paare, Auswahlmarkierungen, Tabellen, Bereiche und Signaturen zuverlässig aus Dokumenten extrahiert. Vorlagenmodelle verwenden Layouthinweise zum Extrahieren von Werten aus Dokumenten und eignen sich zum Extrahieren von Feldern aus stark strukturierten Dokumenten mit definierten visuellen Vorlagen.
Benutzerdefinierte Vorlagenmodelle verwenden das gleiche Beschriftungsformat und dieselbe Beschriftungsstrategie wie benutzerdefinierte neuronale Modelle und unterstützen weitere Feldtypen und Sprachen.
Modellfunktionen
Benutzerdefinierte Vorlagenmodelle unterstützen Schlüssel-Wert-Paare, Auswahlmarkierungen, Tabellen, Signaturfelder und ausgewählte Bereiche.
Formularfelder | Auswahlmarkierungen | Tabellarische Felder (Tabellen) | Signatur | Ausgewählte Bereiche | Überlappende Felder |
---|---|---|---|---|---|
Unterstützt | Unterstützt | Unterstützt | Unterstützt | Unterstützt | Nicht unterstützt |
Tabellarische Felder
Mit der Freigabe von API-Versionen v3.0 und höheren Versionen fügen benutzerdefinierte Vorlagenmodelle Unterstützung für seitenübergreifende tabellarische Felder (Tabellen) hinzu:
- Um eine Tabelle zu beschriften, die mehrere Seiten umfasst, beschriften Sie jede Zeile der Tabelle auf den verschiedenen Seiten in einer einzelnen Tabelle.
- Stellen Sie als bewährte Methode sicher, dass Ihr Dataset ein paar Beispiele der erwarteten Varianten enthält. Fügen Sie z. B. Beispiele hinzu, in denen sich die gesamte Tabelle auf einer einzelnen Seite befindet und in denen Tabellen zwei oder mehr Seiten umfassen, wenn Sie erwarten, diese Varianten in Dokumenten vorzufinden.
Tabellarische Felder sind auch nützlich, wenn Sie sich wiederholende Informationen aus einem Dokument extrahieren, das nicht als Tabelle erkannt wird. Beispielsweise kann ein sich wiederholender Abschnitt mit Arbeitserfahrungen in einem Lebenslauf als tabellarisches Feld beschriftet und extrahiert werden.
Umgang mit Variationen
Vorlagenmodelle basieren auf einer definierten visuellen Vorlage. Änderungen an der Vorlage führen zu einer geringeren Genauigkeit. Teilen Sie in diesen Fällen Ihr Trainingsdataset so auf, dass es mindestens fünf Beispiele jeder Vorlage enthält, und trainieren Sie ein Modell für jede der Variationen. Anschließend können Sie die Modelle zu einem einzelnen Endpunkt zusammenstellen. Bei subtilen Varianten wie digitalen PDF-Dokumenten und Bildern ist es am besten, mindestens fünf Beispiele für jeden Typ in das gleiche Trainingsdataset einzuschließen.
Eingabeanforderungen
Die besten Ergebnisse erzielen Sie, wenn Sie pro Dokument ein deutliches Foto oder einen hochwertigen Scan bereitstellen.
Unterstützte Dateiformate:
Modell PDF Bild:
JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) und HTMLLesen ✔ ✔ ✔ Layout ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview oder höher) Allgemeines Dokument ✔ ✔ Vordefiniert ✔ ✔ Benutzerdefiniert ✔ ✔ ✱ Microsoft Office-Dateien werden derzeit für andere Modelle oder Versionen nicht unterstützt.
In den Formaten PDF und TIFF können bis zu 2,000 Seiten verarbeitet werden (bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).
Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige (S0) und 4 MB für die kostenlose (F0) Stufe.
Die Bildgrößen müssen im Bereich zwischen 50 × 50 Pixel und 10.000 × 10.000 Pixel liegen.
Wenn Ihre PDFs kennwortgeschützt sind, müssen Sie die Sperre vor dem Senden entfernen.
Die Mindesthöhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 × 768 Pixel. Diese Abmessung entspricht etwa einem
8
-Punkt-Text bei 150 Punkten pro Zoll (DPI
).Die maximale Anzahl Seiten für Trainingsdaten beträgt beim benutzerdefinierten Modelltraining 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neuronale Modell.
Für das Training des benutzerdefinierten Extraktionsmodells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1G-MB für das neuronale Modell.
Für das Training des benutzerdefinierten Klassifizierungsmodells beträgt die Gesamtgröße der Trainingsdaten
1GB
mit einem Maximum von 10 000 Seiten.
Trainieren eines Modells
Benutzerdefinierte Vorlagenmodelle sind in der Regel ab v2.0-API und höheren Versionen verfügbar. Wenn Sie mit einem neuen Projekt beginnen oder über ein vorhandenes bezeichnetes Dataset verfügen, verwenden Sie die v3.1- oder v3.0-API mit Dokument Intelligenz Studio, um ein benutzerdefiniertes Vorlagenmodell zu trainieren.
Modell | REST-API | SDK | Beschriften und Testen von Modellen |
---|---|---|---|
Benutzerdefiniertes Vorlagenmodell | v3.1-API | Document Intelligence SDK | Dokument Intelligenz Studio |
Ab der v3.0-API unterstützt der Buildvorgang zum Trainieren des Modells die neue buildMode
-Eigenschaft. Um ein benutzerdefiniertes Vorlagenmodell zu trainieren, legen Sie buildMode
auf template
fest.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-07-31-preview
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Benutzerdefinierte Vorlagenmodelle sind mit der v3.1-API allgemein verfügbar. Wenn Sie mit einem neuen Projekt beginnen oder über ein vorhandenes bezeichnetes Dataset verfügen, verwenden Sie die v3.1- oder v3.0-API mit Dokument Intelligenz Studio, um ein benutzerdefiniertes Vorlagenmodell zu trainieren.
Modell | REST-API | SDK | Beschriften und Testen von Modellen |
---|---|---|---|
Benutzerdefiniertes Vorlagenmodell | v3.1-API | Document Intelligence SDK | Dokument Intelligenz Studio |
Ab der v3.0-API unterstützt der Buildvorgang zum Trainieren des Modells die neue buildMode
-Eigenschaft. Um ein benutzerdefiniertes Vorlagenmodell zu trainieren, legen Sie buildMode
auf template
fest.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Unterstützte Sprachen und Gebietsschemas
Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung – Benutzerdefinierte Modelle.
Benutzerdefinierte (Vorlagen-) Modelle sind mit der v2.1-API allgemein verfügbar.
Modell | REST-API | SDK | Beschriften und Testen von Modellen |
---|---|---|---|
Benutzerdefiniertes (Vorlagen-) Modell | Dokument Intelligenz 2.1 | Document Intelligence SDK | Stichprobenbeschriftungstool von Dokument Intelligenz |
Nächste Schritte
Erfahren Sie, wie Sie benutzerdefinierte Modelle erstellen und zusammenstellen: