Kognitive Qualifikation „Dokumentextrahierung“
Die Qualifikation Dokumentextrahierung extrahiert Inhalt aus einer Datei innerhalb der Anreicherungspipeline. Auf diese Weise können Sie die Vorteile des Schritts der Dokumentextrahierung nutzen, der normalerweise vor der Ausführung des Skillsets mit Dateien erfolgt, die möglicherweise durch andere Qualifikationen generiert werden.
Hinweis
Dieser Skill ist nicht an Azure KI Services gebunden und hat keine Schlüsselanforderung für Azure KI Services. Dieser Skill extrahiert Text und Bilder. Die Textextraktion ist kostenlos. Die Bildextraktion wird von Azure KI Searchgetaktet. Bei einem kostenlosen Suchdienst werden die Kosten für 20 Transaktionen pro Indexer am Tag übernommen, sodass Sie Schnellstarts, Tutorials und kleine Projekte kostenlos abschließen können. Bei den Tarifen „Basic“ und „Standard“ sowie bei höheren Tarifen ist die Bildextraktion gebührenpflichtig.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Unterstützte Dokumentformate
DocumentExtractionSkill kann Text aus den folgenden Dokumentformaten extrahieren:
- CSV (siehe Indizierung von CSV-Blobs)
- EML
- EPUB
- GZ
- HTML
- JSON (Siehe Indizierung von JSON-Blobs)
- KML (XML für geografische Darstellungen)
- Microsoft Office-Formate: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-E-Mails), XML (WORD XML 2003 und 2006)
- Öffnen von Dokumentformaten: ODT, ODS, ODP
- Textdateien (Siehe auch Indizierung von Nur-Text)
- RTF
- XML
- ZIP
Skillparameter
Bei den Parametern wird zwischen Groß- und Kleinschreibung unterschieden.
Eingaben | Zulässige Werte | Beschreibung |
---|---|---|
parsingMode |
default text json |
Legen Sie diesen Parameter auf default fest, um die Dokumentextrahierung aus Dateien durchzuführen, die keine reinen Text- oder JSON-Dateien sind. Verwenden Sie für Quelldateien mit Markup (etwa PDF-, HTML-, RTF- und Microsoft Office-Dateien) den Standardwert, um nur den Text ohne Markupsprache oder Tags zu extrahieren. Wenn der Parameter parsingMode nicht explizit definiert ist, wird er auf default festgelegt. Legen Sie text fest, wenn als Quelldateien TXT-Dateien verwendet werden. Dieser Analysemodus verbessert die Leistung für Nur-Text-Dateien. Wenn Dateien Markup enthalten, behält dieser Modus die Tags in der endgültigen Ausgabe bei. Legen Sie diesen Parameter auf json fest, um strukturierte Inhalte aus JSON-Dateien zu extrahieren. |
dataToExtract |
contentAndMetadata allMetadata |
Legen Sie diesen Parameter auf contentAndMetadata fest, um aus jeder Datei alle Metadaten und Textinhalte zu extrahieren. Wenn der Parameter dataToExtract nicht explizit definiert ist, wird er auf contentAndMetadata festgelegt. Legen Sie diesen Parameter auf allMetadata fest, um nur die für den Inhaltstyp spezifischen Metadaten zu extrahieren (z. B. Metadaten, die nur für PNG-Dateien eindeutig sind). |
configuration |
Siehe unten. | Ein Wörterbuch mit optionalen Parametern zur Anpassung der Durchführung der Dokumentextrahierung. In der folgenden Tabelle finden Sie Beschreibungen der unterstützten Konfigurationseigenschaften. |
Konfigurationsparameter | Zulässige Werte | Beschreibung |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Legen Sie none fest, wenn eingebettete Bilder oder Bilddateien im Dataset ignoriert werden sollen bzw. wenn die Quelldaten keine Bilddateien enthalten. Dies ist die Standardeinstellung. Legen Sie diesen Parameter für die OCR- und Bildanalyse auf generateNormalizedImages fest, damit der Skill bei der Dokumententschlüsselung ein Array von normalisierten Bildern erstellt. Für diese Aktion ist es erforderlich, parsingMode auf default und dataToExtract auf contentAndMetadata festzulegen. Ein normalisiertes Bild bezieht sich auf eine zusätzliche Verarbeitung, die zu einer einheitlichen Bildausgabe führt. Für die Ausgabe wird die Größe angepasst, und sie wird gedreht, um das einheitliche Rendern zu fördern, wenn Sie Bilder in visuelle Suchergebnisse einbinden (z.B. Fotos gleicher Größe für ein Graphsteuerelement wie in der JFK-Demo). Diese Informationen werden bei Verwendung dieser Option für jedes Bild generiert. Wenn Sie diesen Parameter auf generateNormalizedImagePerPage festlegen, werden PDF-Dateien anders behandelt. Anstatt eingebettete Bilder zu extrahieren, wird jede Seite als Bild gerendert und entsprechend normalisiert. Nicht-PDF-Dateitypen werden genauso behandelt, als ob der Parameter auf generateNormalizedImages festgelegt worden wäre. |
normalizedImageMaxWidth |
Eine beliebige ganze Zahl zwischen 50-10000 | Die maximale Breite (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“. |
normalizedImageMaxHeight |
Eine beliebige ganze Zahl zwischen 50-10000 | Die maximale Höhe (in Pixel) für generierte normalisierte Bilder. Der Standardwert ist „2000“. |
Hinweis
Der Standardwert von 2.000 Pixeln für die maximale Breite und Höhe der normalisierten Bilder basiert auf der maximal unterstützten Größe der OCR-Qualifikation und der Bildanalysequalifikation. Die OCR-Qualifikation unterstützt eine maximale Breite und Höhe von 4.200 für nicht englische Sprachen und 10.000 für Englisch. Wenn Sie die maximalen Grenzwerte erhöhen, können bei größeren Images je nach Skillsetdefinition und Sprache der Dokumente Fehler bei der Verarbeitung auftreten.
Skilleingaben
Eingabename | Beschreibung |
---|---|
file_data |
Die Datei, aus der Inhalt extrahiert werden soll. |
Die Eingabe „file_data“ muss ein Objekt sein, das wie folgt definiert wurde:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternativ kann es wie folgt definiert werden:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Das Dateiverweisobjekt kann auf eine von drei Arten generiert werden:
Indem Sie den
allowSkillsetToReadFileData
-Parameters in Ihrer Indexerdefinition auf „true“ festlegen. Dadurch wird der Pfad/document/file_data
erstellt, bei dem es sich um ein Objekt handelt, das die aus der Blobdatenquelle heruntergeladenen ursprünglichen Dateidaten darstellt. Dieser Parameter gilt nur für Dateien im Blobspeicher.Indem Sie den
imageAction
-Parameters in Ihrer Indexerdefinition auf einen anderen Wert alsnone
festlegen. Dadurch wird ein Array von Bildern erstellt, das die erforderliche Konvention für die Eingaben für diese Qualifikation erfüllt, wenn sie einzeln übermittelt werden (d. h./document/normalized_images/*
).Indem Sie eine benutzerdefinierte Qualifikation ein JSON-Objekt zurückgeben lassen, das EXAKT wie oben definiert ist. Der
$type
Parameter muss genau auffile
festgelegt werden und derdata
Parameter muss die Base64-codierten Bytearraydaten des Dateiinhalts sein – oder derurl
Parameter muss eine ordnungsgemäß formatierte URL mit Zugriff sein, um die Datei an diesem Speicherort herunterzuladen.
Skillausgaben
Ausgabename | Beschreibung |
---|---|
content |
Der Textinhalt des Dokuments. |
normalized_images |
Wenn imageAction auf einen anderen Wert als none festgelegt wird, enthält das neue Feld normalized_images ein Array von Bildern. Ausführlichere Informationen zum Ausgabeformat finden Sie unter Extrahieren von Text und Informationen aus Bildern in KI-Anreicherungsszenarios. |
Beispieldefinition
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Beispieleingabe
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Beispielausgabe
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}