Kognitivní dovednost extrakce dokumentů
Dovednost extrakce dokumentů extrahuje obsah ze souboru v rámci kanálu rozšiřování. To vám umožní využít krok extrakce dokumentů, který se obvykle děje před spuštěním sady dovedností se soubory, které mohou být generovány jinými dovednostmi.
Poznámka:
Tato dovednost není vázána na služby Azure AI a nemá žádný klíčový požadavek na služby Azure AI. Tato dovednost extrahuje text a obrázky. Extrakce textu je volná. Extrakce obrázků se měří službou Azure AI Search. V bezplatné vyhledávací službě se náklady na 20 transakcí za den absorbují, abyste mohli provádět rychlé starty, kurzy a malé projekty bez poplatků. Pro základní, standardní a vyšší je extrakce obrázků fakturovatelná.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Podporované formáty dokumentů
DocumentExtractionSkill může extrahovat text z následujících formátů dokumentu:
- CSV (viz indexování objektů blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (viz indexování objektů blob JSON)
- KML (XML pro geografické reprezentace)
- formáty systém Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (e-maily Outlooku), XML (2003 i 2006 WORD XML)
- Formáty otevřených dokumentů: ODT, ODS, ODP
- Soubory ve formátu prostého textu (viz také indexování prostého textu)
- RTF
- XML
- ZIP
Parametry dovedností
Parametry rozlišují malá a velká písmena.
Vstupy | Povolené hodnoty | Popis |
---|---|---|
parsingMode |
default text json |
Nastavte na default extrakci dokumentů ze souborů, které nejsou čistým textem nebo json. U zdrojových souborů, které obsahují označení (například SOUBORY PDF, HTML, RTF a systém Microsoft Office), použijte výchozí nastavení k extrahování jenom textu a bez jakýchkoli značek nebo značek. Pokud parsingMode není definován explicitně, nastaví se na default hodnotu . Nastavte, text jestli jsou zdrojové soubory TXT. Tento režim analýzy zlepšuje výkon u souborů ve formátu prostého textu. Pokud soubory obsahují značky, tento režim zachová značky v konečném výstupu. Nastavte na json extrahování strukturovaného obsahu ze souborů JSON. |
dataToExtract |
contentAndMetadata allMetadata |
Nastavte na contentAndMetadata extrahování všech metadat a textového obsahu z každého souboru. Pokud dataToExtract není definován explicitně, nastaví se na contentAndMetadata hodnotu . Nastavte na allMetadata extrahování pouze vlastností metadat pro typ obsahu (například metadata jedinečná pouze pro .png soubory). |
configuration |
Viz níže. | Slovník volitelných parametrů, které upravují způsob provedení extrakce dokumentů. Popis podporovaných vlastností konfigurace najdete v následující tabulce. |
Parametr konfigurace | Povolené hodnoty | Popis |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Pokud chcete none ignorovat vložené obrázky nebo soubory obrázků v sadě dat nebo pokud zdrojová data neobsahují soubory obrázků. Tato možnost je výchozí. V případě analýzy OCR a obrázků nastavte, aby generateNormalizedImages dovednost vytvářela pole normalizovaných obrázků jako součást prolomení dokumentu. Tato akce vyžaduje, aby parsingMode byla nastavena default a dataToExtract nastavena na contentAndMetadata hodnotu . Normalizovaný obrázek odkazuje na dodatečné zpracování, které vede k jednotnému výstupu obrázku, velikosti a otočení, aby se při zahrnutí obrázků do výsledků vizuálního hledání zobrazily obrázky (například fotografie stejné velikosti v ovládacím prvku grafu, jak je vidět v ukázce JFK). Tyto informace se generují pro každou image při použití této možnosti. Pokud nastavíte generateNormalizedImagePerPage , soubory PDF se zachází jinak než s extrahováním vložených obrázků, každá stránka se vykresluje jako obrázek a odpovídajícím způsobem normalizuje. Typy souborů, které nejsou pdf, se považují za stejné, jako kdyby generateNormalizedImages byly nastaveny. |
normalizedImageMaxWidth |
Jakékoli celé číslo mezi 50–10000 | Maximální šířka (v pixelech) pro normalizované obrázky generované. Výchozí hodnota je 2000. |
normalizedImageMaxHeight |
Jakékoli celé číslo mezi 50–10000 | Maximální výška (v pixelech) pro vygenerované normalizované obrázky. Výchozí hodnota je 2000. |
Poznámka:
Výchozí hodnota 2000 pixelů pro normalizované obrázky maximální šířky a výšky je založená na maximální velikosti podporované dovedností OCR a dovedností analýzy obrázků. Dovednost OCR podporuje maximální šířku a výšku 4200 pro neanglické jazyky a 1 0000 pro angličtinu. Pokud zvýšíte maximální limity, zpracování může selhat na větších obrázcích v závislosti na definici sady dovedností a jazyce dokumentů.
Vstupy dovedností
Název vstupu | Popis |
---|---|
file_data |
Soubor, ze kterého se má obsah extrahovat. |
Vstup "file_data" musí být objekt definovaný takto:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Alternativně se dá definovat takto:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Objekt odkazu na soubor lze vygenerovat jedním ze tří způsobů:
Nastavení parametru v definici indexeru
allowSkillsetToReadFileData
na hodnotu true Tím se vytvoří cesta/document/file_data
, která představuje původní data souboru stažená z vašeho zdroje dat objektů blob. Tento parametr platí jenom pro soubory v úložišti objektů blob.Nastavení parametru v definici indexeru
imageAction
na jinou hodnotu nežnone
. Tím se vytvoří pole obrázků, které se řídí požadovanou konvencí pro vstup do této dovednosti, pokud jsou předány jednotlivě (to znamená/document/normalized_images/*
).Vlastní dovednost vrátí objekt JSON definovaný PŘESNĚ jako výše. Parametr
$type
musí být nastaven přesněfile
adata
parametr musí být základní 64 kódovaná bajtová data obsahu souboru nebourl
parametr musí být správně naformátovaná adresa URL s přístupem ke stažení souboru v daném umístění.
Výstupy dovedností
Název výstupu | Popis |
---|---|
content |
Textový obsah dokumentu. |
normalized_images |
imageAction Pokud je nastavena na jinou hodnotu než none , nové pole normalized_images obsahuje pole obrázků. Další podrobnosti o výstupním formátu najdete v tématu Extrakce textu a informací z obrázků . |
Ukázková definice
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Ukázkový vstup
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Ukázkový výstup
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}