KOGNITIV KUNSKAP FÖR OCR
Ocr-färdigheten (Optisk teckenigenkänning) känner igen tryckt och handskriven text i bildfiler. Den här artikeln är referensdokumentationen för OCR-kompetensen. Se Extrahera text från bilder för användningsinstruktioner.
En OCR-färdighet använder maskininlärningsmodellerna som tillhandahålls av Azure AI Vision API v3.2 i Azure AI-tjänster. OCR-färdigheten mappar till följande funktioner:
Läs-API:et används för de språk som anges under språkstöd för Azure AI Vision.
För grekiska och serbiska kyrilliska används den äldre OCR i version 3.2-API :et.
OCR-färdigheten extraherar text från bildfiler och inbäddade bilder. Filformat som stöds är:
- .JPEG
- .JPG
- .PNG
- .BMP
- . TIFF
Datakällor som stöds för OCR och bildanalys är blobar i Azure Blob Storage och Azure Data Lake Storage (ADLS) Gen2 och bildinnehåll i OneLake. Bilder kan vara fristående filer eller inbäddade bilder i en PDF eller andra filer.
Kommentar
Den här kompetensen är bunden till Azure AI-tjänster och kräver en fakturerbar resurs för transaktioner som överstiger 20 dokument per indexerare och dag. Körning av inbyggda kunskaper debiteras enligt det befintliga priset för Betala per användning för Azure AI-tjänster.
Dessutom kan bildextrahering faktureras av Azure AI Search.
Kompetensparametrar
Parametrar är skiftlägeskänsliga.
Parameternamn | beskrivning |
---|---|
detectOrientation |
Identifierar bildorientering. Giltig värden är true och false . Den här parametern gäller endast om det äldre OCR version 3.2-API:et används. |
defaultLanguageCode |
Språkkod för indatatexten. Språk som stöds omfattar alla allmänt tillgängliga språk i Azure AI Vision. Du kan också ange unk (okänd). Om språkkoden är ospecificerad eller null är språket inställt på engelska. Om språket uttryckligen är inställt på unk identifieras och returneras alla språk som hittas automatiskt. |
lineEnding |
Värdet som ska användas som radavgränsare. Möjliga värden: "Space", "CarriageReturn", "LineFeed". Standardvärdet är "Space". |
I tidigare versioner fanns det en parameter med namnet "textExtractionAlgorithm" för att ange extrahering av "tryckt" eller "handskriven" text. Den här parametern är inaktuell eftersom den aktuella Read API-algoritmen extraherar båda texttyperna samtidigt. Om din kompetens innehåller den här parametern behöver du inte ta bort den, men den används inte under färdighetskörningen.
Kunskapsindata
Indatanamn | beskrivning |
---|---|
image |
Komplex typ. För närvarande fungerar endast med fältet "/document/normalized_images", som skapas av Azure Blob Indexer när imageAction är inställt på ett annat värde än none . |
Kunskapsutdata
Utdatanamn | beskrivning |
---|---|
text |
Oformaterad text som extraherats från bilden. |
layoutText |
Komplex typ som beskriver den extraherade texten och platsen där texten hittades. |
Om du anropar OCR på bilder som är inbäddade i PDF-filer eller andra programfiler, kommer OCR-utdata att finnas längst ned på sidan, efter all text som extraherades och bearbetades.
Exempeldefinition
{
"skills": [
{
"description": "Extracts text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": null,
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text",
"targetName": "myText"
},
{
"name": "layoutText",
"targetName": "myLayoutText"
}
]
}
]
}
Exempeltext och layoutTextutdata
{
"text": "Hello World. -John",
"layoutText":
{
"language" : "en",
"text" : "Hello World. -John",
"lines" : [
{
"boundingBox":
[ {"x":10, "y":10}, {"x":50, "y":10}, {"x":50, "y":30},{"x":10, "y":30}],
"text":"Hello World."
},
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"-John"
}
],
"words": [
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"Hello"
},
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"World."
},
{
"boundingBox": [ {"x":110, "y":10}, {"x":150, "y":10}, {"x":150, "y":30},{"x":110, "y":30}],
"text":"-John"
}
]
}
}
Exempel: Sammanfoga text som extraherats från inbäddade bilder med innehållet i dokumentet
Dokumentsprickor, det första steget i körning av kompetensuppsättningar, separerar text- och bildinnehåll. Ett vanligt användningsfall för textsammanslagning är att sammanfoga textrepresentationen av bilder (text från en OCR-färdighet eller bildtexten till en bild) till innehållsfältet i ett dokument. Detta gäller scenarier där källdokumentet är ett PDF- eller Word-dokument som kombinerar text med inbäddade bilder.
I följande exempel skapar kunskapsuppsättningen ett merged_text fält. Det här fältet innehåller textinnehållet i dokumentet och ocred-texten från var och en av de bilder som är inbäddade i dokumentet.
Begärandetextsyntax
{
"description": "Extract text from images and merge with content text to produce merged_text",
"skills":
[
{
"description": "Extract text (plain and structured) from image.",
"@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
"context": "/document/normalized_images/*",
"defaultLanguageCode": "en",
"detectOrientation": true,
"inputs": [
{
"name": "image",
"source": "/document/normalized_images/*"
}
],
"outputs": [
{
"name": "text"
}
]
},
{
"@odata.type": "#Microsoft.Skills.Text.MergeSkill",
"description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
"context": "/document",
"insertPreTag": " ",
"insertPostTag": " ",
"inputs": [
{
"name":"text",
"source": "/document/content"
},
{
"name": "itemsToInsert",
"source": "/document/normalized_images/*/text"
},
{
"name":"offsets",
"source": "/document/normalized_images/*/contentOffset"
}
],
"outputs": [
{
"name": "mergedText",
"targetName" : "merged_text"
}
]
}
]
}
Exemplet ovan förutsätter att det finns ett normaliserat bildfält. Om du vill generera det här fältet anger du imageAction-konfigurationen i indexerarens definition för att genereraNormalizedImages enligt nedan:
{
//...rest of your indexer definition goes here ...
"parameters": {
"configuration": {
"dataToExtract":"contentAndMetadata",
"imageAction":"generateNormalizedImages"
}
}
}