Läsmodell för dokumentinformation

Artikel
02/25/2025

Det här innehållet gäller för:v4.0 (GA) | Tidigare versioner: v3.1 (GA)v3.0 (GA)

Kommentar

Om du vill extrahera text från externa bilder som etiketter, gatuskyltar och affischer använder du funktionen Azure AI Image Analysis v4.0 Read som är optimerad för allmänna (inte dokument) bilder med ett prestandaförstärkt synkront API. Den här funktionen gör det enklare att bädda in OCR i realtidsscenarier för användarupplevelse.

MODELLEN Läs optisk teckenigenkänning (OCR) för dokumentinformation körs med en högre upplösning än Azure AI Vision Read och extraherar utskrift och handskriven text från PDF-dokument och skannade bilder. Den innehåller även stöd för att extrahera text från Microsoft Word-, Excel-, PowerPoint- och HTML-dokument. Den identifierar stycken, textrader, ord, platser och språk. Read-modellen är den underliggande OCR-motorn för andra fördefinierade dokumentinformationsmodeller som layout, allmänt dokument, faktura, kvitto, identitetsdokument (ID), sjukförsäkringskort, W2 utöver anpassade modeller.

Vad är optisk teckenigenkänning?

Optisk teckenigenkänning (OCR) för dokument är optimerat för stora textintensiva dokument i flera filformat och globala språk. Den innehåller funktioner som genomsökning med högre upplösning av dokumentbilder för bättre hantering av mindre och kompakt text. styckeidentifiering; och fyllbar formulärhantering. OCR-funktioner omfattar även avancerade scenarier som rutor med en tecken och korrekt extrahering av nyckelfält som ofta finns i fakturor, kvitton och andra fördefinierade scenarier.

Utvecklingsalternativ (v4)

Document Intelligence v4.0: 2024-11-30 (GA) stöder följande verktyg, program och bibliotek:

Funktion	Resurser	Model ID
Läs OCR-modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

Indatakrav (v4)

Filformat som stöds:

Modell	PDF	Bild: `JPEG/JPG`, `PNG`, `BMP`, , `TIFFHEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lästa	✔	✔	✔
Layout	✔	✔	✔
Allmänt dokument	✔	✔
Inbyggda	✔	✔
Anpassad extrahering	✔	✔
Anpassad klassificering	✔	✔	✔

För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för betald (S0) nivå och 4 MB för den kostnadsfria nivån (F0).
Bilddimensioner måste vara mellan 50 bildpunkter x 50 bildpunkter och 10 000 bildpunkter x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar om 8 punkttext vid 150 punkter per tum (DPI).
För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
- För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1 GB för den neurala modellen.
- För anpassad klassificeringsmodellträning är 1 den totala storleken på träningsdata GB med högst 10 000 sidor. För 2024-11-30 (GA) är 2 den totala storleken på träningsdata GB med högst 10 000 sidor.

Kom igång med läsmodell (v4)

Prova att extrahera text från formulär och dokument med hjälp av Document Intelligence Studio. Du behöver följande tillgångar:

En Azure-prenumeration – du kan skapa en kostnadsfritt.
En instans av dokumentinformation i Azure Portal. Du kan använda den kostnadsfria prisnivån (F0) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta din nyckel och slutpunkt.

Kommentar

Document Intelligence Studio stöder för närvarande inte Microsoft Word-, Excel-, PowerPoint- och HTML-filformat.

Exempeldokument som bearbetas med Document Intelligence Studio

Skärmbild av läsbearbetning i Document Intelligence Studio.

På startsidan för Document Intelligence Studio väljer du Läs.
Du kan analysera exempeldokumentet eller ladda upp dina egna filer.
Välj knappen Kör analys och konfigurera vid behov alternativen Analysera:

Prova Document Intelligence Studio.

Språk och språk som stöds (v4)

Se sidan Språkstöd – modeller för dokumentanalys för en fullständig lista över språk som stöds.

Extrahering av data (v4)

Kommentar

Microsoft Word- och HTML-filen stöds i v4.0. Följande funktioner stöds för närvarande inte:

Ingen vinkel, bredd/höjd och enhet som returneras med varje sidobjekt.
Det finns ingen avgränsande polygon eller avgränsningsregion för varje objekt som identifieras.
Inget sidintervall (pages) som en parameter returnerades.
Inget lines objekt.

Sökbara PDF-filer

Med den sökbara PDF-funktionen kan du konvertera en analog PDF, till exempel skannade PDF-filer, till en PDF med inbäddad text. Den inbäddade texten möjliggör djuptextsökning i PDF-filens extraherade innehåll genom att lägga över de identifierade textentiteterna ovanpå bildfilerna.

Viktigt!

För närvarande stöder endast Read OCR-modellen prebuilt-read den sökbara PDF-funktionen. När du använder den här funktionen anger du modelId som prebuilt-read. Andra modelltyper returnerar ett fel för den här förhandsversionen.
Sökbar PDF ingår i 2024-11-30 GA-modellen prebuilt-read utan extra kostnad för att generera sökbara PDF-utdata.

Använda sökbara PDF-filer

Om du vill använda sökbar PDF gör du en POST begäran med hjälp av Analyze åtgärden och anger utdataformatet som pdf:


     POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
     {...}
     202

Sök efter slutförande av åtgärden Analyze . När åtgärden är klar skickar du en GET begäran om att hämta PDF-formatet för åtgärdsresultatet Analyze .

När pdf-filen har slutförts kan den hämtas och laddas ned som application/pdf. Den här åtgärden möjliggör direkt nedladdning av den inbäddade textformen pdf i stället för Base64-kodad JSON.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name    In    Required    Type    Description
endpoint    path    True    
string

uri    
The Document Intelligence service endpoint.

modelId    path    True    
string

Unique document model name.

Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

resultId    path    True    
string

uuid    
Analyze operation result ID.

api-version    query    True    
string

The API version to use for this operation.

Responses
Name    Type    Description
200 OK    
file

The request has succeeded.

Media Types: "application/pdf", "application/json"

Other Status Codes    
DocumentIntelligenceErrorResponse

An unexpected error response.

Media Types: "application/pdf", "application/json"

Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header

OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token

Scopes
Name    Description
https://cognitiveservices.azure.com/.default    
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP

Copy
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON

Copy
"{pdfBinary}"
Definitions
Name    Description
DocumentIntelligenceError    
The error object.

DocumentIntelligenceErrorResponse    
Error response object.

DocumentIntelligenceInnerError    
An object containing more specific information about the error.

DocumentIntelligenceError
The error object.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

details    
DocumentIntelligenceError[]

An array of details about specific errors that led to this reported error.

innererror    
DocumentIntelligenceInnerError

An object containing more specific information than the current object about the error.

message    
string

A human-readable representation of the error.

target    
string

The target of the error.

DocumentIntelligenceErrorResponse
Error response object.

Name    Type    Description
error    
DocumentIntelligenceError

Error info.

DocumentIntelligenceInnerError
An object containing more specific information about the error.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

innererror    
DocumentIntelligenceInnerError

Inner error.

message    
string

A human-readable representation of the error.

In this article
URI Parameters
Responses
Security
Examples

     200 OK
     Content-Type: application/pdf

Sidparameter

Sidsamlingen är en lista över sidor i dokumentet. Varje sida representeras sekventiellt i dokumentet och innehåller orienteringsvinkeln som anger om sidan roteras och bredden och höjden (dimensioner i bildpunkter). Sidenheterna i modellutdata beräknas enligt följande:

Filformat	Beräknad sidenhet	Totalt antal sidor
Bilder (JPEG/JPG, PNG, BMP, HEIF)	Varje bild = 1 sidenhet	Totalt antal bilder
PDF	Varje sida i PDF = 1 sidenhet	Totalt antal sidor i PDF-filen
TIFF	Varje bild i enheten TIFF = 1 sida	Totalt antal bilder i TIFF
Word (DOCX)	Upp till 3 000 tecken = en sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal sidor på upp till 3 000 tecken vardera
Excel (XLSX)	Varje kalkylblad = 1 sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal kalkylblad
PowerPoint (PPTX)	Varje bild = 1 sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal bilder
HTML	Upp till 3 000 tecken = en sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal sidor på upp till 3 000 tecken vardera

Exempelkod
Output

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Visa exempel på GitHub.

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Använda sidor för textextrahering

För stora PDF-dokument med flera sidor använder du pages frågeparametern för att ange specifika sidnummer eller sidintervall för textextrahering.

Extrahering av stycke

Read OCR-modellen i Document Intelligence extraherar alla identifierade textblock i paragraphs samlingen som ett objekt på översta nivån under analyzeResults. Varje post i den här samlingen representerar ett textblock och innehåller den extraherade texten somcontent och avgränsningskoordinaterna polygon . Informationen span pekar på textfragmentet i den översta egenskapen content som innehåller den fullständiga texten från dokumentet.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Extrahering av text, rader och ord

Read OCR-modellen extraherar utskrifts- och handskriven formatmallstext som lines och words. Modellen matar ut avgränsningskoordinater polygon och confidence för extraherade ord. Samlingen styles innehåller alla handskrivna formatmallar för rader om de identifieras tillsammans med de intervall som pekar på den associerade texten. Den här funktionen gäller för handskrivna språk som stöds.

För Microsoft Word, Excel, PowerPoint och HTML extraherar dokumentinformationsmodellen v3.1 och senare versioner all inbäddad text som den är. Texterna är extrated som ord och stycken. Inbäddade bilder stöds inte.

Exempelkod
Output

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Visa exempel på GitHub.

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Extrahering av handskriven stil

Svaret innehåller klassificering av om varje textrad har handskriftsstil eller inte, tillsammans med en konfidenspoäng. Mer information finns istöd för handskrivna språk. I följande exempel visas ett exempel på JSON-kodfragment.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Om du har aktiverat addon-funktionen för teckensnitt/format får du även teckensnitts-/formatmallsresultatet styles som en del av objektet.

Nästa steg v4.0

Slutför en snabbstart för dokumentinformation:

Utforska vårt REST API:

Api för dokumentinformation v4.0

Hitta fler exempel på GitHub:

Läs modell.

Det här innehållet gäller för:v3.1 (GA) | Senaste version: v4.0 (GA) | Tidigare versioner:v3.0

Det här innehållet gäller för:v3.0 (GA) | Senaste versioner: v4.0 (GA)v3.1

Kommentar

Vad är OCR för dokument?

Utvecklingsalternativ

Document Intelligence v3.1 stöder följande verktyg, program och bibliotek:

Funktion	Resurser	Model ID
Läs OCR-modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

Document Intelligence v3.0 stöder följande verktyg, program och bibliotek:

Funktion	Resurser	Model ID
Läs OCR-modell	• Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

Indatakrav

Filformat som stöds:

Modell	PDF	Bild: `JPEG/JPG`, `PNG`, `BMP`, , `TIFFHEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lästa	✔	✔	✔
Layout	✔	✔	✔
Allmänt dokument	✔	✔
Inbyggda	✔	✔
Anpassad extrahering	✔	✔
Anpassad klassificering	✔	✔	✔

För bästa resultat anger du ett tydligt foto eller en genomsökning av hög kvalitet per dokument.
För PDF och TIFF kan upp till 2 000 sidor bearbetas (med en prenumeration på den kostnadsfria nivån bearbetas endast de två första sidorna).
Filstorleken för att analysera dokument är 500 MB för betald (S0) nivå och 4 MB för den kostnadsfria nivån (F0).
Bilddimensioner måste vara mellan 50 bildpunkter x 50 bildpunkter och 10 000 bildpunkter x 10 000 bildpunkter.
Om dina PDF-filer är låsta med lösenord måste du ta bort låset innan du skickar filerna.
Den minsta höjden på texten som ska extraheras är 12 bildpunkter för en bild på 1 024 x 768 bildpunkter. Den här dimensionen motsvarar om 8 punkttext vid 150 punkter per tum (DPI).
För anpassad modellträning är det maximala antalet sidor för träningsdata 500 för den anpassade mallmodellen och 50 000 för den anpassade neurala modellen.
- För anpassad extraheringsmodellträning är den totala storleken på träningsdata 50 MB för mallmodellen och 1 GB för den neurala modellen.
- För anpassad klassificeringsmodellträning är 1 den totala storleken på träningsdata GB med högst 10 000 sidor. För 2024-11-30 (GA) är 2 den totala storleken på träningsdata GB med högst 10 000 sidor.

Kom igång med läsmodell

Prova att extrahera text från formulär och dokument med hjälp av Document Intelligence Studio. Du behöver följande tillgångar:

En Azure-prenumeration – du kan skapa en kostnadsfritt.
En instans av dokumentinformation i Azure Portal. Du kan använda den kostnadsfria prisnivån (F0) för att prova tjänsten. När resursen har distribuerats väljer du Gå till resurs för att hämta din nyckel och slutpunkt.

Skärmbild av nycklar och slutpunktsplats i Azure Portal.

Kommentar

Document Intelligence Studio stöder för närvarande inte Microsoft Word-, Excel-, PowerPoint- och HTML-filformat.

Exempeldokument som bearbetas med Document Intelligence Studio

Skärmbild av läsbearbetning i Document Intelligence Studio.

På startsidan för Document Intelligence Studio väljer du Läs.
Du kan analysera exempeldokumentet eller ladda upp dina egna filer.
Välj knappen Kör analys och konfigurera vid behov alternativen Analysera:

Prova Document Intelligence Studio.

Språk och nationella inställningar som stöds

Se sidan Språkstöd – modeller för dokumentanalys för en fullständig lista över språk som stöds.

Extrahering av data

Kommentar

Microsoft Word- och HTML-filen stöds i v4.0. Följande funktioner stöds för närvarande inte:

Ingen vinkel, bredd/höjd och enhet som returneras med varje sidobjekt.
Det finns ingen avgränsande polygon eller avgränsningsregion för varje objekt som identifieras.
Inget sidintervall (pages) som en parameter returnerades.
Inget lines objekt.

Sökbar PDF

Viktigt!

För närvarande stöder endast Read OCR-modellen prebuilt-read den sökbara PDF-funktionen. När du använder den här funktionen anger du modelId som prebuilt-read. Andra modelltyper returnerar ett fel.
Sökbar PDF ingår i 2024-11-30prebuilt-read modellen utan extra kostnad för att generera sökbara PDF-utdata.
- Sökbar PDF stöder för närvarande endast PDF-filer som indata.

Använda sökbar PDF

Om du vill använda sökbar PDF gör du en POST begäran med hjälp av Analyze åtgärden och anger utdataformatet som pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Sök efter slutförande av åtgärden Analyze . När åtgärden är klar skickar du en GET begäran om att hämta PDF-formatet för åtgärdsresultatet Analyze .


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Sidor

Filformat	Beräknad sidenhet	Totalt antal sidor
Bilder (JPEG/JPG, PNG, BMP, HEIF)	Varje bild = 1 sidenhet	Totalt antal bilder
PDF	Varje sida i PDF = 1 sidenhet	Totalt antal sidor i PDF-filen
TIFF	Varje bild i enheten TIFF = 1 sida	Totalt antal bilder i TIFF
Word (DOCX)	Upp till 3 000 tecken = en sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal sidor på upp till 3 000 tecken vardera
Excel (XLSX)	Varje kalkylblad = 1 sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal kalkylblad
PowerPoint (PPTX)	Varje bild = 1 sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal bilder
HTML	Upp till 3 000 tecken = en sidenhet, inbäddade eller länkade bilder stöds inte	Totalt antal sidor på upp till 3 000 tecken vardera

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Exempelkod
Output

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Visa exempel på GitHub.

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Välj sidor för extrahering av text

För stora PDF-dokument med flera sidor använder du pages frågeparametern för att ange specifika sidnummer eller sidintervall för textextrahering.

Punkterna

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Text, rader och ord


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Exempelkod
Output

    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Visa exempel på GitHub.

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Handskriven stil för textrader

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Om du har aktiverat addon-funktionen för teckensnitt/format får du även teckensnitts-/formatmallsresultatet styles som en del av objektet.

Nästa steg

Slutför en snabbstart för dokumentinformation:

Utforska vårt REST API:

Api för dokumentinformation v4.0

Hitta fler exempel på GitHub:

Läs modell.

Dela via

Läsmodell för dokumentinformation

Vad är optisk teckenigenkänning?

Utvecklingsalternativ (v4)

Indatakrav (v4)

Kom igång med läsmodell (v4)

Språk och språk som stöds (v4)

Extrahering av data (v4)

Sökbara PDF-filer

Använda sökbara PDF-filer

Sidparameter

Använda sidor för textextrahering

Extrahering av stycke

Extrahering av text, rader och ord

Extrahering av handskriven stil

Nästa steg v4.0

Vad är OCR för dokument?

Utvecklingsalternativ

Indatakrav

Kom igång med läsmodell

Språk och nationella inställningar som stöds

Extrahering av data

Sökbar PDF

Använda sökbar PDF

Sidor

Välj sidor för extrahering av text

Punkterna

Text, rader och ord

Handskriven stil för textrader

Nästa steg

Feedback

Ytterligare resurser