Delen via


Document Intelligence-leesmodel

Belangrijk

  • Openbare preview-versies van Document Intelligence bieden vroegtijdige toegang tot functies die actief zijn in ontwikkeling. Functies, benaderingen en processen kunnen veranderen, vóór algemene beschikbaarheid (GA), op basis van feedback van gebruikers.
  • De openbare preview-versie van Document Intelligence-clientbibliotheken is standaard ingesteld op REST API-versie 2024-07-31-preview.
  • Openbare preview-versie 2024-07-31-preview is momenteel alleen beschikbaar in de volgende Azure-regio's. Houd er rekening mee dat het aangepaste model voor generatieve (extractie van documentvelden) in AI Studio alleen beschikbaar is in de regio VS - noord-centraal:
    • VS - oost
    • VS - west 2
    • Europa -west
    • VS - noord-centraal

Deze inhoud is van toepassing op:vinkje v4.0 (preview) | Vorige versies: blauw-vinkje v3.1 (GA) blauw-vinkje v3.0 (GA)

Deze inhoud is van toepassing op:vinkje v4.0 (preview) | Vorige versies: blauw-vinkje v3.1 (GA) blauw-vinkje v3.0 (GA)

Notitie

Voor het extraheren van tekst uit externe afbeeldingen, zoals labels, straatborden en posters, gebruikt u de azure AI-afbeeldingsanalyse v4.0-leesfunctie die is geoptimaliseerd voor algemene, niet-documentafbeeldingen met een synchrone API die het gemakkelijker maakt OCR in te sluiten in scenario's met gebruikerservaring.

Het OCR-model (Document Intelligence Read Optical Character Recognition) wordt uitgevoerd met een hogere resolutie dan Azure AI Vision Lezen en extraheert afdrukken en handgeschreven tekst uit PDF-documenten en gescande afbeeldingen. Het bevat ook ondersteuning voor het extraheren van tekst uit Microsoft Word-, Excel-, PowerPoint- en HTML-documenten. Hiermee worden alinea's, tekstregels, woorden, locaties en talen gedetecteerd. Het leesmodel is de onderliggende OCR-engine voor andere vooraf samengestelde Document Intelligence-modellen, zoals Indeling, Algemeen Document, Factuur, Ontvangst, Id-document, Gezondheidsverzekeringskaart, W2 naast aangepaste modellen.

Wat is Optische tekenherkenning?

Optical Character Recognition (OCR) voor documenten is geoptimaliseerd voor grote tekstzware documenten in meerdere bestandsindelingen en globale talen. Het bevat functies zoals het scannen van documentafbeeldingen met een hogere resolutie voor een betere verwerking van kleinere en compacte tekst; alineadetectie; en invulbaar formulierbeheer. OCR-mogelijkheden omvatten ook geavanceerde scenario's zoals vakken met één teken en nauwkeurige extractie van sleutelvelden die vaak worden gevonden in facturen, ontvangsten en andere vooraf gedefinieerde scenario's.

Ontwikkelingsopties (v4)

Document Intelligence v4.0 (2024-07-31-preview) ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:

Functie Resources Model-id
OCR-model lezen Document Intelligence Studio
REST API
C# SDK
• Python SDK
Java SDK
JavaScript SDK
vooraf gedefinieerde leesbewerking

Invoervereisten (v4)

  • Ondersteunde bestandsindelingen:

    Modelleren PDF Afbeelding:
    JPEG/JPG, PNG, BMP, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Read
    Indeling ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Algemeen document
    Vooraf gebouwd
    Aangepaste extractie
    Aangepaste classificatie ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.

  • Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).

  • De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en 4 MB voor gratis (F0).

  • De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.

  • Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.

  • De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met punttekst 8 op 150 punten per inch (DPI).

  • Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.

    • Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en 1 GB voor het neurale model.

    • Voor het trainen van aangepast classificatiemodel is 1 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's. Voor 2024-07-31-preview en hoger is 2 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's.

Aan de slag met het leesmodel (v4)

Probeer tekst uit formulieren en documenten te extraheren met behulp van Document Intelligence Studio. U hebt de volgende assets nodig:

  • Een Azure-abonnement: u kunt er gratis een maken.

  • Een Document Intelligence-exemplaar in Azure Portal. U kunt de gratis prijscategorie (F0) gebruiken om de service te proberen. Nadat uw resource is geïmplementeerd, selecteert u Ga naar de resource om uw sleutel en eindpunt op te halen.

    Schermopname van sleutels en eindpuntlocatie in Azure Portal.

Notitie

Op dit moment biedt Document Intelligence Studio geen ondersteuning voor Microsoft Word-, Excel-, PowerPoint- en HTML-bestandsindelingen.

Voorbeelddocument verwerkt met Document Intelligence Studio

Schermopname van leesverwerking in Document Intelligence Studio.

  1. Selecteer Lezen op de startpagina van Document Intelligence Studio.

  2. U kunt het voorbeelddocument analyseren of uw eigen bestanden uploaden.

  3. Selecteer de knop Analyse uitvoeren en configureer indien nodig de opties analyseren:

    Schermopname van de knoppen Analyse uitvoeren en Opties analyseren in Document Intelligence Studio.

Ondersteunde talen en landinstellingen (v4)

Zie onze pagina Taalondersteuning: documentanalysemodellen voor een volledige lijst met ondersteunde talen.

Gegevensextractie (v4)

Notitie

Microsoft Word- en HTML-bestand worden ondersteund in v4.0. In vergelijking met PDF en afbeeldingen worden de onderstaande functies niet ondersteund:

  • Er zijn geen hoeken, breedte/hoogte en eenheid voor elk paginaobject.
  • Voor elk gedetecteerd object is er geen begrenzings- of begrenzingsregio.
  • Paginabereik (pages) wordt niet ondersteund als parameter.
  • Geen lines object.

Doorzoekbare PDF's

Met de doorzoekbare PDF-functie kunt u een analoge PDF, zoals gescande PDF-bestanden, converteren naar een PDF met ingesloten tekst. Met de ingesloten tekst kunt u diep zoeken in de geëxtraheerde inhoud van het PDF-bestand door de gedetecteerde tekstentiteiten boven op de afbeeldingsbestanden te plaatsen.

Belangrijk

  • Op dit moment wordt de doorzoekbare PDF-functie alleen ondersteund door het Read OCR-model prebuilt-read. Wanneer u deze functie gebruikt, geeft u het modelId op als prebuilt-read, omdat andere modeltypen een fout retourneren voor deze preview-versie.
  • Doorzoekbare PDF is opgenomen in het model 2024-07-31-preview prebuilt-read zonder extra kosten voor het genereren van een doorzoekbare PDF-uitvoer.

Doorzoekbare PDF-bestanden gebruiken

Als u doorzoekbare PDF wilt gebruiken, maakt u een POST aanvraag met behulp van de Analyze bewerking en geeft u de uitvoerindeling op als pdf:


     POST /documentModels/prebuilt-read:analyze?output=pdf
     {...}
     202

Peiling voor voltooiing van de Analyze bewerking. Zodra de bewerking is voltooid, moet u een GET aanvraag indienen om de PDF-indeling van de Analyze bewerkingsresultaten op te halen.

Na een geslaagde voltooiing kan de PDF worden opgehaald en gedownload als application/pdf. Met deze bewerking kunt u direct downloaden van de ingesloten tekstvorm van PDF in plaats van met Base64 gecodeerde JSON.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
     200 OK
     Content-Type: application/pdf

Parameter Pagina's

De verzameling pagina's is een lijst met pagina's in het document. Elke pagina wordt opeenvolgend in het document weergegeven en bevat de richtingshoek die aangeeft of de pagina wordt gedraaid en de breedte en hoogte (afmetingen in pixels). De pagina-eenheden in de modeluitvoer worden berekend zoals weergegeven:

Bestandsindeling Berekende pagina-eenheid Totaal aantal pagina's
Afbeeldingen (JPEG/JPG, PNG, BMP, HEIF) Elke afbeelding = 1 pagina-eenheid Totaal aantal afbeeldingen
PDF Elke pagina in de PDF = 1 pagina-eenheid Totaal aantal pagina's in het PDF-bestand
TIFF Elke afbeelding in de TIFF = 1 pagina-eenheid Totaal aantal afbeeldingen in de TIFF
Word (DOCX) Maximaal 3000 tekens = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen worden niet ondersteund Totaal aantal pagina's van maximaal 3000 tekens per pagina
Excel (XLSX) Elk werkblad = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen wordt niet ondersteund Totaal aantal werkbladen
PowerPoint (PPTX) Elke dia = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen wordt niet ondersteund Totaal aantal dia's
HTML Maximaal 3000 tekens = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen worden niet ondersteund Totaal aantal pagina's van maximaal 3000 tekens per pagina
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Pagina's gebruiken voor tekstextractie

Voor grote PDF-documenten met meerdere pagina's gebruikt u de pages queryparameter om specifieke paginanummers of paginabereiken aan te geven voor tekstextractie.

Alinea-extractie

Het READ OCR-model in Document Intelligence extraheert alle geïdentificeerde tekstblokken in de paragraphs verzameling als een object op het hoogste niveau onder analyzeResults. Elke vermelding in deze verzameling vertegenwoordigt een tekstblok en bevat de geëxtraheerde tekst alscontent en de begrenzingscoördinaten polygon . De span informatie verwijst naar het tekstfragment in de eigenschap op het hoogste niveau content die de volledige tekst uit het document bevat.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Extractie van tekst, lijnen en woorden

Het OCR-model Lezen extraheert tekst in afdruk- en handgeschreven stijl als lines en words. Het model voert begrenzingscoördinaten polygon en confidence voor de geëxtraheerde woorden uit. De styles verzameling bevat een handgeschreven stijl voor lijnen als deze worden gedetecteerd, samen met de spanten die verwijzen naar de bijbehorende tekst. Deze functie is van toepassing op ondersteunde handgeschreven talen.

Voor Microsoft Word, Excel, PowerPoint en HTML extraheert Document Intelligence Read model v3.1 en latere versies alle ingesloten tekst zoals dat is. Teksten worden als woorden en alinea's uitgeleverd. Ingesloten afbeeldingen worden niet ondersteund.

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Handgeschreven stijlextractie

Het antwoord omvat het classificeren of elke tekstregel een handschriftstijl heeft of niet, samen met een betrouwbaarheidsscore. Zie handgeschreven taalondersteuning voor meer informatie. In het volgende voorbeeld ziet u een voorbeeld van een JSON-fragment.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Als u de mogelijkheid voor de invoegtoepassing lettertype/stijl hebt ingeschakeld, krijgt u ook het resultaat lettertype/stijl als onderdeel van het styles object.

Volgende stappen v4.0

Voltooi een quickstart voor Document Intelligence:

Verken onze REST API:

Meer voorbeelden vinden op GitHub:

Deze inhoud is van toepassing op: vinkje v3.1 (GA) | Nieuwste versie: paars vinkje v4.0 (preview) | Vorige versies: blauw-vinkje v3.0

Deze inhoud is van toepassing op: vinkje v3.0 (GA) | Nieuwste versies: paars vinkje v4.0 (preview) paars vinkje v3.1

Notitie

Voor het extraheren van tekst uit externe afbeeldingen, zoals labels, straatborden en posters, gebruikt u de azure AI-afbeeldingsanalyse v4.0-leesfunctie die is geoptimaliseerd voor algemene, niet-documentafbeeldingen met een synchrone API die het gemakkelijker maakt OCR in te sluiten in scenario's met gebruikerservaring.

Het OCR-model (Document Intelligence Read Optical Character Recognition) wordt uitgevoerd met een hogere resolutie dan Azure AI Vision Lezen en extraheert afdrukken en handgeschreven tekst uit PDF-documenten en gescande afbeeldingen. Het bevat ook ondersteuning voor het extraheren van tekst uit Microsoft Word-, Excel-, PowerPoint- en HTML-documenten. Hiermee worden alinea's, tekstregels, woorden, locaties en talen gedetecteerd. Het leesmodel is de onderliggende OCR-engine voor andere vooraf samengestelde Document Intelligence-modellen, zoals Indeling, Algemeen Document, Factuur, Ontvangst, Id-document, Gezondheidsverzekeringskaart, W2 naast aangepaste modellen.

Wat is OCR voor documenten?

Optical Character Recognition (OCR) voor documenten is geoptimaliseerd voor grote tekstzware documenten in meerdere bestandsindelingen en globale talen. Het bevat functies zoals het scannen van documentafbeeldingen met een hogere resolutie voor een betere verwerking van kleinere en compacte tekst; alineadetectie; en invulbaar formulierbeheer. OCR-mogelijkheden omvatten ook geavanceerde scenario's zoals vakken met één teken en nauwkeurige extractie van sleutelvelden die vaak worden gevonden in facturen, ontvangsten en andere vooraf gedefinieerde scenario's.

Ontwikkelingsopties

Document Intelligence v3.1 ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:

Functie Resources Model-id
OCR-model lezen Document Intelligence Studio
REST API
C# SDK
• Python SDK
Java SDK
JavaScript SDK
vooraf gedefinieerde leesbewerking

Document Intelligence v3.0 ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:

Functie Resources Model-id
OCR-model lezen Document Intelligence Studio
REST API
C# SDK
• Python SDK
Java SDK
JavaScript SDK
vooraf gedefinieerde leesbewerking

Vereisten voor invoer

  • Ondersteunde bestandsindelingen:

    Modelleren PDF Afbeelding:
    JPEG/JPG, PNG, BMP, , TIFFHEIF
    Microsoft Office:
    Word (), Excel (XLSXDOCX), PowerPoint (PPTX), HTML
    Read
    Indeling ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Algemeen document
    Vooraf gebouwd
    Aangepaste extractie
    Aangepaste classificatie ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Geef voor de beste resultaten één duidelijke foto of een hoogwaardige scan per document op.

  • Voor PDF en TIFF kunnen maximaal 2000 pagina's worden verwerkt (met een gratis abonnement worden alleen de eerste twee pagina's verwerkt).

  • De bestandsgrootte voor het analyseren van documenten is 500 MB voor betaalde (S0) laag en 4 MB voor gratis (F0).

  • De afmetingen van de afbeelding moeten tussen 50 x 50 pixels en 10.000 pixels x 10.000 pixels zijn.

  • Als uw PDF's zijn vergrendeld met een wachtwoord, moet u de vergrendeling verwijderen voordat u ze indient.

  • De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768 pixels. Deze dimensie komt overeen met punttekst 8 op 150 punten per inch (DPI).

  • Voor aangepaste modeltraining is het maximum aantal pagina's voor trainingsgegevens 500 voor het aangepaste sjabloonmodel en 50.000 voor het aangepaste neurale model.

    • Voor het trainen van aangepaste extractiemodellen is de totale grootte van trainingsgegevens 50 MB voor het sjabloonmodel en 1 GB voor het neurale model.

    • Voor het trainen van aangepast classificatiemodel is 1 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's. Voor 2024-07-31-preview en hoger is 2 de totale grootte van trainingsgegevens GB met maximaal 10.000 pagina's.

Aan de slag met het leesmodel

Probeer tekst uit formulieren en documenten te extraheren met behulp van Document Intelligence Studio. U hebt de volgende assets nodig:

  • Een Azure-abonnement: u kunt er gratis een maken.

  • Een Document Intelligence-exemplaar in Azure Portal. U kunt de gratis prijscategorie (F0) gebruiken om de service te proberen. Nadat uw resource is geïmplementeerd, selecteert u Ga naar de resource om uw sleutel en eindpunt op te halen.

Schermopname van sleutels en eindpuntlocatie in Azure Portal.

Notitie

Op dit moment biedt Document Intelligence Studio geen ondersteuning voor Microsoft Word-, Excel-, PowerPoint- en HTML-bestandsindelingen.

Voorbeelddocument verwerkt met Document Intelligence Studio

Schermopname van leesverwerking in Document Intelligence Studio.

  1. Selecteer Lezen op de startpagina van Document Intelligence Studio.

  2. U kunt het voorbeelddocument analyseren of uw eigen bestanden uploaden.

  3. Selecteer de knop Analyse uitvoeren en configureer indien nodig de opties analyseren:

    Schermopname van de knoppen Analyse uitvoeren en Opties analyseren in Document Intelligence Studio.

Ondersteunde talen en landinstellingen

Zie onze pagina Taalondersteuning: documentanalysemodellen voor een volledige lijst met ondersteunde talen.

Gegevensextractie

Notitie

Microsoft Word- en HTML-bestand worden ondersteund in v3.1 en latere versies. In vergelijking met PDF en afbeeldingen worden de onderstaande functies niet ondersteund:

  • Er zijn geen hoeken, breedte/hoogte en eenheid voor elk paginaobject.
  • Voor elk gedetecteerd object is er geen begrenzings- of begrenzingsregio.
  • Paginabereik (pages) wordt niet ondersteund als parameter.
  • Geen lines object.

Doorzoekbare PDF

Met de doorzoekbare PDF-functie kunt u een analoge PDF, zoals gescande PDF-bestanden, converteren naar een PDF met ingesloten tekst. Met de ingesloten tekst kunt u diep zoeken in de geëxtraheerde inhoud van het PDF-bestand door de gedetecteerde tekstentiteiten boven op de afbeeldingsbestanden te plaatsen.

Belangrijk

  • Op dit moment wordt de doorzoekbare PDF-functie alleen ondersteund door het Read OCR-model prebuilt-read. Wanneer u deze functie gebruikt, geeft u het modelId op als prebuilt-read, omdat andere modeltypen een fout retourneren voor deze preview-versie.
  • Doorzoekbare PDF is opgenomen in het model 2024-07-31-preview prebuilt-read zonder extra kosten voor het genereren van een doorzoekbare PDF-uitvoer.
    • Doorzoekbare PDF ondersteunt momenteel alleen PDF-bestanden als invoer. Ondersteuning voor andere bestandstypen, zoals afbeeldingsbestanden, is later beschikbaar.

Doorzoekbare PDF gebruiken

Als u doorzoekbare PDF wilt gebruiken, maakt u een POST aanvraag met behulp van de Analyze bewerking en geeft u de uitvoerindeling op als pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Peiling voor voltooiing van de Analyze bewerking. Zodra de bewerking is voltooid, moet u een GET aanvraag indienen om de PDF-indeling van de Analyze bewerkingsresultaten op te halen.

Na een geslaagde voltooiing kan de PDF worden opgehaald en gedownload als application/pdf. Met deze bewerking kunt u direct downloaden van de ingesloten tekstvorm van PDF in plaats van met Base64 gecodeerde JSON.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Pagina's

De verzameling pagina's is een lijst met pagina's in het document. Elke pagina wordt opeenvolgend in het document weergegeven en bevat de richtingshoek die aangeeft of de pagina wordt gedraaid en de breedte en hoogte (afmetingen in pixels). De pagina-eenheden in de modeluitvoer worden berekend zoals weergegeven:

Bestandsindeling Berekende pagina-eenheid Totaal aantal pagina's
Afbeeldingen (JPEG/JPG, PNG, BMP, HEIF) Elke afbeelding = 1 pagina-eenheid Totaal aantal afbeeldingen
PDF Elke pagina in de PDF = 1 pagina-eenheid Totaal aantal pagina's in het PDF-bestand
TIFF Elke afbeelding in de TIFF = 1 pagina-eenheid Totaal aantal afbeeldingen in de TIFF
Word (DOCX) Maximaal 3000 tekens = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen worden niet ondersteund Totaal aantal pagina's van maximaal 3000 tekens per pagina
Excel (XLSX) Elk werkblad = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen wordt niet ondersteund Totaal aantal werkbladen
PowerPoint (PPTX) Elke dia = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen wordt niet ondersteund Totaal aantal dia's
HTML Maximaal 3000 tekens = 1 pagina-eenheid, ingesloten of gekoppelde afbeeldingen worden niet ondersteund Totaal aantal pagina's van maximaal 3000 tekens per pagina
    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Pagina's selecteren voor tekstextractie

Voor grote PDF-documenten met meerdere pagina's gebruikt u de pages queryparameter om specifieke paginanummers of paginabereiken aan te geven voor tekstextractie.

Leden

Het READ OCR-model in Document Intelligence extraheert alle geïdentificeerde tekstblokken in de paragraphs verzameling als een object op het hoogste niveau onder analyzeResults. Elke vermelding in deze verzameling vertegenwoordigt een tekstblok en bevat de geëxtraheerde tekst alscontent en de begrenzingscoördinaten polygon . De span informatie verwijst naar het tekstfragment in de eigenschap op het hoogste niveau content die de volledige tekst uit het document bevat.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Tekst, regels en woorden

Het OCR-model Lezen extraheert tekst in afdruk- en handgeschreven stijl als lines en words. Het model voert begrenzingscoördinaten polygon en confidence voor de geëxtraheerde woorden uit. De styles verzameling bevat een handgeschreven stijl voor lijnen als deze worden gedetecteerd, samen met de spanten die verwijzen naar de bijbehorende tekst. Deze functie is van toepassing op ondersteunde handgeschreven talen.

Voor Microsoft Word, Excel, PowerPoint en HTML extraheert Document Intelligence Read model v3.1 en latere versies alle ingesloten tekst zoals dat is. Teksten worden als woorden en alinea's uitgeleverd. Ingesloten afbeeldingen worden niet ondersteund.


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]
    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Handgeschreven stijl voor tekstregels

Het antwoord omvat het classificeren of elke tekstregel een handschriftstijl heeft of niet, samen met een betrouwbaarheidsscore. Zie handgeschreven taalondersteuning voor meer informatie. In het volgende voorbeeld ziet u een voorbeeld van een JSON-fragment.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Als u de mogelijkheid voor de invoegtoepassing lettertype/stijl hebt ingeschakeld, krijgt u ook het resultaat lettertype/stijl als onderdeel van het styles object.

Volgende stappen

Voltooi een quickstart voor Document Intelligence:

Verken onze REST API:

Meer voorbeelden vinden op GitHub: