Modelo de leitura do Document Intelligence

Artigo
02/19/2025

Este conteúdo aplica-se a:v4.0 (GA) | Versões anteriores: v3.1 (GA)v3.0 (GA)

Nota

Para extrair texto de imagens externas, como rótulos, placas de rua e cartazes, use o recurso de leitura do Azure AI Image Analysis v4.0 otimizado para imagens gerais (não de documentos) com uma API síncrona com desempenho aprimorado. Esse recurso facilita a incorporação de OCR em cenários de experiência do usuário em tempo real.

O modelo OCR (Document Intelligence Read Optical Character Recognition) é executado em uma resolução mais alta do que o Azure AI Vision Read e extrai texto impresso e manuscrito de documentos PDF e imagens digitalizadas. Ele também inclui suporte para extrair texto de documentos do Microsoft Word, Excel, PowerPoint e HTML. Ele deteta parágrafos, linhas de texto, palavras, locais e idiomas. O modelo Read é o mecanismo de OCR subjacente para outros modelos pré-construídos de Document Intelligence como Layout, Documento Geral, Fatura, Recibo, Documento de Identidade (ID), Cartão de seguro de saúde, W2, além de modelos personalizados.

O que é o Reconhecimento Ótico de Caracteres?

O Reconhecimento Ótico de Caracteres (OCR) para documentos é otimizado para documentos grandes com muito texto em vários formatos de arquivo e idiomas globais. Inclui funcionalidades como digitalização de imagens de documentos de alta resolução para um melhor manuseamento de texto mais pequeno e denso; deteção de parágrafos; e gestão de formulários preenchíveis. Os recursos de OCR também incluem cenários avançados, como caixas de caracteres únicos e extração precisa de campos-chave comumente encontrados em faturas, recibos e outros cenários pré-construídos.

Opções de desenvolvimento (v4)

O Document Intelligence v4.0: 2024-11-30 (GA) suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística	Recursos	Model ID
Ler modelo OCR	• Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK	leitura pré-embutida

Requisitos de entrada (v4)

Formatos de ficheiro suportados:

Modelo	PDF	Imagem: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, , `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lida	✔	✔	✔
Esquema	✔	✔	✔
Documento Geral	✔	✔
Pré-criado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca 8 de texto pontual a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Introdução ao modelo Read (v4)

Tente extrair texto de formulários e documentos usando o Document Intelligence Studio. Você precisa dos seguintes ativos:

Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Nota

Atualmente, o Document Intelligence Studio não suporta os formatos de arquivo Microsoft Word, Excel, PowerPoint e HTML.

Exemplo de documento processado com o Document Intelligence Studio

Captura de tela do processamento de leitura no Document Intelligence Studio.

Na home page do Document Intelligence Studio, selecione Ler.
Pode analisar o documento de exemplo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

Experimente o Document Intelligence Studio.

Idiomas e localidades suportados (v4)

Consulte a nossa página Suporte a idiomas — modelos de análise de documentos para obter uma lista completa dos idiomas suportados.

Extração de dados (v4)

Nota

Microsoft Word e arquivo HTML são suportados na v4.0. Os seguintes recursos não são suportados no momento:

Nenhum ângulo, largura/altura e unidade retornados com cada objeto de página.
Nenhum polígono delimitador ou região delimitadora para cada objeto detetado.
Nenhum intervalo de páginas (pages) como parâmetro retornado.
Nenhum lines objeto.

PDFs pesquisáveis

O recurso de PDF pesquisável permite converter um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto incorporado. O texto incorporado permite a pesquisa profunda de texto dentro do conteúdo extraído do PDF, sobrepondo as entidades de texto detetadas sobre os arquivos de imagem.

Importante

Atualmente, apenas o modelo prebuilt-read Read OCR suporta a capacidade de PDF pesquisável. Ao usar esse recurso, especifique o modelId como prebuilt-read. Outros tipos de modelo retornam um erro para esta versão de visualização.
O PDF pesquisável está incluído no modelo GA 2024-11-30prebuilt-read sem custo adicional para gerar uma saída PDF pesquisável.

Usar PDFs pesquisáveis

Para usar PDF pesquisável, faça uma POST solicitação usando a Analyze operação e especifique o formato de saída como pdf:


     POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
     {...}
     202

Sondagem para conclusão da Analyze operação. Quando a operação estiver concluída, emita uma GET solicitação para recuperar o formato PDF dos resultados da Analyze operação.

Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf. Esta operação permite o download direto da forma de texto incorporado do PDF em vez do JSON codificado em Base64.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name    In    Required    Type    Description
endpoint    path    True    
string

uri    
The Document Intelligence service endpoint.

modelId    path    True    
string

Unique document model name.

Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

resultId    path    True    
string

uuid    
Analyze operation result ID.

api-version    query    True    
string

The API version to use for this operation.

Responses
Name    Type    Description
200 OK    
file

The request has succeeded.

Media Types: "application/pdf", "application/json"

Other Status Codes    
DocumentIntelligenceErrorResponse

An unexpected error response.

Media Types: "application/pdf", "application/json"

Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header

OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.microsoftonline.com/common/oauth2/authorize
Token URL: https://login.microsoftonline.com/common/oauth2/token

Scopes
Name    Description
https://cognitiveservices.azure.com/.default    
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP

Copy
GET https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON

Copy
"{pdfBinary}"
Definitions
Name    Description
DocumentIntelligenceError    
The error object.

DocumentIntelligenceErrorResponse    
Error response object.

DocumentIntelligenceInnerError    
An object containing more specific information about the error.

DocumentIntelligenceError
The error object.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

details    
DocumentIntelligenceError[]

An array of details about specific errors that led to this reported error.

innererror    
DocumentIntelligenceInnerError

An object containing more specific information than the current object about the error.

message    
string

A human-readable representation of the error.

target    
string

The target of the error.

DocumentIntelligenceErrorResponse
Error response object.

Name    Type    Description
error    
DocumentIntelligenceError

Error info.

DocumentIntelligenceInnerError
An object containing more specific information about the error.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

innererror    
DocumentIntelligenceInnerError

Inner error.

message    
string

A human-readable representation of the error.

In this article
URI Parameters
Responses
Security
Examples

     200 OK
     Content-Type: application/pdf

Parâmetro Pages

A coleção pages é uma lista de páginas dentro do documento. Cada página é representada sequencialmente dentro do documento e inclui o ângulo de orientação que indica se a página é girada e a largura e altura (dimensões em pixels). As unidades de página na saída do modelo são calculadas como mostrado:

Formato do ficheiro	Unidade de página computada	Total de páginas
Imagens (JPEG/JPG, PNG, BMP, HEIF)	Cada imagem = 1 unidade de página	Total de imagens
PDF	Cada página no PDF = unidade de 1 página	Total de páginas no PDF
TIFF	Cada imagem no TIFF = 1 unidade de página	Total de imagens no TIFF
Palavra (DOCX)	Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de páginas de até 3.000 caracteres cada
Excel (XLSX)	Cada planilha = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de planilhas
PowerPoint (PPTX)	Cada slide = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de diapositivos
HTML	Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de páginas de até 3.000 caracteres cada

Código de exemplo
Saída

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Veja exemplos no GitHub.

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Usar páginas para extração de texto

Para documentos PDF grandes de várias páginas, use o pages parâmetro query para indicar números de página específicos ou intervalos de páginas para extração de texto.

Extração de parágrafos

O modelo Read OCR no Document Intelligence extrai todos os blocos de texto identificados na paragraphs coleção como um objeto de nível superior em analyzeResults. Cada entrada nesta coleção representa um bloco de texto e inclui o texto extraído comocontent e as coordenadas delimitadoras polygon . As span informações apontam para o fragmento de texto dentro da propriedade de nível content superior que contém o texto completo do documento.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Extração de texto, linhas e palavras

O modelo Read OCR extrai texto de estilo impresso e manuscrito como lines e words. O modelo produz coordenadas delimitadoras polygon e confidence para as palavras extraídas. A styles coleção inclui qualquer estilo manuscrito para linhas, se detetado junto com as extensões apontando para o texto associado. Este recurso aplica-se aos idiomas manuscritos suportados.

Para Microsoft Word, Excel, PowerPoint e HTML, o Document Intelligence Read model v3.1 e versões posteriores extrai todo o texto incorporado como está. Os textos são extraditados sob a forma de palavras e parágrafos. Não há suporte para imagens incorporadas.

Código de exemplo
Saída

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Veja exemplos no GitHub.

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Extração de estilo manuscrito

A resposta inclui classificar se cada linha de texto é de estilo de caligrafia ou não, juntamente com uma pontuação de confiança. Para obter mais informações, consulteSuporte a idiomas manuscritos. O exemplo a seguir mostra um trecho JSON de exemplo.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Se você ativou o recurso de complemento de fonte/estilo, também obterá o resultado de fonte/estilo como parte do styles objeto.

Próximos passos v4.0

Conclua um guia de início rápido do Document Intelligence:

Explore a nossa API REST:

API de Inteligência Documental v4.0

Encontre mais exemplos no GitHub:

Leia o modelo.

Este conteúdo aplica-se a:v3.1 (GA) | Última versão:v4.0 (GA) | Versões anteriores:v3.0

Este conteúdo aplica-se a:v3.0 (GA) | Últimas versões: v4.0 (GA)v3.1

Nota

O que é OCR para documentos?

Opções de desenvolvimento

O Document Intelligence v3.1 suporta as seguintes ferramentas, aplicativos e bibliotecas:

Caraterística	Recursos	Model ID
Ler modelo OCR	• Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK	leitura pré-embutida

O Document Intelligence v3.0 suporta as seguintes ferramentas, aplicações e bibliotecas:

Caraterística	Recursos	Model ID
Ler modelo OCR	• Document Intelligence Studio • API REST • C# SDK • Python SDK • Java SDK • JavaScript SDK	leitura pré-embutida

Requisitos de entrada

Formatos de ficheiro suportados:

Modelo	PDF	Imagem: `JPEG/JPG`, `PNG`, `BMP`, `TIFF`, , `HEIF`	Microsoft Office: Word (`DOCX`), Excel (`XLSX`), PowerPoint (`PPTX`), HTML
Lida	✔	✔	✔
Esquema	✔	✔	✔
Documento Geral	✔	✔
Pré-criado	✔	✔
Extração personalizada	✔	✔
Classificação personalizada	✔	✔	✔

Para obter melhores resultados, forneça uma foto nítida ou uma digitalização de alta qualidade por documento.
Para PDF e TIFF, até 2.000 páginas podem ser processadas (com uma assinatura de nível gratuito, apenas as duas primeiras páginas são processadas).
O tamanho do arquivo para analisar documentos é de 500 MB para a camada paga (S0) e 4 MB para a camada gratuita (F0).
As dimensões da imagem devem estar entre 50 pixels x 50 pixels e 10.000 pixels x 10.000 pixels.
Se os seus PDFs forem bloqueados por uma palavra-passe, terá de remover o bloqueio antes da submetê-los.
A altura mínima do texto a ser extraído é de 12 pixels para uma imagem de 1024 x 768 pixels. Esta dimensão corresponde a cerca 8 de texto pontual a 150 pontos por polegada (DPI).
Para treinamento de modelo personalizado, o número máximo de páginas para dados de treinamento é 500 para o modelo de modelo personalizado e 50.000 para o modelo neural personalizado.
- Para o treinamento do modelo de extração personalizado, o tamanho total dos dados de treinamento é de 50 MB para o modelo de modelo e 1 GB para o modelo neural.
- Para treinamento de modelo de classificação personalizado, o tamanho total dos dados de treinamento é 1 GB com um máximo de 10.000 páginas. Para 2024-11-30 (GA), o tamanho total dos dados de treinamento é 2 GB com um máximo de 10.000 páginas.

Introdução ao modelo Read

Tente extrair texto de formulários e documentos usando o Document Intelligence Studio. Você precisa dos seguintes ativos:

Uma assinatura do Azure — você pode criar uma gratuitamente.
Uma instância de Document Intelligence no portal do Azure. Você pode usar o nível de preço gratuito (F0) para experimentar o serviço. Depois que o recurso for implantado, selecione Ir para o recurso para obter sua chave e o ponto de extremidade.

Captura de ecrã das chaves e da localização do ponto de extremidade no portal do Azure.

Nota

Atualmente, o Document Intelligence Studio não suporta os formatos de arquivo Microsoft Word, Excel, PowerPoint e HTML.

Exemplo de documento processado com o Document Intelligence Studio

Captura de tela do processamento de leitura no Document Intelligence Studio.

Na home page do Document Intelligence Studio, selecione Ler.
Pode analisar o documento de exemplo ou carregar os seus próprios ficheiros.
Selecione o botão Executar análise e, se necessário, configure as opções Analisar:

Experimente o Document Intelligence Studio.

Idiomas e localidades suportados

Consulte a nossa página Suporte a idiomas — modelos de análise de documentos para obter uma lista completa dos idiomas suportados.

Extração de dados

Nota

Microsoft Word e arquivo HTML são suportados na v4.0. Os seguintes recursos não são suportados no momento:

Nenhum ângulo, largura/altura e unidade retornados com cada objeto de página.
Nenhum polígono delimitador ou região delimitadora para cada objeto detetado.
Nenhum intervalo de páginas (pages) como parâmetro retornado.
Nenhum lines objeto.

PDF pesquisável

Importante

Atualmente, apenas o modelo prebuilt-read Read OCR suporta o recurso PDF pesquisável. Ao usar esse recurso, especifique o modelId como prebuilt-read. Outros tipos de modelo retornam um erro.
O PDF pesquisável está incluído no 2024-11-30prebuilt-read modelo sem custo adicional para gerar uma saída PDF pesquisável.
- Atualmente, o PDF pesquisável só suporta arquivos PDF como entrada.

Use PDF pesquisável

Para usar PDF pesquisável, faça uma POST solicitação usando a Analyze operação e especifique o formato de saída como pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Sondagem para conclusão da Analyze operação. Quando a operação estiver concluída, emita uma GET solicitação para recuperar o formato PDF dos resultados da Analyze operação.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Páginas

Formato do ficheiro	Unidade de página computada	Total de páginas
Imagens (JPEG/JPG, PNG, BMP, HEIF)	Cada imagem = 1 unidade de página	Total de imagens
PDF	Cada página no PDF = unidade de 1 página	Total de páginas no PDF
TIFF	Cada imagem no TIFF = 1 unidade de página	Total de imagens no TIFF
Palavra (DOCX)	Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de páginas de até 3.000 caracteres cada
Excel (XLSX)	Cada planilha = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de planilhas
PowerPoint (PPTX)	Cada slide = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de diapositivos
HTML	Até 3.000 caracteres = 1 unidade de página, imagens incorporadas ou vinculadas não suportadas	Total de páginas de até 3.000 caracteres cada

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Código de exemplo
Saída

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Veja exemplos no GitHub.

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

Selecionar páginas para extração de texto

Para documentos PDF grandes de várias páginas, use o pages parâmetro query para indicar números de página específicos ou intervalos de páginas para extração de texto.

Parágrafos

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Texto, linhas e palavras


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Código de exemplo
Saída

    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Veja exemplos no GitHub.

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

Estilo manuscrito para linhas de texto

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Se você ativou o recurso de complemento de fonte/estilo, também obterá o resultado de fonte/estilo como parte do styles objeto.

Próximos passos

Conclua um guia de início rápido do Document Intelligence:

Explore a nossa API REST:

API de Inteligência Documental v4.0

Encontre mais exemplos no GitHub:

Leia o modelo.

Partilhar via

Modelo de leitura do Document Intelligence

O que é o Reconhecimento Ótico de Caracteres?

Opções de desenvolvimento (v4)

Requisitos de entrada (v4)

Introdução ao modelo Read (v4)

Idiomas e localidades suportados (v4)

Extração de dados (v4)

PDFs pesquisáveis

Usar PDFs pesquisáveis

Parâmetro Pages

Usar páginas para extração de texto

Extração de parágrafos

Extração de texto, linhas e palavras

Extração de estilo manuscrito

Próximos passos v4.0

O que é OCR para documentos?

Opções de desenvolvimento

Requisitos de entrada

Introdução ao modelo Read

Idiomas e localidades suportados

Extração de dados

PDF pesquisável

Use PDF pesquisável

Páginas

Selecionar páginas para extração de texto

Parágrafos

Texto, linhas e palavras

Estilo manuscrito para linhas de texto

Próximos passos

Comentários

Recursos adicionais