Partilhar via


Recursos adicionais do Document Intelligence

Importante

  • As versões de visualização pública do Document Intelligence fornecem acesso antecipado a recursos que estão em desenvolvimento ativo. Recursos, abordagens e processos podem mudar, antes da Disponibilidade Geral (GA), com base nos comentários dos usuários.
  • A versão de visualização pública das bibliotecas de cliente do Document Intelligence usa como padrão a API REST versão 2024-07-31-preview.
  • A versão de pré-visualização pública 2024-07-31-preview está atualmente disponível apenas nas seguintes regiões do Azure. Observe que o modelo generativo personalizado (extração de campo de documento) no AI Studio só está disponível na região Centro-Norte dos EUA:
    • E.U.A. Leste
    • Oeste dos EUA2
    • Europa Ocidental
    • Centro-Norte dos EUA

Este conteúdo aplica-se a: marca de verificação v4.0 (pré-visualização) | Versões anteriores: Marca de verificação azul v3.1 (GA)

Este conteúdo aplica-se a: marca de verificação v3.1 (GA) | Última versão: marca de verificação roxa v4.0 (pré-visualização)

Nota

Os recursos adicionais estão disponíveis em todos os modelos, exceto no modelo de cartão de visita.

Capacidades

O Document Intelligence suporta capacidades de análise mais sofisticadas e modulares. Use os recursos complementares para estender os resultados e incluir mais recursos extraídos de seus documentos. Alguns recursos adicionais incorrem em um custo extra. Esses recursos opcionais podem ser ativados e desativados dependendo do cenário de extração do documento. Para habilitar um recurso, adicione o nome do recurso associado à propriedade de cadeia de caracteres de features consulta. Você pode habilitar mais de um recurso de complemento em uma solicitação fornecendo uma lista de recursos separados por vírgula. Os seguintes recursos complementares estão disponíveis para 2023-07-31 (GA) versões posteriores.

Para 2024-07-31-preview versões posteriores, o modelo Read suporta saída PDF pesquisável:

Nota

  • Nem todos os recursos adicionais são suportados por todos os modelos. Para obter mais informações, consulte extração de dados do modelo.

  • Atualmente, os recursos de complemento não são suportados para tipos de arquivo do Microsoft Office.

O Document Intelligence suporta recursos opcionais que podem ser habilitados e desabilitados dependendo do cenário de extração de documentos. Os seguintes recursos complementares estão disponíveis para 2023-10-31-previewo , e versões posteriores:

Nota

A implementação dos campos de consulta na API 2023-10-30-preview é diferente da última versão de visualização. A nova implementação é menos dispendiosa e funciona bem com documentos estruturados.

Disponibilidade da versão

Capacidade de complemento Add-On/Grátis 2024-02-29-pré-visualização 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extração de propriedade de fonte Complemento ✔️ ✔️ n/d n/d
Extração de fórmulas Complemento ✔️ ✔️ n/d n/d
Extração de alta resolução Complemento ✔️ ✔️ n/d n/d
Extração de código de barras Gratuito ✔️ ✔️ n/d n/d
Deteção de idioma Gratuito ✔️ ✔️ n/d n/d
Pares de valores-chave Gratuito ✔️ n/d n/d n/d
Campos de consulta Complemento* ✔️ n/d n/d n/d

✱ Add-On - Os campos de consulta têm um preço diferente dos outros recursos do complemento. Consulte os preços para obter detalhes.

Formatos de ficheiro suportados

  • PDF

  • Imagens: JPEG/JPG, PNG, BMP, TIFF, , HEIF

✱ Os ficheiros do Microsoft Office não são suportados no momento.

Extração de alta resolução

A tarefa de reconhecer texto pequeno de documentos de grande porte, como desenhos de engenharia, é um desafio. Muitas vezes, o texto é misturado com outros elementos gráficos e tem fontes, tamanhos e orientações variadas. Além disso, o texto pode ser dividido em partes separadas ou conectado com outros símbolos. O Document Intelligence agora suporta a extração de conteúdo desses tipos de documentos com o ocr.highResolution recurso. Você obtém melhor qualidade de extração de conteúdo de documentos A1/A2/A3 habilitando esse recurso de complemento.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extração de fórmulas

A ocr.formula capacidade extrai todas as fórmulas identificadas, como equações matemáticas, na formulas coleção como um objeto de nível superior em content. Dentro contentdo , as fórmulas detetadas são representadas como :formula:. Cada entrada nesta coleção representa uma fórmula que inclui o tipo de fórmula como inline ou display, e sua representação LaTeX como value juntamente com suas polygon coordenadas. Inicialmente, as fórmulas aparecem no final de cada página.

Nota

A confidence pontuação é codificada.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extração de propriedade de fonte

O ocr.font recurso extrai todas as propriedades de fonte do texto extraído na styles coleção como um objeto de nível superior em content. Cada objeto de estilo especifica uma única propriedade de fonte, a extensão de texto à qual se aplica e sua pontuação de confiança correspondente. A propriedade style existente é estendida com mais propriedades de fonte, como similarFontFamily para a fonte do texto, fontStyle para estilos como itálico e normal, fontWeight para negrito ou normal, color para cor do texto e backgroundColor para cor da caixa delimitadora de texto.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extração de propriedade de código de barras

O ocr.barcode recurso extrai todos os códigos de barras identificados na barcodes coleção como um objeto de nível superior em content. Dentro do , os contentcódigos de barras detetados são representados como :barcode:. Cada entrada nesta coleção representa um código de barras e inclui o tipo de código de barras como kind e o conteúdo do código de barras incorporado juntamente value com suas polygon coordenadas. Inicialmente, os códigos de barras aparecem no final de cada página. O confidence é codificado para como 1.

Tipos de código de barras suportados

Tipo de código de barras Exemplo
QR Code Screenshot do QR Code.
Code 39 Screenshot do Código 39.
Code 93 Screenshot do Código 93.
Code 128 Captura de tela do código 128.
UPC (UPC-A & UPC-E) Screenshot do UPC.
PDF417 Screenshot do PDF417.
EAN-8 Screenshot do código de barras do número de artigo europeu ean-8.
EAN-13 Screenshot do código de barras do número do artigo europeu ean-13.
Codabar Screenshot do Codabar.
Databar Captura de ecrã da barra de dados.
Databar Expandido Captura de ecrã da barra de dados expandida.
ITF Captura de tela do código de barras intercalado-dois-de-cinco (ITF).
Data Matrix Captura de tela da matriz de dados.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Deteção de idioma

Adicionar o recurso à analyzeResult solicitação prevê o idioma principal detetado para cada linha de texto, juntamente com o confidence languages na coleção em analyzeResult.languages

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF pesquisável

O recurso de PDF pesquisável permite converter um PDF analógico, como arquivos PDF de imagem digitalizada, em um PDF com texto incorporado. O texto incorporado permite a pesquisa profunda de texto dentro do conteúdo extraído do PDF, sobrepondo as entidades de texto detetadas sobre os arquivos de imagem.

Importante

  • Atualmente, o recurso PDF pesquisável é suportado apenas pelo modelo prebuilt-readRead OCR. Ao usar esse recurso, especifique o modelId como prebuilt-read, pois outros tipos de modelo retornarão erro para esta versão de visualização.
  • O PDF pesquisável está incluído no modelo 2024-07-31-preview prebuilt-read sem custo de uso para consumo geral de PDF.

Use PDF pesquisável

Para usar PDF pesquisável, faça uma POST solicitação usando a Analyze operação e especifique o formato de saída como pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Quando a Analyze operação estiver concluída, faça uma GET solicitação para recuperar os resultados da Analyze operação.

Após a conclusão bem-sucedida, o PDF pode ser recuperado e baixado como application/pdf. Esta operação permite o download direto da forma de texto incorporado do PDF em vez do JSON codificado em Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Pares chave-valor

Em versões anteriores da API, o modelo extraía prebuilt-document pares chave-valor de formulários e documentos. Com a adição do recurso ao layout pré-construído, o modelo de keyValuePairs layout agora produz os mesmos resultados.

Os pares chave-valor são extensões específicas dentro do documento que identificam um rótulo ou chave e sua resposta ou valor associado. Em um formulário estruturado, esses pares podem ser o rótulo e o valor que o usuário inseriu para esse campo. Em um documento não estruturado, eles podem ser a data em que um contrato foi executado com base no texto de um parágrafo. O modelo de IA é treinado para extrair chaves e valores identificáveis com base em uma ampla variedade de tipos de documentos, formatos e estruturas.

As chaves também podem existir isoladamente quando o modelo deteta a existência de uma chave, sem valor associado ou ao processar campos opcionais. Por exemplo, um campo de nome do meio pode ser deixado em branco em um formulário em alguns casos. Os pares chave-valor são extensões de texto contidas no documento. Para documentos em que o mesmo valor é descrito de maneiras diferentes, por exemplo, cliente/usuário, a chave associada é cliente ou usuário (com base no contexto).

API REST

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Os campos de consulta são um recurso complementar para estender o esquema extraído de qualquer modelo pré-construído ou definir um nome de chave específico quando o nome da chave é variável. Para usar campos de consulta, defina os recursos como queryFields e forneça uma lista separada por vírgulas queryFields de nomes de campos na propriedade.

  • O Document Intelligence agora suporta extrações de campo de consulta. Com a extração de campo de consulta, você pode adicionar campos ao processo de extração usando uma solicitação de consulta sem a necessidade de treinamento adicional.

  • Use campos de consulta quando precisar estender o esquema de um modelo pré-construído ou personalizado ou precisar extrair alguns campos com a saída do layout.

  • Os campos de consulta são um recurso de complemento premium. Para obter melhores resultados, defina os campos que deseja extrair usando nomes de campo de caso camel ou caso Pascal para nomes de campo de várias palavras.

  • Os campos de consulta suportam um máximo de 20 campos por solicitação. Se o documento contiver um valor para o campo, o campo e o valor serão retornados.

  • Esta versão tem uma nova implementação do recurso de campos de consulta que tem um preço mais baixo do que a implementação anterior e deve ser validada.

Nota

A extração de campo de consulta do Document Intelligence Studio está atualmente disponível com a API de modelos Layout e Prebuilt 2024-02-29-preview 2023-10-31-preview e versões posteriores, exceto para os US tax modelos (modelos W2, 1098s e 1099s).

Extração de campo de consulta

Para extração de campo de consulta, especifique os campos que deseja extrair e o Document Intelligence analisa o documento de acordo. Eis um exemplo:

  • Se você estiver processando um contrato no Document Intelligence Studio, use as 2024-02-29-preview versões ou 2023-10-31-preview :

    Captura de ecrã do botão de campos de consulta no Document Intelligence Studio.

  • Você pode passar uma lista de rótulos de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDatee TermEndDate como parte da analyze document solicitação.

    Captura de ecrã da janela de seleção de campos de consulta no Document Intelligence Studio.

  • O Document Intelligence é capaz de analisar e extrair os dados de campo e retornar os valores em uma saída JSON estruturada.

  • Além dos campos de consulta, a resposta inclui texto, tabelas, marcas de seleção e outros dados relevantes.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Próximos passos

Exemplos de SDK: python

Encontre mais exemplos: Recursos de complemento

Encontre mais exemplos: Recursos de complemento