Compartir a través de


Funcionalidades del complemento Documento de inteligencia

Importante

  • Las versiones preliminares públicas de Documento de inteligencia proporcionan acceso anticipado a las características que están en desarrollo activo. Antes de la disponibilidad general (GA), las características, los enfoques y los procesos podrían cambiar en función de los comentarios de los usuarios.
  • La versión preliminar pública de las bibliotecas cliente de Documento de inteligencia tiene como valor predeterminado la versión de la API de REST 2024-07-31-preview.
  • La versión preliminar pública 2024-07-31-preview solo está disponible en las siguientes regiones de Azure. Tenga en cuenta que el modelo generativo personalizado (extracción de campos del documento) en AI Studio solo está disponible en la región Centro-norte de EE. UU.:
    • Este de EE. UU.
    • Oeste de EE. UU. 2
    • Oeste de Europa
    • Centro-Norte de EE. UU

Este contenido se aplica a: marca de verificación v4.0 (versión preliminar) | versiones anteriores: marca de verificación azul v3.1 (GA)

Este contenido se aplica a: marca de verificación v3.1 (GA) | Versión más reciente: marca de verificación púrpura v4.0 (versión preliminar)

Nota:

Las funcionalidades de complementos están disponibles en todos los modelos, excepto el modelo de tarjeta de presentación.

Funcionalidades

Documento de inteligencia es compatible con capacidades de análisis más sofisticadas y modulares. Use las características del complemento para ampliar los resultados para incluir más características extraídas de los documentos. Algunas características del complemento conllevan un costo adicional. Estas características opcionales se pueden habilitar y deshabilitar en función del escenario de extracción de documentos. Para habilitar una característica, agregue el nombre de la característica asociada a la propiedad de cadena de consulta features. Puede habilitar más de una característica de complemento en una solicitud proporcionando una lista separada por comas de características. Las siguientes funcionalidades de complemento están disponibles para 2023-07-31 (GA) y versiones posteriores.

Para la versión 2024-07-31-preview y posteriores, el modelo de lectura admite la salida en PDF con capacidad de búsqueda:

Nota:

  • No todas las funcionalidades del complemento son compatibles con todos los modelos. Para obtener más información, vea extracción de datos del modelo.

  • Actualmente no se admiten funcionalidades de complemento para los tipos de archivo de Microsoft Office.

Document Intelligence admite características opcionales que se pueden habilitar y deshabilitar en función del escenario de extracción de documentos. Las siguientes funcionalidades de complemento están disponibles para 2023-10-31-preview y versiones posteriores:

Nota:

La implementación de campos de consulta en la API 2023-10-30-preview es diferente de la última versión preliminar. La nueva implementación es menos costosa y funciona bien con documentos estructurados.

Disponibilidad de versiones

Capacidad del complemento Complemento/gratis 2024-02-29-preview 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extracción de propiedades de fuente Complemento ✔️ ✔️ N/D N/D
Extracción de fórmulas Complemento ✔️ ✔️ N/D N/D
Extracción de alta resolución Complemento ✔️ ✔️ N/D N/D
Extracción de códigos de barras Gratuito ✔️ ✔️ N/D N/D
Detección de idioma Gratuito ✔️ ✔️ N/D N/D
Pares clave-valor Gratuito ✔️ N/D n/d N/D
Campos de consulta Complemento* ✔️ N/D n/d N/D

✱ Complemento: los campos de consulta tienen un precio diferente al de las otras características del complemento. Consulte Precios para obtener detalles.

Formatos de archivos admitidos

  • PDF

  • Imágenes: JPEG/JPG, PNG, BMP, TIFF, HEIF

✱ Los archivos de Microsoft Office no se admiten actualmente.

Extracción de alta resolución

La tarea de reconocer texto pequeño en documentos de gran tamaño, como dibujos de ingeniería, es un desafío. A menudo, el texto se mezcla con otros elementos gráficos y tiene fuentes, tamaños y orientaciones variables. Además, el texto puede dividirse en distintas partes o estar conectado con otros símbolos. Documento de inteligencia ahora admite la extracción de contenido de estos tipos de documentos con la funcionalidad ocr.highResolution. Para mejorar la calidad de la extracción de contenido de documentos A1, A2 y A3, habilite esta funcionalidad de complemento.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extracción de fórmulas

La funcionalidad ocr.formula extrae todas las fórmulas identificadas, como ecuaciones matemáticas, de la colección formulas como un objeto de nivel superior en content. Dentro de content, las fórmulas detectadas se representan como :formula:. Cada entrada de esta colección representa una fórmula que incluye el tipo de fórmula como inline o display, y su representación LaTeX como value junto con sus coordenadas polygon. Inicialmente, las fórmulas aparecen al final de cada página.

Nota:

La puntuación confidence está codificada de forma rígida.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extracción de propiedades de fuente

La funcionalidad ocr.font extrae todas las propiedades de fuente del texto extraído de la colección styles como un objeto de nivel superior en content. Cada objeto de estilo especifica una sola propiedad de fuente, el intervalo de texto al que se aplica y su puntuación de confianza correspondiente. La propiedad de estilo existente se amplía con más propiedades de fuente, como similarFontFamily para la fuente del texto, fontStyle para estilos como cursiva y normal, fontWeight para negrita o normal, color para color del texto y backgroundColor para el color del cuadro de límite de texto.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extracción de propiedades de código de barras

La capacidad ocr.barcode extrae todos los códigos de barras identificados en la barcodes como objeto de nivel superior en content. Dentro de contentlos códigos de barras detectados se representan como :barcode:. Cada entrada de esta colección representa un código de barras e incluye el tipo de código de barras como kind y el contenido de código de barras incrustado como value junto con sus coordenadas polygon. Inicialmente, los códigos de barras aparecen al final de cada página. El confidence está codificado como 1.

Tipos de códigos de barras admitidos

Tipo de código de barras Ejemplo
QR Code Captura de pantalla del código QR.
Code 39 Captura de pantalla del Código 39.
Code 93 Captura de pantalla del Código 93.
Code 128 Captura de pantalla del Código 128.
UPC (UPC-A & UPC-E) Captura de pantalla del UPC.
PDF417 Captura de pantalla del PDF417.
EAN-8 Captura de pantalla del código de barras del número de artículo europeo ean-8.
EAN-13 Captura de pantalla del código de barras European-article-number ean-13.
Codabar Captura de pantalla del Codabar.
Databar Captura de pantalla de la barra de datos.
Databar Expandido Captura de pantalla de la barra de datos ampliada.
ITF Captura de pantalla del código de barras intercalado-dos-de-cinco (ITF).
Data Matrix Captura de pantalla de la matriz de datos.
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Detección de idioma

Al agregar la característica languages a la solicitud de analyzeResult, se predice el idioma principal detectado para cada línea de texto junto con el confidence de la colección languages en analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

PDF que se puede buscar

La funcionalidad de PDF utilizable en búsquedas le permite convertir un PDF analógico, como los archivos PDF de imágenes escaneadas, en un PDF con texto insertado. El texto insertado permite la búsqueda profunda de texto dentro del contenido extraído del PDF mediante la superposición de las entidades de texto detectadas sobre los archivos de imagen.

Importante

  • Actualmente, la funcionalidad de PDF utilizable en búsquedas solo es compatible con el modelo de lectura de OCR prebuilt-read. Al usar esta característica, especifique modelId como prebuilt-read, ya que otros tipos de modelo devolverán un error para esta versión preliminar.
  • PDF utilizable en búsquedas se incluye con el modelo 2024-07-31-preview prebuilt-read sin costo de uso para el consumo general de PDF.

Uso de PDF utilizable en búsquedas

Para usar PDF utilizable en búsquedas, envíe una solicitud POST mediante la operación Analyze y especifique el formato de salida como pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Una vez que se complete la operación Analyze, realice una solicitud GET para recuperar los resultados de la operación Analyze.

Cuando se complete correctamente, el PDF se puede recuperar y descargar como application/pdf. Esta operación permite la descarga directa del formato de texto insertado de PDF en lugar de JSON codificado en Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Pares clave-valor.

En versiones anteriores de la API, el modelo de prebuilt-document extrajo pares clave-valor de formularios y documentos. Con la adición de la característica keyValuePairs al diseño precompilado, el modelo de diseño ahora genera los mismos resultados.

Los pares clave-valor son intervalos específicos dentro del documento que identifican una etiqueta o una clave y su respuesta o valor asociados. De forma estructurada, estos pares pueden ser la etiqueta y el valor que ha escrito el usuario para ese campo. En una documentación no estructurada, pueden ser la fecha en la que se ejecutó un contrato según el mensaje de texto de un párrafo. El modelo de IA está entrenado para extraer claves y valores identificables basados en una amplia variedad de tipos de documentos, formatos y estructuras.

Las claves también pueden existir de forma aislada cuando el modelo detecta que existe una clave, sin ningún valor asociado, o cuando se procesan campos opcionales. Por ejemplo, un campo de segundo nombre se puede dejar en blanco en un formulario en algunos casos. Los pares clave-valor son intervalos de texto contenidos en el documento. Para documentos donde el mismo valor se describe de diferentes maneras, por ejemplo, cliente/usuario, la clave asociada es cliente o usuario (según el contexto).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Campos de consulta

Los campos de consulta son una funcionalidad de complemento para ampliar el esquema extraído de cualquier modelo precompilado o definir un nombre de clave específico cuando el nombre de clave es variable. Para usar campos de consulta, establezca las características en queryFields y proporcione una lista separada por comas de nombres de campo en la propiedad queryFields.

  • Documento de inteligencia ahora es compatible con las extracciones de campos de consulta. Con la extracción de campos de consulta, puede agregar campos al proceso de extracción mediante una solicitud de consulta sin necesidad de entrenamiento adicional.

  • Use campos de consulta cuando necesite ampliar el esquema de un modelo precompilado o personalizado o necesite extraer algunos campos con la salida del diseño.

  • Los campos de consulta son una funcionalidad de complemento Premium. Para obtener los mejores resultados, defina los campos que desea extraer mediante "Camel Case" o "Pascal Case" para nombres de campo de varias palabras.

  • Los campos de consulta admiten un máximo de 20 campos por solicitud. Si el documento contiene un valor para el campo, se devuelve el campo y el valor.

  • Esta versión tiene una nueva implementación de la funcionalidad de campos de consulta que tiene un precio inferior a la implementación anterior y que se debería validar.

Nota:

La extracción de campos de consulta de Document Intelligence Studio está disponible actualmente con los modelos Layout y Prebuilt 2024-02-29-preview 2023-10-31-preview API y versiones posteriores, excepto los modelos de US tax (W2, 1098s y 1099s).

Extracción de campos de consulta

Para la extracción de campos de consulta, especifique los campos que desea extraer y Document Intelligence analizará el documento en consecuencia. Este es un ejemplo:

  • Si está procesando un contrato en Document Intelligence Studio, use las versiones 2024-02-29-preview o 2023-10-31-preview:

    Captura de pantalla del botón de campos de consulta en Document Intelligence Studio.

  • Puede pasar una lista de etiquetas de campo como Party1, Party2, TermsOfUse, PaymentTerms, PaymentDate y TermEndDate como parte de la solicitud analyze document.

    Captura de pantalla de la ventana de selección de campos de consulta en Document Intelligence Studio.

  • Documento de inteligencia es capaz de analizar y extraer los datos de campo y devolver los valores en una salida JSON estructurada.

  • Además de los campos de consulta, la respuesta incluye texto, tablas, marcas de selección y otros datos pertinentes.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Pasos siguientes

Más información: Leer modelo Modelo de diseño

Ejemplos de SDK: python

Buscar más ejemplos: Funcionalidades de complemento

Buscar más ejemplos: Funcionalidades de complemento