Compartir vía


Modelo de documentos fiscales de EE. UU. de Documento de inteligencia

Este contenido se aplica a: marca de verificación v4.0 (GA) | Versiones anteriores: marca de verificación azul v3.1 (GA) :::moniker-end

Este contenido se aplica a: marca de verificación v3.1 (GA) | Versión más reciente: marca de verificación púrpura v4.0 (GA)

El modelo fiscal Document Intelligence utiliza potentes funciones de reconocimiento óptico de caracteres (OCR) para analizar y extraer campos y partidas clave de un grupo selecto de documentos fiscales. Los documentos fiscales pueden ser de varios formatos como 1099, 1098, W2, 1040, 1095A, 1095C, W-4, 1099-SSA. El formato de entrada puede incluir imágenes capturadas por teléfono, documentos escaneados y archivos PDF digitales. La API analiza el texto del documento; extrae información clave y devuelve una representación de datos JSON estructurada. El modelo admite actualmente determinados formatos de documentos fiscales en inglés.

Tipos de formularios fiscales admitidos:

  • Impuestos unificados de EE. UU.
  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 y variaciones (agregado 1099-SSA)
  • 1040 y variaciones
  • 1095A, 1095C
  • W-4

Procesamiento automatizado de documentos fiscales

El procesamiento automatizado de documentos fiscales es el proceso de extracción de campos clave de documentos fiscales. Históricamente, los documentos fiscales se procesaban manualmente. Este modelo permite la automatización sencilla de escenarios fiscales.

Impuestos unificados de EE. UU.

El modelo Unified US Taxprecompilado detecta y extrae automáticamente los datos de los formularios fiscales W2,1098,1040 y 1099 en los documentos presentados. Estos documentos se pueden componer de muchos documentos fiscales o no relacionados con impuestos. El modelo solo procesa los formularios que admite.

Recorte de pantalla de un diagrama de procesamiento de impuestos unificados.

Opciones de desarrollo

Documento de inteligencia v4.0: 2024-11-30 (GA) es compatible con las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelos de formulario de impuestos de EE. UU. Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
• prebuilt-tax.us
• prebuilt-tax.us.W-2
• prebuilt-tax.us.4
• prebuilt-tax.us.1095A
• prebuilt-tax.us.1095C
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099Combo
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1098
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1099SSA
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812
• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Documento de inteligencia v3.1 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelos de formulario de impuestos de EE. UU. Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Documento de inteligencia v3.0 admite las siguientes herramientas, aplicaciones y bibliotecas:

Característica Recursos Id. de modelo
Modelos de formulario de impuestos de EE. UU. Document Intelligence Studio
API REST
SDK de C#
SDK de Python
SDK de Java
SDK de JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Requisitos de entrada

  • Formatos de archivos admitidos:

    Modelo PDF Imagen:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Leer
    Layout
    Documento general
    Creada previamente
    Extracción personalizada
    Clasificación personalizada
  • Para obtener unos resultados óptimos, proporcione una foto clara o una digitalización de alta calidad por documento.

  • Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratis, solo se procesan las dos primeras páginas).

  • El tamaño de archivo para analizar documentos es de 500 MB para el nivel de pago (S0) y de 4 MB para el nivel gratuito (F0).

  • Las imágenes deben tener unas dimensiones entre 50 x 50 píxeles y 10 000 x 10 000 píxeles.

  • Si los archivos PDF están bloqueados con contraseña, debe desbloquearlos antes de enviarlos.

  • La altura mínima del texto que se va a extraer es de 12 píxeles para una imagen de 1024 x 768 píxeles. Esta dimensión corresponde aproximadamente a 8 puntos de texto a 150 puntos por pulgada (PPP).

  • Para el entrenamiento de modelos personalizados, el número máximo de páginas para los datos de entrenamiento es 500 para el modelo de plantilla personalizada y 50 000 para el modelo neuronal personalizado.

    • Para el entrenamiento de modelos de extracción personalizados, el tamaño total de los datos de entrenamiento es de 50 MB para el modelo de plantilla y 1 GB para el modelo neuronal.

    • Para el entrenamiento del modelo de clasificación personalizada, el tamaño total de los datos de entrenamiento es de 1 GB con un máximo de 10 000 páginas. Para 2024-11-30 (GA), el tamaño total de los datos de entrenamiento es 2 GB con un máximo de 10 000 páginas.

Prueba de la extracción de datos de documentos fiscales

Vea cómo se extraen los datos, incluida la información del cliente, los detalles del proveedor y los elementos de línea, de las facturas. Tendrá que supervisar los recursos siguientes:

  • Una suscripción a Azure: puede crear una cuenta gratuita.

  • Una instancia de Document Intelligence en el Azure Portal. Puede usar el plan de tarifa gratuito (F0) para probar el servicio. Después de implementar el recurso, seleccione Ir al recurso para obtener la clave y el punto de conexión.

Captura de pantalla de ubicación de las claves y el punto de conexión en Azure Portal.

Estudio del documento de inteligencia

  1. En la página principal de Document Intelligence Studio, seleccione el modelo de documento fiscal admitido.

  2. Puede analizar un documento fiscal de ejemplo o cargar archivos propios.

  3. Seleccione el botón Ejecutar análisis y, si es necesario, configure las opciones de Análisis :

    Captura de pantalla de los botones Ejecutar análisis y Analizar opciones en Document Intelligence Studio.

Idiomas y configuraciones regionales compatibles

Vea nuestra página de Compatibilidad de idiomas: modelos precompilados para obtener una lista completa de los idiomas admitidos.

Extracción de campos

Para los campos de extracción de documentos compatibles, consulte las páginas del esquema del modelo de documento fiscal en nuestro repositorio de ejemplos de GitHub.

Los pares de clave/valor y los elementos de línea de los documentos fiscales extraídos se encuentran en la sección documentResults de la salida JSON.

Pasos siguientes