Compartir a través de


Uso de un modelo precompilado para extraer información de documentos simples en Microsoft Syntex

El modelo de procesamiento de documentos sencillo ofrece una solución flexible y preentrenada para extraer información de documentos estructurados básicos, incluida la información como:

  • Pares clave-valor : piense en estas etiquetas como y en su información correspondiente, como "Name: Adele Vance".

  • Marcas de selección : son casillas u otras marcas que indican opciones o selecciones en un documento.

  • Entidades con nombre : son elementos específicos, como nombres de personas, lugares u organizaciones mencionados en el texto de un documento.

  • Códigos de barras : son representaciones legibles por máquina de datos que se pueden usar con fines de seguimiento o identificación en un documento.

A diferencia de otros modelos precompilados con esquemas fijos, este modelo puede identificar claves que otros pueden perder, lo que proporciona una alternativa valiosa al etiquetado y el entrenamiento de modelos personalizados. Este modelo también admite códigos de barras y detección de idioma.

Tipos de documentos

El procesamiento de documentos sencillo funciona mejor con los tipos de documentos que contienen información estructurada, como:

  • Forms: a menudo tienen campos y etiquetas claros, lo que facilita la extracción de pares clave-valor.

  • Facturas : normalmente incluyen diseños coherentes con tablas y pares clave-valor.

  • Recibos : de forma similar a las facturas, tienen datos estructurados que se pueden extraer fácilmente.

  • Contratos : contienen secciones y cláusulas bien definidas que se pueden analizar de forma eficaz.

  • Extractos bancarios : incluyen tablas y datos estructurados que son ideales para la extracción.

Estos documentos se benefician de las funcionalidades de reconocimiento óptico de caracteres (OCR) y los procesos de aprendizaje profundo que se usan para extraer pares clave-valor, marcas de selección, tablas y entidades con nombre.

Nota:

Actualmente, este modelo está disponible para .pdf y tipos de archivo de imagen y en más de 100 idiomas. Se agregarán más tipos de archivo admitidos en futuras versiones.

Para usar un modelo de procesamiento de documentos sencillo, siga estos pasos:

Paso 1: Crear el modelo

Siga las instrucciones de Creación de un modelo en Syntex para crear un modelo de procesamiento de documentos simple. A continuación, continúe con los pasos siguientes para completar el modelo.

Paso 2: Carga de un archivo de ejemplo para analizar

  1. En la página Modelos , en la sección Agregar un archivo para analizar , seleccione Agregar un archivo.

    Captura de pantalla de la página nuevos modelos que muestra la sección Agregar un archivo para analizar.

  2. En la página Archivos para analizar el modelo , seleccione Agregar para buscar el archivo que desea usar.

    Captura de pantalla de la página Archivos para analizar el modelo que muestra el botón Agregar.

  3. En la página Agregar un archivo de la biblioteca de archivos de entrenamiento , seleccione el archivo y, a continuación, seleccione Agregar.

    Captura de pantalla de la página Agregar un archivo desde la biblioteca de archivos de entrenamiento.

  4. En la página Archivos para analizar el modelo , seleccione Siguiente.

Paso 3: Selección de extractores para el modelo

En la página de detalles del extractor, verá el área del documento a la derecha de la página y el panel Extractores de la izquierda. El panel Extractores muestra la lista de extractores que se han identificado en el documento.

Captura de pantalla de la página de detalles del extractor y del panel Extractores.

Los campos de entidad resaltados en verde en el área de documento son los elementos que detectó el modelo al analizar el archivo. Al seleccionar una entidad que se va a extraer, el campo resaltado cambia a azul. Si más adelante decide no incluir la entidad, el campo resaltado cambia a gris. Los resaltados facilitan la visualización del estado actual de los extractores que seleccione.

Sugerencia

Para acercar o alejar para leer los campos de entidad, use la rueda de desplazamiento del mouse o los controles de zoom en la parte inferior del área del documento.

Selección de una entidad extractora

Puede seleccionar un extractor desde el área de documento o desde el panel Extractores , según sus preferencias.

  • Para seleccionar un extractor del área de documento, seleccione el campo de entidad.
  • Para seleccionar un extractor en el panel Extractores , en la columna Extraer , active la casilla correspondiente situada a la derecha del nombre de la entidad.

Al seleccionar un extractor, se muestra el cuadro Seleccionar extractor? en el área de documento. El cuadro muestra el nombre de clave (el nombre generado para el extractor), el valor detectado (el valor de ese campo en el documento), el tipo de columna y la opción para seleccionar la entidad como extractor.

Captura de pantalla del cuadro Seleccionar extractor en la página de detalles del extractor.

El nombre de clave se usa como nombre de columna cuando el modelo se aplica a una biblioteca de SharePoint. Puede cambiar el nombre de la clave para que sea más descriptivo si lo desea. El tipo de columna muestra cómo se muestra la información en una biblioteca. Puede cambiar el tipo de columna para mostrar cómo desea que se muestre la información. Cuando el modelo se aplica a una biblioteca, puede usar el formato de columna para especificar cómo desea que se vea en el documento.

Siga seleccionando otros extractores que quiera usar. También puede agregar otros archivos para analizar la configuración de este modelo.

Cambiar el nombre de un extractor

Hay tres maneras de cambiar el nombre de un extractor:

  • En el área de documento de la página de detalles del extractor, seleccione el campo de entidad. En el cuadro Select extractor? (Seleccionar extractor? ), en el campo Key name (Nombre de clave ), escriba un nuevo nombre para el extractor.

  • En el panel Extractores de la página de detalles del extractor, seleccione el extractor al que desea cambiar el nombre y, a continuación, seleccione Cambiar nombre.

  • En la página principal del modelo, en la sección Extractores , seleccione el extractor al que desea cambiar el nombre y, a continuación, seleccione Cambiar nombre.

Establecimiento de un intervalo de páginas para su procesamiento

Para este modelo, puede especificar que procese un intervalo de páginas para un archivo en lugar de todo el archivo. En el panel Extractores , en la sección Intervalo de páginas, seleccione la página que desea procesar. De forma predeterminada, la configuración Intervalo de páginas está vacía. Si no se proporciona ningún intervalo de páginas, se procesa todo el documento. Para obtener más información, vea Establecer un intervalo de páginas para extraer información de páginas específicas.

Detección del idioma de un documento

Para este modelo, puede detectar el idioma de un documento y extraerlo en una columna. En el panel Extractores , en la sección Detección de idioma , active la detección de idioma. Muestra el código ISO del idioma detectado.

Captura de pantalla de la sección Detección de idioma del panel Extractores.

También puede activar o desactivar la detección de idioma en el panel Configuración del modelo del modelo.

Paso 4: Aplicar el modelo

  • Para guardar los cambios y volver a la página principal del modelo, en el panel Extractores , seleccione Guardar y salir.

  • Si está listo para aplicar el modelo a una biblioteca, en el área de documento, seleccione Siguiente. En el panel Agregar a la biblioteca , elija la biblioteca a la que desea agregar el modelo y, a continuación, seleccione Agregar.

Para obtener información sobre los tipos de archivo, los idiomas, el reconocimiento óptico de caracteres y otras consideraciones para este modelo precompilado, vea Requisitos y limitaciones para el procesamiento de documentos precompilados en SharePoint.