Entrenando un modelo de extracción customizado de document intelligence, a parte de etiquetar el tipo de campo que aparece en un documento, puedo etiquetar el contenido que extrae el modelo?

Question

Estoy entrenando un modelo customizado de Document Intelligence para que extraiga ciertos campos de una ficha técnica. En el apartado 'Label Data' puedo decir que tipo de campo quiero que extraiga y donde está este campo dentro del documento, pero no puedo indicarle cual tiene que ser el contenido de ese campo. Hay alguna herramienta o función que me permita esto? Me resultaría útil sobretodo para los campos que funcionan como las claves de un diccionario, como por ejemplo la palabra 'Observaciones:' o 'Matrícula:' .

Answer

¡Hola Frigola De Irala, Gerard!

Bienvenido a Microsoft Q&A.

Sí, puedes etiquetar el contenido que extrae el modelo en Document Intelligence. Para lograr esto, puedes utilizar la funcionalidad de anotación de datos. Aquí te dejo algunos pasos y herramientas que podrían ayudarte:

Anotación de Datos: Utiliza herramientas de anotación de datos que te permitan etiquetar tanto el tipo de campo como el contenido específico. Algunas herramientas populares incluyen Labelbox, Prodigy, y Amazon SageMaker Ground Truth.

Etiquetas Personalizadas: En el proceso de etiquetado, puedes definir etiquetas personalizadas para los campos clave como 'Observaciones:' o 'Matrícula:'. Esto ayudará al modelo a identificar y extraer estos campos con mayor precisión.

Post-Procesamiento: Después de la extracción inicial, puedes implementar un paso de post-procesamiento para verificar y ajustar el contenido extraído. Esto puede incluir reglas específicas o el uso de expresiones regulares para validar y corregir los datos.

Entrenamiento Iterativo: A medida que entrenas el modelo, revisa y ajusta las etiquetas y el contenido extraído. Este proceso iterativo mejorará la precisión del modelo con el tiempo.

Espero que estos consejos ayuden a resolver el problema. Si necesitas más asistencia, estoy a tu disposición.

Saludos,

Jonathan.

----------*

Tu opinión es muy importante para nosotros! Si esta respuesta resolvió tu consulta, por favor haz clic en 'SÍ'. Esto nos ayuda a mejorar continuamente la calidad y relevancia de nuestras soluciones.

Answer

Hola Frigola De Irala, Gerard!,

El propósito de este mensaje es verificar la información proporcionada. Si tienes más actualizaciones sobre este tema, no dudes en responder en este mismo hilo.

Respetuosamente,

Jonathan

---------

Tu opinión es muy importante para nosotros! Si esta respuesta resolvió tu consulta, por favor haz clic en ‘Sí’. Esto nos ayuda a mejorar continuamente la calidad y relevancia de nuestras soluciones. ¡Gracias por tu colaboración!

Answer

¡Hola Frigola De Irala, Gerard!

Entiendo que buscas una manera de etiquetar el contenido específico de los campos directamente dentro de Document Intelligence Studio (DIS) mientras entrenas un modelo de extracción personalizado. Aquí tienes algunas opciones y funcionalidades que podrían ayudarte:

Etiquetado de Regiones: Puedes utilizar el etiquetado de regiones para seleccionar áreas específicas del documento que contienen el contenido que deseas extraer. Esto permite que el modelo aprenda a identificar y extraer el contenido exacto de esos campos. Sugerencias para crear conjuntos de datos etiquetados
Etiquetado Automático: DIS ofrece una funcionalidad de etiquetado automático que puede ser útil para tablas y otros campos estructurados. Puedes iniciar con un etiquetado manual de un conjunto pequeño de documentos y luego utilizar esta funcionalidad para acelerar el proceso. Procedimientos recomendados: generar conjuntos de datos etiquetados
Subtipos de Campos: Al crear un campo, puedes seleccionar subtipos específicos (por ejemplo, fechas en formato dd-mm-yyyy) para minimizar el procesamiento posterior y asegurar que el contenido extraído sea más preciso.
Búsqueda y Etiquetado: La herramienta de búsqueda dentro de DIS te permite encontrar palabras o frases específicas en el documento y etiquetarlas directamente. Esto es útil para campos clave como 'Observaciones:' o 'Matrícula:' .

Espero que estas opciones te sean útiles para mejorar el proceso de etiquetado y extracción de contenido en Document Intelligence Studio. Si tienes más preguntas o necesitas asistencia adicional, no dudes en preguntar.

Respetuosamente,

Jonathan

---------

Tu opinión es muy importante para nosotros! Si esta respuesta resolvió tu consulta, por favor haz clic en ‘Sí’. Esto nos ayuda a mejorar continuamente la calidad y relevancia de nuestras soluciones. ¡Gracias por tu colaboración!

Compartir vía

Entrenando un modelo de extracción customizado de document intelligence, a parte de etiquetar el tipo de campo que aparece en un documento, puedo etiquetar el contenido que extrae el modelo?

3 respuestas

Su respuesta