Editar

Compartir a través de


Usar enriquecimiento con IA con procesamiento de imágenes y texto

Azure App Service
Azure Blob Storage
Azure AI Search
Azure Functions

Ideas de solución

En este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales de una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.

En este artículo se describe cómo usar el procesamiento de imágenes, el procesamiento de lenguaje natural y las aptitudes personalizadas para capturar datos específicos del dominio. Puede usar esos datos para enriquecer los documentos de texto e imagen. Incorpore Búsqueda de Azure AI con enriquecimiento con IA para ayudar a identificar y explorar contenido relevante a escala. Esta solución usa el enriquecimiento con IA para extraer el significado del complejo conjunto de datos sin estructurar original de los informes sobre el asesinato de JFK (archivos de JFK).

Arquitectura

Diagrama que muestra la arquitectura de AI Search para convertir datos no estructurados en datos estructurados.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

El siguiente flujo de datos corresponde al diagrama anterior. El flujo de datos describe cómo pasa el conjunto de datos de archivos JFK no estructurados a través de la canalización de aptitudes de AI Search para generar datos estructurados e indexables.

  1. Los datos no estructurados de Azure Blob Storage, como documentos e imágenes, se ingieren en AI Search.

  2. para iniciar el proceso de indexación el paso de descifrado de documentos extrae imágenes y texto de los datos y, después, enriquece el contenido. Los pasos del enriquecimiento en este proceso dependen de los datos y el tipo de aptitudes que seleccione.

  3. Las aptitudes integradas basadas en las API de Visión de Azure AI y Lenguaje de Azure AI proporcionan enriquecimientos con IA, como el reconocimiento óptico de caracteres de la imagen (OCR), el análisis de imágenes, la traducción de texto, el reconocimiento de entidades y la búsqueda de texto completo.

  4. Las aptitudes personalizadas admiten escenarios que requieren modelos o servicios de inteligencia artificial más complejos. Algunos ejemplos son Documento de inteligencia de Azure AI, modelos de Azure Machine Learning y Azure Functions.

  5. Una vez completado el proceso de enriquecimiento, el indexador guarda los documentos enriquecidos e indexados en un índice de búsqueda. Este índice lo pueden usar la búsqueda de texto completo y otros formularios de consulta.

  6. Los documentos enriquecidos también se pueden proyectar en un almacén de conocimiento, que las aplicaciones de nivel inferior, como las aplicaciones de minería de conocimiento o las aplicaciones de ciencia de datos, pueden usar.

  7. Las consultas acceden al contenido enriquecido en el índice de búsqueda. El índice admite analizadores personalizados, consultas de búsqueda aproximada, filtros y un perfil de puntuación para ajustar la relevancia de la búsqueda.

  8. Las aplicaciones que se conecten a Blob Storage o a Azure Table Storage pueden acceder al almacén de conocimiento.

Componentes

Esta solución usa los siguientes componentes de Azure.

AI Search indexa el contenido y potencia la experiencia del usuario en esta solución. Puede usar AI Search para aplicar aptitudes de inteligencia artificial precompiladas al contenido. Y puede usar el mecanismo de extensibilidad para agregar aptitudes personalizadas, que proporcionan transformaciones de enriquecimiento específicas.

Visión de Azure AI

Visión utiliza el reconocimiento de texto para extraer y reconocer la información de texto de las imágenes. Read API usa los modelos de reconocimiento óptico de caracteres más recientes y está optimizado para documentos grandes y con mucho texto, e imágenes con demasiado grano.

La OCR API heredada no está optimizada para documentos grandes, pero admite más idiomas. La precisión de los resultados de OCR puede variar en función de la calidad del examen y la imagen. Esta solución usa OCR para generar datos con el formato hOCR.

Lenguaje

Lenguaje utiliza capacidades de análisis de texto como Reconocimiento de entidades con nombre y extracción de frases clave para extraer información de texto de documentos sin estructura.

Azure Storage

Blob Storage es un almacenamiento de objetos basado en REST para datos a los que se puede acceder desde cualquier lugar del mundo a través de HTTPS. Blob Storage se puede usar para exponer datos públicamente al mundo, o bien para almacenar los datos de aplicaciones de manera privada. Blob Storage es ideal para grandes cantidades de datos sin estructura, como texto o gráficos.

Table Storage almacena en la nube datos NoSQL altamente disponibles, escalables, estructurados y semiestructurados.

Funciones de Azure

Functions es un servicio de proceso sin servidor que puede usar para ejecutar pequeñas partes de código desencadenado por eventos sin tener que aprovisionar ni administrar explícitamente la infraestructura. Esta solución usa un método de Functions para aplicar la lista de criptónimos de la Agencia Central de Inteligencia (CIA) a los archivos de JFK como una aptitud personalizada.

Azure App Service

Esta solución crea una aplicación web independiente en Azure App Service para probar, demostrar y buscar en el índice para explorar conexiones en los documentos enriquecidos e indexados.

Detalles del escenario

Los conjuntos de datos grandes y sin estructurar pueden incluir tanto notas escritas a máquina como manuscritas, fotografías, diagramas y otros datos sin estructura que las soluciones de búsqueda estándar no pueden analizar. Los archivos de JFK contienen más de 34 000 páginas de documentos sobre la investigación de la CIA del asesinato de JFK en 1963.

Puede usar enriquecimiento con IA en AI Search para extraer y mejorar texto susceptible de indexación y búsqueda de imágenes, blobs y otros orígenes de datos no estructurados, como los archivos JFK. El enriquecimiento con IA usa conjuntos de aptitudes de aprendizaje automático previamente entrenados de las API de Visión y Lenguaje de los servicios de Azure AI. También puede crear y asociar aptitudes personalizadas para agregar un procesamiento especial para los datos de un dominio concreto, como los criptónimos de la CIA. AI Search puede indexar y realizar búsquedas en ese contexto.

Las aptitudes de AI Search de esta solución se pueden clasificar en los grupos siguientes:

  • Procesamiento de imágenes: esta solución utiliza aptitudes de extracción de texto y análisis de imágenes integradas, que incluyen la detección de objetos y de caras, la generación de etiquetas y subtítulos, y la identificación de celebridades y de lugares emblemáticos. Estas aptitudes crean representaciones en texto del contenido de las imágenes, que se pueden buscar utilizando las funcionalidades de consulta de AI Search. El descifrado de documentos es el proceso de extraer o crear contenido de texto a partir de orígenes que no son de texto.

  • Procesamiento de lenguaje natural: esta solución utiliza aptitudes integrada como el reconocimiento de entidades, la detección de idioma y la extracción de frases clave que asignan el texto sin estructurar a campos en los que se pueden realizar búsquedas y a los que se puede agregar filtros en un índice.

  • Aptitudes personalizadas: esta solución utiliza aptitudes personalizadas que amplían la AI Search para aplicar transformaciones de enriquecimiento específicas al contenido. Puede especificar la interfaz de una aptitud personalizada mediante la aptitud API web personalizada.

Posibles casos de uso

El proyecto de ejemplo JFK Files y la demo en línea presenta un caso de uso concreto de AI Search. Esta idea de solución no pretende ser un marco o una arquitectura escalable para todos los escenarios. En su lugar, esta idea de solución proporciona una guía general y un ejemplo. El proyecto de código y la demo crean un sitio web público y un contenedor de almacenamiento legible público para imágenes extraídas, por lo que esta solución no se debe usar con datos que no sean públicos.

También puede usar esta arquitectura para:

  • Aumente el valor y la utilidad del texto sin estructurar y del contenido de las imágenes en aplicaciones de búsqueda y aplicaciones de ciencia de datos.

  • Use aptitudes personalizadas para integrar código abierto, código que no es de Microsoft o código de Microsoft en canalizaciones de indexación.

  • Consiga que los documentos JPG, PNG o de mapa de bits digitalizados se puedan buscar en texto completo.

  • Genere mejores resultados que la extracción de texto de PDF estándar en archivos PDF en los que se combinan imágenes y texto. Es posible que algunos formatos PDF digitalizados y nativos no se analicen correctamente en AI Search.

  • Cree información a partir de contenido sin procesar con un significado inherente o de un contexto que está oculto en grandes documentos sin estructurar o semiestructurados.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribió el siguiente colaborador.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Más información sobre esta solución:

Consulte la documentación del producto:

Pruebe la ruta de aprendizaje: