Clasificación de imágenes en Azure

Azure Blob Storage

Azure Computer Vision

Azure Cosmos DB

Azure Event Grid

Azure Functions

Ideas de solución

En este artículo se describe una idea de solución. El arquitecto de la nube puede usar esta guía para ayudar a visualizar los componentes principales de una implementación típica de esta arquitectura. Use este artículo como punto de partida para diseñar una solución bien diseñada que se adapte a los requisitos específicos de la carga de trabajo.

Mediante los servicios de Azure, como Computer Vision API y Azure Functions, las empresas pueden eliminar la necesidad de administrar servidores individuales, al tiempo que reducen los costos y utilizan los conocimientos que Microsoft ya ha desarrollado con el procesamiento de imágenes con los servicios de Azure AI. Esta idea de solución aborda específicamente un caso de uso de procesamiento de imágenes. Si tiene distintas necesidades de inteligencia artificial, tenga en cuenta el conjunto completo de Servicios de Azure AI.

Arquitectura

Diagram of an architecture for used for image classification tasks. Diagrama de una arquitectura para usar para las tareas de clasificación de imágenes.

Descargue un archivo de Visio de esta idea de solución.

Flujo de datos

Este escenario trata los componentes de back-end de una aplicación web o móvil. Los datos fluyen por el escenario de la siguiente manera:

Agregar nuevos archivos (cargas de imágenes) en Blob Storage desencadena un evento en Azure Event Grid. El proceso de carga se puede orquestar a través de la web o una aplicación móvil. Como alternativa, las imágenes se pueden cargar por separado en Azure Blob Storage.
Event Grid envía una notificación que desencadena las funciones de Azure.
Azure Functions llama a la API de Visión de Azure AI para analizar la imagen recién cargada. Visión de Azure AI accede a la imagen a través de la dirección URL del blob que analiza Azure Functions.
Azure Functions conserva la respuesta de la API de Visión de Azure AI en Azure Cosmos DB. Esta respuesta incluye los resultados del análisis, junto con los metadatos de la imagen.
Los resultados se pueden consumir y reflejar en el front-end web o móvil. Tenga en cuenta que este enfoque recupera los resultados de la clasificación, pero no la imagen cargada.

Componentes

Visión de Azure AI forma parte del conjunto de servicios de Azure AI y se usa para recuperar información acerca de cada imagen.
Azure Functions proporciona la API de back-end para la aplicación web. Esta plataforma también proporciona procesamiento de eventos para imágenes cargadas.
Azure Event Grid desencadena un evento cuando se carga una nueva imagen en Blob Storage. A continuación, la imagen se procesa con Azure Functions.
Azure Blob Storage almacena todos los archivos de imagen que se cargan en la aplicación web, así como también los archivos estáticos que consume la aplicación web.
Azure Cosmos DB almacena los metadatos de cada imagen que se haya cargado, incluidos los resultados del procesamiento de la API de Computer Vision.

Alternativas

Azure OpenAI GPT-4o y GPT-4o-mini. GPT-4o y GPT-4o-mini son modelos de chat multiplataforma de OpenAI que pueden responder a preguntas generales sobre lo que está presente en las imágenes que proporcione.
Custom Vision Service. Computer Vision API devuelve un conjunto de categorías basadas en la taxonomía. Si necesita procesar la información que Computer Vision API no devuelve, considere la posibilidad de usar Custom Vision Service, que permite crear clasificadores de imágenes personalizados. Para obtener información sobre este servicio, siga el inicio rápido Creación de un modelo de clasificación de imágenes con Custom Vision.
azure AI Search. Si su caso de usuario implica consultar los metadatos para buscar las imágenes que cumplen determinados criterios, considere la posibilidad de usar Búsqueda de Azure AI. Búsqueda de Azure AI integra sin problemas este flujo de trabajo.
Logic Apps. Si no necesita reaccionar en tiempo real a los archivos agregados a un blob, puede considerar el uso de Logic Apps. Una aplicación lógica que puede comprobar si se ha agregado un archivo podría iniciarse con el desencadenador de periodicidad o el desencadenador de ventana deslizante.
Si tiene imágenes incrustadas en documentos, use Documento de inteligencia de Azure AI para buscar esas imágenes. Con esa información, puede extraer y realizar más tareas de Computer Vision en las imágenes insertadas. Use la inteligencia de documentos para recopilar datos sobre esas imágenes insertadas, como el número de página o el texto del subtítulo, que se pueden almacenar junto con los demás metadatos de las imágenes recibidas a través de la API de Computer Vision. Si las imágenes son principalmente fotos o exámenes de documentos, use los modelos de clasificación personalizados de Document Intelligence para realizar la clasificación de un archivo de entrada una página a la vez para identificar los documentos dentro. Este enfoque también puede identificar varios documentos o varias instancias de un único documento dentro de un archivo de entrada.

Detalles del escenario

Este escenario es pertinente para las empresas que necesitan procesar imágenes.

Algunas aplicaciones posibles son clasificar las imágenes de un sitio web de moda, analizar texto e imágenes para reclamaciones de seguros o reconocer los datos de telemetría de capturas de pantalla de juegos. Tradicionalmente, las empresas necesitaban convertirse en expertos en modelos de aprendizaje automático, entrenar los modelos y, por último, ejecutar las imágenes en su proceso personalizado para extraer los datos de las imágenes.

Posibles casos de uso

Esta solución es ideal para los sectores de venta al por menor, juegos, finanzas y seguros. Otros casos de uso pertinentes incluyen:

Clasificar las imágenes en un sitio web de moda. Los vendedores pueden usar la clasificación de imágenes mientras cargan imágenes de productos en la plataforma para la venta. Pueden automatizar el consiguiente etiquetado manual implicado. Los clientes también pueden buscar en la impresión visual de los productos.
Clasificar los datos de telemetría de las capturas de pantalla de juegos. La clasificación de videojuegos de capturas de pantalla está evolucionando en un problema relevante en las redes sociales, junto con Computer Vision. Por ejemplo, cuando los streamers de Twitch juegan diferentes juegos en sucesión, pueden omitir la actualización manual de su información de transmisión. Si no se actualiza la información de la secuencia, podría producirse una clasificación incorrecta de secuencias en las búsquedas de usuarios y podría provocar la pérdida de la posible audiencia tanto para los creadores de contenido como para las plataformas de streaming. Al introducir juegos noveles, una ruta de modelo personalizada podría resultar útil para introducir la capacidad de detectar imágenes nuevas de esos juegos.
Clasificar imágenes para las reclamaciones de seguros. La clasificación de imágenes puede ayudar a reducir el tiempo y el costo del procesamiento y la suscripción de notificaciones. Podría ayudar a analizar los daños ante desastres naturales, los daños del vehículo e identificar las propiedades residenciales y comerciales.

Pasos siguientes

Documentación del producto

Para conocer una ruta de aprendizaje guiado, consulte:

Compartir a través de

Clasificación de imágenes en Azure

Arquitectura

Flujo de datos

Componentes

Alternativas

Detalles del escenario

Posibles casos de uso

Pasos siguientes

Comentarios

Recursos adicionales

Compartir a través de

Clasificación de imágenes en Azure

Arquitectura

Flujo de datos

Componentes

Alternativas

Detalles del escenario

Posibles casos de uso

Pasos siguientes

Recursos relacionados

Comentarios

Recursos adicionales