Elección de una tecnología de procesamiento de imágenes y vídeos de Azure AI

Artículo
10/07/2024

Los servicios de Azure AI ayudan a los desarrolladores y a las organizaciones a crear aplicaciones inteligentes, de vanguardia, listas para el mercado y responsables sin API y modelos listos para usar, predefinidos y personalizables.

En este artículo se tratan los servicios de Azure AI que ofrecen funcionalidades de procesamiento de vídeo e imágenes, como el análisis visual y la generación de imágenes, la detección de objetos, la clasificación de imágenes y el reconocimiento facial.

Servicios

Los siguientes servicios proporcionan funcionalidades de procesamiento de imágenes y vídeos para los servicios de Azure AI:

Azure OpenAI
- Use Azure OpenAI para la generación de imágenes a partir de lenguaje natural mediante modelos de creación de imágenes generativas previamente entrenados. Por ejemplo, generación a petición de arte personalizado.
- Use Azure OpenAI cuando necesite realizar análisis amplios y no específicos sobre imágenes. Por ejemplo, generar descripciones de accesibilidad.
- No use Azure OpenAI si desea utilizar modelos de generación de imágenes de código abierto disponibles en Azure Machine Learning.
- No use Azure OpenAI si necesita realizar tipos específicos de procesamiento de imágenes, como la extracción de formularios, el reconocimiento facial o la detección de características de imágenes especializadas en dominio. En estos escenarios, use o compile soluciones de inteligencia artificial diseñadas específicamente entrenadas para esos fines.
Visión de Azure AI
- Use el servicio Vision cuando necesite reconocimiento óptico de caracteres (OCR), análisis de imágenes o análisis de vídeo básico para detectar movimiento y otros eventos.
- No use el servicio Visión para el análisis que ya admiten los grandes modelos básicos multimodal.
- No use el servicio Visión para moderar el contenido. Use el servicio Seguridad de contenido en su lugar.
Azure AI Custom Vision
- Use el servicio cuando tenga requisitos específicos que el análisis de imágenes del servicio Visión básico no pueda satisfacer. Por ejemplo, es bueno para reconocer objetos inusuales, defectos de fabricación o proporcionar clasificaciones personalizadas detalladas.
- No use el servicio si necesita detección básica de objetos o detección de caras. En su lugar, use los servicios Face o Visión.
- No use el servicio para el análisis visual básico. Use modelos compatibles con visión de Azure OpenAI o modelos de código abierto en Azure Machine Learning en su lugar.
Azure AI Face
- Use el servicio Face cuando necesite comprobar si las caras están activas o suplantadas o falsificadas, o para identificar, agrupar o buscar caras similares.
- No use el servicio Face para detectar emociones en caras ni realizar otro razonamiento de alto nivel sobre las caras. Use modelos de lenguaje multimodal para esas tareas en su lugar.
Video Indexer de Azure AI
- Use el servicio de Azure Video Indexer para realizar tareas relacionadas con análisis de vídeo más avanzadas que el análisis de vídeo básico del servicio Visión no puede proporcionar.
- No use el servicio Azure Video Indexer para tareas básicas de análisis de vídeo, como el recuento de personas y la detección de eventos y movimiento. El análisis de vídeo básico del servicio Visión es más rentable para estas tareas.

Azure OpenAI

Azure OpenAI proporciona acceso a los potentes modelos de lenguaje de OpenAI, incluida la última generación de modelos GPT. Estos admiten el análisis visual y las generaciones de imágenes, y DALL-E admite la generación de imágenes.

Visión de Azure AI

Visión de Azure AI proporciona algoritmos avanzados que procesan imágenes y devuelven información basada en las características visuales que le interesan. Ofrece cuatro servicios: OCR, reconocimiento facial, análisis de imágenes y análisis espacial.

Funcionalidades

En la tabla siguiente se proporciona una lista de las funcionalidades disponibles en el servicio Visión de Azure AI.

Funcionalidad	Descripción
Reconocimiento óptico de caracteres (OCR)	El servicio de reconocimiento óptico de caracteres (OCR) extrae el texto de las imágenes. Puede usar la Read API para extraer el texto impreso y manuscrito de imágenes y documentos. Usa modelos basados en aprendizaje profundo y trabaja con texto en varias superficies y fondos. Entre estos se incluyen documentos de la empresa, facturas, recibos, pósteres, tarjetas de presentación, cartas y pizarras. Las API de OCR admiten la extracción de texto impreso en varios idiomas.
Análisis de imágenes	El servicio Image Analysis extrae muchas características visuales de las imágenes, como objetos, caras y descripciones de texto generadas automáticamente. Con Image Analysis 4.0 basado en el modelo básico de Florence, también puede crear modelos de identificadores de imagen personalizados.
Análisis de vídeo	El Análisis de vídeo incluye características relacionadas con vídeo, como Análisis espacial y Recuperación de vídeo. El Análisis espacial analiza la presencia y el movimiento de personas en una fuente de vídeo y genera eventos a los que pueden responder otros sistemas.

Azure AI Custom Vision

Custom Vision de Azure AI es un servicio de reconocimiento de imágenes que permite compilar, implementar y mejorar sus propios identificadores de imágenes. Los identificadores de imágenes aplican etiquetas a las imágenes en función de sus características visuales. Cada etiqueta representa una clasificación u objeto. Custom Vision permite especificar sus propias etiquetas y entrenar modelos personalizados para detectarlos.

El servicio Custom Vision usa un algoritmo de aprendizaje automático para analizar las imágenes para características personalizadas. Envía conjuntos de imágenes que tienen y no tienen las características visuales que busca. A continuación, etiqueta las imágenes con sus propias etiquetas (etiquetas) en el momento del envío. El algoritmo se entrena con esos datos y calcula su propia precisión probándose a sí mismo con esas mismas imágenes. Una vez que el modelo se haya entrenado, puede probarlo y volver a entrenarlo hasta que pueda usarlo en la aplicación de reconocimiento de imágenes para clasificar imágenes o detectar objetos. También puede exportar el modelo para su uso sin conexión.

Funcionalidades

En la tabla siguiente se proporciona una lista de las funcionalidades disponibles en el servicio Custom Vision de Azure AI.

Funcionalidad	Descripción
Clasificación de imágenes	Predice una categoría, o clase, en función de un conjunto de entradas, que se denominan características. Calcula una puntuación de probabilidad para cada clase posible y devuelve una etiqueta que indica la clase a la que el objeto pertenece con mayor probabilidad. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas.
Detección de objetos	Obtener las coordenadas de un objeto en una imagen. Para utilizar este modelo, se necesitan datos que consistan en características y sus etiquetas

Casos de uso

En la tabla siguiente se proporciona una lista de posibles casos de uso para el servicio de Custom Vision de Azure AI.

Caso de uso	Descripción
Uso de Custom Vision con un dispositivo IoT para notificar estados visuales	use Custom Vision para entrenar un dispositivo con una cámara para detectar estados visuales. Puede ejecutar este escenario de detección en un dispositivo IoT mediante un modelo de ONNX exportado. Un estado visual describe el contenido de una imagen: una sala vacía o con gente, una calzada vacía o con un camión, etc.
Reconocer logotipos en las imágenes de la cámara	Analizar fotos en busca de logotipos específicos.

Azure AI Face

El servicio Azure AI Face ofrece algoritmos de IA que detectan, reconocen y analizan caras humanas en las imágenes. El software de reconocimiento facial es importante en muchos escenarios, como la identificación, el control de acceso sin contacto y el desenfoque automático facial para la privacidad.

Funcionalidades

En la tabla siguiente se proporciona una lista de las funcionalidades disponibles en el servicio Azure AI Face.

Funcionalidad	Descripción
Detección y análisis de caras	Identifica las regiones de una imagen que contienen un rostro humano, normalmente mediante la devolución de coordenadas de cuadro de delimitación que forman un rectángulo alrededor del rostro.
Búsqueda de caras similares	La operación de búsqueda de similares realiza una coincidencia facial entre una cara objetivo y un conjunto de caras candidatas, y busca un conjunto más reducido de caras parecidas a la cara objetivo. Esto resulta útil para realizar una búsqueda de caras por imagen.
Agrupación de caras	La operación de agrupación divide un conjunto de caras desconocidas en varios grupos más pequeños en función de la similitud. Cada grupo es un subconjunto apropiado separado del conjunto original de caras. También devuelve una única matriz "messyGroup" que contiene los identificadores de caras para los que no se han encontrado similitudes.
Identificación	La identificación facial puede abordar la coincidencia "de uno a varios" de una cara de una imagen con un conjunto de caras en un repositorio seguro. Los candidatos de coincidencia se devuelven en función de la coincidencia de sus datos faciales con la cara de la consulta.
Operaciones de reconocimiento facial	Las empresas y las aplicaciones modernas pueden usar las tecnologías de reconocimiento facial, incluidas la verificación facial (coincidencia "uno a uno") y la identificación de la cara (coincidencia "uno a muchos") para confirmar que un usuario es quien dice ser.
Detección de vivacidad	La detección de presencia es una función antifalsificación que comprueba si un usuario está físicamente presente delante de la cámara. Se usa para evitar ataques de suplantación de identidad mediante una foto impresa, un vídeo grabado o una máscara 3D de la cara del usuario.

Casos de uso

En la tabla siguiente se proporciona una lista de posibles casos de uso para el servicio Azure AI Face.

Caso de uso	Descripción
Compruebe la identidad del usuario.	Verificar a una persona con una imagen facial de confianza. Esta verificación podría utilizarse para conceder acceso a propiedades digitales o físicas. En la mayoría de los casos, la imagen de cara de confianza podría provenir de un identificador emitido por el gobierno, como un pasaporte o una licencia de conducir, o podría provenir de una foto de inscripción tomada en persona. Durante la verificación, la detección de la vivacidad puede desempeñar un rol fundamental a la hora de verificar que la imagen procede de una persona real y no de una foto impresa o una máscara.
Censura de rostros	Difuminar o desenfocar las caras detectadas de personas grabadas en un vídeo para proteger su privacidad.
Control de acceso sin interacción.	En comparación con métodos como tarjetas o vales, la identificación de caras opcional permite una experiencia de control de acceso mejorada a la vez que se reducen los riesgos de seguridad e higiene de los medios físicos por uso compartido, pérdida o robo de tarjetas. El reconocimiento facial ayuda al proceso de registro de una persona en el conjunto de registros en aeropuertos, estadios, parques temáticos, edificios, mostradores de recepción de oficinas, hospitales, tiendas, gimnasios, clubes o escuelas.

Video Indexer de Azure AI

Video Indexer de Azure AI es una aplicación en la nube que forma parte de los servicios de Azure AI, basada en los servicios de Azure AI (como Face, Translator, Traductor, Visión de Azure AI y Voz). Permite extraer conclusiones de los vídeos con los modelos de vídeo y audio de Video Indexer de Azure AI.

Funcionalidades

En la tabla siguiente se proporciona una lista de algunas de las funcionalidades disponibles en el servicio Video Indexer de Azure AI.

Funcionalidad	Descripción
Identificación y transcripción de voz en varios idiomas:	Identifica automáticamente el idioma hablado en diferentes segmentos del audio. Envía cada segmento del archivo multimedia que se va a transcribir y luego combina la transcripción en una unificada.
Detección de caras	detecta y agrupa las caras que aparecen en el vídeo.
Identificación de personajes	Identifica a más de un millón de famosos (como líderes mundiales, actores, artistas, atletas, investigadores y líderes empresariales y tecnológicos de todo el mundo). Los datos sobre estos famosos también pueden encontrarse en diversos sitios web (IMDB, Wikipedia, etc.).
Identificación facial basada en cuentas:	Entrena un modelo para una cuenta específica. A continuación reconoce las caras en el vídeo según el modelo entrenado.
Seguimiento de personas observadas (versión preliminar)	Detecta personas observadas en vídeos y proporciona información, como la ubicación de la persona en el fotograma de vídeo (mediante rectángulos delimitadores) y la marca de tiempo exacta (inicio y fin), y la confianza cuando aparece una persona.
Transcripción de audio:	Convierte voz en texto en más de 50 idiomas y permite extensiones.
Detección de idiomas	Identifica automáticamente el idioma hablado dominante.
Reducción de ruido:	borra el audio telefónico o las grabaciones ruidosas (basado en los filtros de Skype).
Traducción	Crea traducciones de la transcripción de audio en muchos idiomas diferentes.

Para revisar más funcionalidades del servicio Video Indexer de Azure AI, consulte la documentación de Video Indexer de Azure AI.

Casos de uso

En la tabla siguiente se proporciona una lista de posibles casos de uso para el servicio de Video Indexer de Azure AI.

Caso de uso	Descripción
Búsqueda profunda	use la información extraída del vídeo para mejorar la experiencia de búsqueda en una biblioteca de vídeos. Por ejemplo, la indexación de palabras habladas y de caras, permite la experiencia de búsqueda de momentos en un vídeo en los que una persona ha pronunciado ciertas palabras o cuando se han visto juntas a dos personas. La búsqueda basada en esta información de los vídeos se puede aplicar a agencias de noticias, instituciones educativas, emisoras, propietarios de contenido de entretenimiento, aplicaciones de línea de negocio de empresas y, en general, a cualquier sector que tenga una biblioteca de vídeos en la que los usuarios necesiten buscar.
Creación de contenido	Cree clips finales, resalte momentos destacados, contenido de redes sociales o clips de noticias basados en la información que Video Indexer de Azure AI extrae del contenido. Los fotogramas clave, marcadores de escenas y marcas de tiempo para las apariciones de personas y etiquetas hacen que el proceso de creación sea mucho más fluido y sencillo, lo que le permiten ir a las partes del vídeo que necesita al crear contenido.
Accesibilidad	Si desea que el contenido esté disponible para personas con discapacidades, o que se distribuya en distintas regiones con distintos idiomas, puede usar la transcripción y traducción que proporciona Video Indexer de Azure AI en varios idiomas y lenguajes.
Monetización	Video Indexer de Azure AI puede ayudar a aumentar el valor de los vídeos. Por ejemplo, los sectores que dependen de los ingresos por publicidad (medios de comunicación, redes sociales, etc.), pueden entregar anuncios relevantes con la información extraída como señales adicionales al servidor de anuncios.
Moderación de contenido	use modelos de moderación de contenido textual y visual para proteger a los usuarios del contenido inadecuado y asegúrese de que el contenido que publica coincide con los valores de la organización. Puede bloquear automáticamente determinados vídeos o avisar a los usuarios sobre el contenido.
Recomendaciones	La información de vídeo se puede usar para mejorar la interacción con los usuarios, resaltando los momentos de vídeo que les puedan resultar más pertinentes. Al etiquetar cada vídeo con metadatos adicionales, puede recomendar a los usuarios los vídeos más importantes y resaltar las partes del vídeo que se adaptan mejor a sus necesidades.

Compartir vía

Elección de una tecnología de procesamiento de imágenes y vídeos de Azure AI

Servicios

Azure OpenAI

Visión de Azure AI

Funcionalidades

Azure AI Custom Vision

Funcionalidades

Casos de uso

Azure AI Face

Funcionalidades

Casos de uso

Video Indexer de Azure AI

Funcionalidades

Casos de uso

Pasos siguientes

Comentarios

Recursos adicionales

Compartir vía

Elección de una tecnología de procesamiento de imágenes y vídeos de Azure AI

Servicios

Azure OpenAI

Visión de Azure AI

Funcionalidades

Azure AI Custom Vision

Funcionalidades

Casos de uso

Azure AI Face

Funcionalidades

Casos de uso

Video Indexer de Azure AI

Funcionalidades

Casos de uso

Pasos siguientes

Recursos relacionados

Comentarios

Recursos adicionales