Soluciones de vídeo de Azure AI Content Understanding (versión preliminar)
Importante
- Azure AI Content Understanding está disponible en versión preliminar. Las versiones preliminares públicas proporcionan acceso anticipado a las características que están en desarrollo activo.
- Las características, los enfoques y los procesos pueden cambiar o tener funcionalidades restringidas, antes de la disponibilidad general (GA).
- Para obtener más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.
La comprensión de contenidos de Azure AI permite extraer y personalizar metadatos de vídeo. La comprensión de contenidos ayuda a administrar, clasificar, recuperar y compilar flujos de trabajo de forma eficaz para los recursos de vídeo. Mejora la biblioteca de recursos multimedia, admite flujos de trabajo como la generación de resaltado, clasifica el contenido y facilita aplicaciones como la generación aumentada de recuperación (RAG).
La comprensión del contenido para el vídeo tiene un amplio potencial de uso. Por ejemplo, puede personalizar los metadatos para etiquetar escenas específicas en un vídeo de entrenamiento, lo que facilita a los empleados localizar y volver a consultar secciones importantes. También puede usar la personalización de metadatos para identificar la ubicación del producto en vídeos promocionales, lo que ayuda a los equipos de marketing a analizar la exposición de la marca.
Casos de uso empresarial
La comprensión de contenidos de Azure AI proporciona una variedad de casos de uso empresariales, entre los que se incluyen:
- Medios de difusión y entretenimiento: administre bibliotecas grandes de programas, películas y clips mediante la generación de metadatos detallados para cada recurso.
- Educación y e*Learning: indexe y recupere momentos específicos en vídeos educativos o conferencias.
- Formación corporativa: organizar vídeos de aprendizaje por temas clave, escenas o momentos importantes.
- Marketing y publicidad: analizar vídeos promocionales para extraer ubicaciones de productos, apariencias de marca y mensajes clave.
Funcionalidades de comprensión de vídeo
La comprensión de contenidos procesa archivos de vídeo a través de una canalización personalizable que puede realizar tareas de extracción de contenido y extracción de campos. La extracción de contenido se centra en analizar el vídeo para generar metadatos fundamentales, mientras que la extracción de campos usa esos metadatos para crear información personalizada más detallada adaptada a casos de uso específicos. Para seguir, se ofrece información general sobre cada funcionalidad.
Extracción de contenido
La extracción de contenido para vídeo incluye transcripción, detección de capturas, extracción de fotogramas clave y agrupación de caras. Estas operaciones se realizan en fotogramas muestreados de todo el vídeo y generan una salida de texto estructurado que representa el vídeo. La extracción de contenido también sirve como datos de base para las funcionalidades generativas de extracción de campos al proporcionar contexto sobre lo que se incluye en el vídeo.
Funcionalidades específicas de la extracción de contenido:
- Transcripción: convierte la voz en texto estructurado y en el que se pueden realizar búsquedas a través de Azure AI Speech, lo que permite a los usuarios especificar idiomas de reconocimiento.
- Detección de capturas: identifica los segmentos del vídeo alineados con los límites de captura siempre que sea posible, lo que permite editar y volver a empaquetar contenido con sdaltos exactamente en los límites de la captura.
- Extracción de fotogramas clave: extrae fotogramas clave de vídeos para representar cada captura completamente, lo que garantiza que cada captura tenga suficientes fotogramas clave para permitir que la extracción de campos funcione de forma eficaz.
- Agrupación de caras: caras agrupadas que aparecen en un vídeo para extraer una imagen de cara representativa para cada persona y proporciona segmentos donde cada uno está presente. Los datos de caras agrupados están disponibles como metadatos y se pueden usar para generar campos de metadatos personalizados.
- Esta característica es un acceso limitado e implica la identificación y agrupación de caras; Los clientes deben registrarse para obtener acceso en Reconocimiento facial.
Extracción de campos
La extracción de campos permite generar datos estructurados para cada segmento del vídeo, como etiquetas, categorías o descripciones, mediante un esquema personalizable adaptado a sus necesidades específicas. Estos datos estructurados facilitan la organización, búsqueda y procesamiento automático del contenido de vídeo de forma eficaz. La extracción de campos usa un modelo generativo multimodal para extraer datos específicos del vídeo, mediante fotogramas clave y salida de texto de extracción de contenido como entrada. La extracción de campos permite al modelo generativo obtener información detallada basada en el contenido visual capturado de las tomas, lo que proporciona una identificación detallada.
Ejemplos de campos para diferentes sectores:
Administración de recursos multimedia:
- Tipo Shot: ayuda a los editores y productores a organizar el contenido, simplificar la edición y comprender el lenguaje visual del vídeo. Resulta útil para el etiquetado de metadatos y una recuperación de escena más rápida.
- Combinación de colores: transmite el estado de ánimo y la atmósfera, esencial para la coherencia narrativa y la interacción del espectador. La identificación de temas de color ayuda a buscar clips coincidentes para la edición acelerada de vídeo.
Publicidad:
- Marca: identifica la presencia de marca, fundamental para analizar el impacto de los anuncios, la visibilidad de la marca y la asociación con los productos. Esta funcionalidad permite a los anunciantes evaluar la importancia de la marca y garantizar el cumplimiento de las directrices de personalización de marca.
- Categorías de anuncios: clasifica los tipos de anuncios por sector, tipo de producto o segmento de audiencia, que admite estrategias de publicidad dirigidas, categorización y análisis de rendimiento.
Ventajas principales
La comprensión de contenidos proporciona varias ventajas clave en comparación con otras soluciones de análisis de vídeo:
- Análisis de varios fotogramas basados en segmentos: identificar acciones, eventos, temas y temas mediante el análisis de varios fotogramas de cada segmento de vídeo, en lugar de fotogramas individuales.
- Personalización: personalice los metadatos que genere modificando el esquema de acuerdo con su caso de uso específico.
- Modelos generativos: describe en lenguaje natural el contenido que quieres extraer y comprensión de contenidos usa modelos generativos para extraer esos metadatos.
- Preprocesamiento optimizado: realice varios pasos de preprocesamiento de extracción de contenido, como la transcripción y la detección de escenas, optimizados para proporcionar un contexto enriquecido a los modelos generativos de IA.
Requisitos de entrada
Para obtener información detallada sobre los formatos de documento de entrada admitidos, consulte nuestra página de Límites y cuotas de servicio .
Idiomas y regiones admitidos
Para obtener una lista detallada de los idiomas y regiones admitidos, visite nuestra página de Soporte técnico de idioma y región.
Seguridad y privacidad de datos
Al igual que con todos los servicios de Azure AI, los desarrolladores que usan el servicio de comprensión de contenidos deben tener en cuenta las directivas de Microsoft en los datos de los clientes. Consulte nuestra página Datos, protección y privacidad para obtener más información.
Importante
Los usuarios de comprensión de contenidos pueden habilitar características como La agrupación de caras para vídeos, que implican el procesamiento de datos biométricos. Si utiliza productos o servicios de Microsoft para procesar datos biométricos, es responsable de: (i) notificar a los interesados, incluso respecto a los periodos de retención y destrucción; (ii) obtener el consentimiento de los interesados; y (iii) eliminar los datos biométricos, todo ello según corresponda y se requiera en virtud de los Requisitos de Protección de datos aplicables. "Datos biométricos" tendrá el significado establecido en el artículo 4 del GDPR y, si procede, términos equivalentes en otros requisitos de protección de datos. Para obtener información relacionada, consulte Datos y privacidad de Face.
Pasos siguientes
- Pruebe a procesar el contenido de vídeo mediante comprensión de contenidos en Azure Portal.
- Obtenga más información acerca de las plantillas de analizador de vídeo.