Azure AI Video Indexer con mensajes de LLM

Artículo
02/04/2025

Información general

Video Indexer de Azure AI se integra con modelos de lenguaje grande (LLM). Las LLM son modelos de IA de lenguaje natural que puede usar para formular preguntas sobre el contenido de vídeo y mucho más. Extraiga la información de Video Indexer de Azure AI en un formato listo para la solicitud que se pueda usar fácilmente con LAS VM. No es necesario volver a indexar vídeos para crear el formato listo para preguntar de los vídeos.

Puede usar mensajes de LLM con Video Indexer de Azure AI en la nube o en el centro de datos mediante Video Indexer de Azure AI habilitado por Arc.

Casos de uso

Generar un resumen de vídeo: puede pedir al modelo LLM que genere resúmenes de vídeos completos o segmentos de vídeo. Esos segmentos se pueden combinar para crear varios tipos de resúmenes como un resumen informativo, un teaser u otro resumen en función de sus necesidades.

Capacidad de búsqueda: al convertir el contenido de vídeo en un formato basado en texto y listo para mensajes, puede realizar búsquedas detalladas en lenguaje natural dentro del contenido del vídeo. Esto puede mejorar significativamente la detectabilidad dentro de bibliotecas de vídeo grandes en función de consultas específicas.

Creación de contenido: puede consultar la biblioteca de vídeos durante momentos específicos en los vídeos asociados a determinadas emociones o eventos. Por ejemplo, puede recuperar momentos "divertidos" o "tristes" de una serie de vídeos y usarlos para crear una promoción o un resaltado. De forma similar, puede recuperar momentos relacionados con eventos específicos de interés como "terremotos pasados durante la última década".

Propósitos educativos: cree resúmenes a partir de vídeos de conferencias para facilitar a los alumnos revisar y comprender el material. Los alumnos también pueden formular preguntas específicas relacionadas con el material de conferencia. Puede consultar la parte exacta del vídeo donde se describe el artículo para que la experiencia de aprendizaje sea más eficaz.

Experiencias interactivas: puede crear experiencias interactivas, como bots de chat basados en vídeo o asistentes virtuales, que pueden responder a consultas de usuario basadas en el contenido del vídeo.

Funcionamiento

Para que la salida esté lista para preguntarse, el vídeo se divide en secciones coherentes que se ajustan tanto a la esencia del vídeo como al tamaño del mensaje. Las secciones se dividen en función de la segmentación de escena de Video Indexer de Azure AI y otras conclusiones. Los resultados del contenido del mensaje se consolidan y generan por segmento por separado. Por ejemplo:

Información detallada

La tabla siguiente contiene la información que se usa para la generación de mensajes.

VI Insight	Etiqueta y formato
Título del vídeo	[Título del vídeo] <título del vídeo>
Detección de objetos	[Objetos detectados] <objeto 1>, <objeto 2>, ...
Etiquetas	[Etiquetas visuales] <etiqueta 1>, <etiqueta 2>, ...
OCR	[OCR] <ocr cluster1><ocr cluster2> ...
Transcripción y oradores	[Transcripción] <speaker name>: <transcript lines>\n<speaker name>: <transcript lines>\n ...
Caras	[Personas conocidas] <cara 1>, <cara 2>, ...
Efectos de audio (AED)	[Efectos de audio] < efecto 1>, <efecto 2>, ...
Posición del segmento dentro del vídeo	[Etiquetas] [Comienzo, Medio, Fin, Créditos graduales]

Creación de contenido de solicitud para un vídeo

Use prompt Content API en el vídeo indizado para obtener el formato De aviso preparado por cada segmento.

Nota:

La información del contenido del mensaje está sujeta al valor preestablecido específico que se usa para indexar el vídeo.

Para generar la API de contenido del símbolo del sistema, use la solicitud POST Create Prompt Content (Crear contenido del símbolo del sistema).
Para ver el contenido del mensaje, use la solicitud Get PromptContent .

Solicitud de ejemplo

Use el id. de cuenta de AVI y el identificador de vídeo.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Respuesta de ejemplo

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Comprobar el estado del trabajo

El trabajo del aviso tarda unos minutos en completarse. Si desea comprobar el estado del trabajo, puede usar la solicitud Obtener estado del trabajo.

Uso de fotogramas clave para solicitar visualmente un modelo de lenguaje grande

La solicitud Prompt Content admite modelos de lenguaje que pueden usar la entrada visual en los mensajes. Al seleccionar el modelo GPT-4V, puede incluir fotogramas clave como parte del mensaje proporcionado al modelo. Los fotogramas devueltos en la respuesta de contenido del mensaje representan los fotogramas clave del vídeo. Esta característica se recomienda para vídeos con una transcripción limitada o sin transcripción en el vídeo o cuando quiera proporcionar más contexto al modelo de lenguaje para mejorar los resultados.

Creación y envío de una solicitud de contenido de solicitud

Como se ha descrito anteriormente, el contenido textual del mensaje se encuentra en la respuesta JSON. Cada cadena de la parte "frames" de la respuesta JSON es el identificador del fotograma clave. Use Get Video Thumbnail The ThumbnailId is the FrameId from the prompt content. Una vez que tenga tanto el contenido textual como los artefactos de fotograma clave, puede combinarlos como solicitudes de un modelo de IA de su elección.

Limitaciones

La característica de solicitud está optimizada para vídeos que contienen tantas conclusiones como sea posible.

Compartir a través de