Partager via


Azure AI Video Indexer avec des invites LLM

Vue d’ensemble

Azure AI Video Indexer s’intègre à de grands modèles de langage (LLMs). Les llms sont des modèles IA en langage naturel que vous pouvez utiliser pour poser des questions sur le contenu vidéo et bien plus encore. Extrayez les insights d’Azure AI Video Indexer dans un format prêt à l’invite qui peut être facilement utilisé avec des machines virtuelles LLM. Il n’est pas nécessaire de réindexer des vidéos pour créer le format prêt à l’invite des vidéos.

Cas d'utilisation

Générer une synthèse vidéo : vous pouvez demander au modèle LLM de générer des résumés de vidéos entières ou de segments vidéo. Ces segments peuvent être combinés pour créer plusieurs types de résumés comme un résumé informatif, un teaser ou un autre résumé en fonction de vos besoins.

Possibilité de recherche : en convertissant du contenu vidéo en format texte prêt à l’invite, vous pouvez effectuer des recherches détaillées en langage naturel au sein de votre contenu vidéo. Cela peut améliorer considérablement la détectabilité dans les bibliothèques vidéo volumineuses en fonction de requêtes spécifiques.

Création de contenu : vous pouvez interroger votre bibliothèque de vidéos pour des moments spécifiques dans vos vidéos associées à certaines émotions ou événements. Par exemple, vous pouvez récupérer des moments « drôles » ou « tristes » à partir d’une série vidéo et l’utiliser pour créer une promotion ou une mise en surbrillance. De même, vous pouvez récupérer des moments liés à des événements spécifiques d’intérêt tels que « tremblements de terre passés au cours de la dernière décennie ».

Objectifs pédagogiques : Créez des résumés à partir de vidéos de cours pour faciliter la révision et la compréhension du matériel. Les étudiants peuvent également poser des questions spécifiques relatives au matériel de cours. Vous pouvez faire référence à la partie exacte de la vidéo où l’article est abordé pour rendre l’expérience d’apprentissage plus efficace.

Expériences interactives : vous pouvez créer des expériences interactives, telles que des chatbots vidéo ou des assistants virtuels, qui peuvent répondre aux requêtes des utilisateurs en fonction du contenu de la vidéo.

Fonctionnement

Pour que la sortie soit prête à l’invite, la vidéo est divisée en sections cohérentes qui correspondent à la fois à l’essence de la vidéo et à la taille de l’invite. Les sections sont divisées en fonction de la segmentation de scène Azure AI Video Indexer et d’autres insights. Les résultats du contenu de l’invite sont consolidés et générés séparément par segment. Par exemple :

Informations

Le tableau suivant contient les insights utilisés pour la génération d’invite.

VI Insight Balise et format
Titre de la vidéo [Titre de la vidéo] <titre vidéo>
Détection d’objets [Objets détectés] <objet 1>, <objet 2>, ...
Étiquettes [Étiquettes visuelles] <étiquette 1>, <étiquette 2>, ...
OCR [OCR] <ocr cluster1><ocr cluster2> ...
Transcription et haut-parleurs [Transcription] <nom> de l’orateur : <lignes> de transcription\n<nom> de l’orateur : <lignes> de transcription\n ...
Visages [Personnes connues] <face 1>, <face 2>, ...
Effets audio (AED) [Effets audio] < effet 1>, <effet 2>, ...
Position du segment dans la vidéo [Balises] [Début, Moyen, Fin, Crédits propagés]

Créer du contenu d’invite pour une vidéo

Utilisez l’API de contenu d’invite sur votre vidéo indexée pour obtenir le format Prêt à l’invite par segment.

Remarque

Les insights de contenu d’invite sont soumis à la présélection spécifique utilisée pour indexer la vidéo.

Exemple de requête

Utilisez votre ID de compte AVI et l’ID vidéo.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Exemple de réponse

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Vérifier l’état de la tâche

La fin du travail d’invite prend quelques minutes. Si vous souhaitez vérifier l’état du travail, vous pouvez utiliser la demande Obtenir l’état du travail.

Utiliser des images clés pour inviter un modèle de langage volumineux visuellement

La demande de contenu d’invite prend en charge les modèles de langage qui peuvent utiliser l’entrée visuelle dans les invites. Lorsque vous sélectionnez le modèle GPT-4V, vous pouvez inclure des images clés dans le cadre de l’invite fournie au modèle. Les images retournées dans la réponse de contenu d’invite représentent les images clés de la vidéo. Cette fonctionnalité est recommandée pour les vidéos avec une transcription limitée ou sans transcription dans la vidéo ou lorsque vous souhaitez fournir davantage de contexte au modèle de langage pour l’améliorer.

Créer et envoyer une demande de contenu d’invite

Comme décrit ci-dessus, le contenu textuel de l’invite se trouve dans la réponse JSON. Chaque chaîne dans la partie « frames » de la réponse JSON est l’ID de l’image clé. Utilisez Get Video ThumbnailId The ThumbnailId is the FrameId from the prompt content. Une fois que vous avez à la fois le contenu textuel et les artefacts d’images clés, vous pouvez les combiner en tant qu’invites pour un modèle IA de votre choix.

Limites

La fonctionnalité d’invite est optimisée pour les vidéos qui contiennent autant d’insights que possible.