Azure AI Video Indexer s výzvami LLM

Článek
01/31/2025

Přehled

Azure AI Video Indexer se integruje s velkými jazykovými modely (LLM). LLM jsou modely umělé inteligence přirozeného jazyka, které můžete použít k kladení otázek na videoobsávku a mnoho dalšího. Extrahujte přehledy Azure AI Video Indexeru do připraveného formátu výzvy, který se dá snadno použít s LLM. Není nutné přeindexovat videa, abyste vytvořili formát videa připravený k zobrazení výzvy.

Výzvy LLM můžete použít s Azure AI Video Indexerem v cloudu nebo ve vašem datacentru pomocí Azure AI Video Indexeru povoleného službou Arc.

Případy použití

Vygenerování souhrnu videa: Můžete požádat model LLM, aby vygeneroval souhrny celých videí nebo segmentů videa. Tyto segmenty je možné kombinovat a vytvořit několik typů souhrnů, jako je informativní souhrn, teaser nebo jiný souhrn v závislosti na vašich potřebách.

Možnosti vyhledávání: Převodem obsahu videa do textového formátu připraveného k zobrazení výzvy můžete provádět podrobné vyhledávání v přirozeném jazyce v obsahu videa. To může výrazně zlepšit zjistitelnost ve velkých knihovnách videí na základě konkrétních dotazů.

Vytváření obsahu: Do knihovny videí můžete zadávat dotazy na konkrétní momenty ve videích spojených s určitými emocemi nebo událostmi. Můžete například načíst "legrační" nebo "smutné" momenty z série videí a použít ho k vytvoření propagační nebo zvýraznění. Podobně můžete načíst momenty související s konkrétními událostmi zájmu, jako je například "minulé zemětřesení během posledního desetiletí".

Vzdělávací účely: Vytvářejte souhrny z přednáškových videí, abyste studentům usnadnili kontrolu a pochopení materiálů. Studenti se také můžou ptát na konkrétní otázky související s přednáškou. Můžete se podívat na přesnou část videa, kde se článek věnuje efektivnějšímu učení.

Interaktivní prostředí: Můžete vytvářet interaktivní prostředí, jako jsou videochatboti nebo virtuální asistenti, kteří můžou odpovídat na dotazy uživatelů na základě obsahu videa.

Jak to funguje

Aby byl výstup připravený na výzvu, video se rozdělí do koherentních oddílů, které odpovídají podstatě videa i velikosti výzvy. Oddíly jsou rozdělené na základě segmentace scény Azure AI Video Indexeru a dalších přehledů. Výsledky obsahu výzvy se konsolidují a generují zvlášť pro jednotlivé segmenty. Příklad:

Přehledy

Následující tabulka obsahuje přehledy používané pro generování výzvy.

Přehled VI	Označení a formátování
Název videa	[Název videa] <název videa>
Detekce objektů	[Zjištěné objekty] <objekt 1>, <objekt 2>, ...
Popisky	[Popisky vizuálů] <štítek 1>, <štítek 2>, ...
OCR	[OCR] <ocr cluster1><ocr cluster2> ...
Přepis a reproduktory	[Přepis] <jméno> mluvčího: <řádky> přepisu\n<jméno> mluvčího: <řádky> přepisu\n ...
Tváře	[Známí lidé] <tvář 1>, <obličej 2>, ...
Zvukové efekty (AED)	[Zvukové efekty] < efekt 1>, <efekt 2>, ...
Pozice segmentu v rámci videa	[Značky] [Začátek, Střed, Konec, Průběžné kredity]

Vytvoření obsahu výzvy pro video

K získání formátu Prompt-Ready pro každý segment použijte rozhraní API pro obsah výzvy na indexované video.

Poznámka:

Na přehledy obsahu výzvy se vztahuje konkrétní předvolba, která se používá k indexování videa.

K vygenerování rozhraní API pro zobrazení výzvy použijte požadavek POST Create Prompt Content Request.
Pokud chcete zobrazit obsah výzvy, použijte požadavek Get PromptContent .

Příklad požadavku

Použijte ID účtu AVI a ID videa.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Příklad odpovědi

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Kontrola stavu úlohy

Dokončení úlohy výzvy trvá několik minut. Pokud chcete zkontrolovat stav úlohy, můžete použít žádost o získání stavu úlohy.

Vizuální zobrazení výzvy k zobrazení výzvy velkého jazykového modelu pomocí klíčových snímků

Požadavek na obsah výzvy podporuje jazykové modely, které můžou ve výzev používat vizuální vstup. Při výběru modelu GPT-4V můžete do výzvy poskytnuté modelu zahrnout klíčové rámce. Snímky vrácené v odpovědi obsahu výzvy představují klíčové snímky z videa. Tato funkce se doporučuje pro videa s omezeným nebo žádným přepisem ve videu nebo v případě, že chcete poskytnout více kontextu jazykovému modelu, aby se zlepšily výsledky.

Vytvoření a odeslání žádosti o obsah výzvy

Jak je popsáno výše, textový obsah výzvy je v odpovědi JSON. Každý řetězec v části "rámce" odpovědi JSON je ID klíčového rámce. Použijte get video thumbnail The ThumbnailId is the FrameId from the prompt content. Jakmile budete mít textový obsah i artefakty klíčového rámce, můžete je zkombinovat jako výzvy pro model AI podle vašeho výběru.

Omezení

Funkce výzvy je optimalizovaná pro videa, která obsahují co nejvíce přehledů.

Sdílet prostřednictvím