Video Indexer di Intelligenza artificiale di Azure con richieste LLM
Panoramica
Video Indexer di Intelligenza artificiale di Azure si integra con modelli di linguaggio di grandi dimensioni. I modelli di intelligenza artificiale in linguaggio naturale possono essere usati per porre domande sul contenuto video e molto altro ancora. Estrarre le informazioni dettagliate di Video Indexer di Azure per intelligenza artificiale in un formato pronto per la richiesta che può essere facilmente usato con IMS. Non è necessario reindicizzare i video per creare il formato pronto per la richiesta dei video.
Casi d'uso
Generare un riepilogo video: è possibile chiedere al modello LLM di generare riepiloghi di interi video o segmenti di video. Questi segmenti possono essere combinati per creare diversi tipi di riepiloghi, ad esempio un riepilogo informativo, un teaser o un altro riepilogo a seconda delle esigenze.
Ricercabilità: convertendo il contenuto video in un formato basato su testo e pronto per il prompt, è possibile eseguire ricerche in linguaggio naturale dettagliate all'interno del contenuto video. Ciò può migliorare significativamente l'individuabilità all'interno di librerie video di grandi dimensioni in base a query specifiche.
Creazione di contenuti: è possibile eseguire query sulla raccolta video per alcuni momenti specifici nei video associati a determinate emozioni o eventi. Ad esempio, è possibile recuperare momenti "divertenti" o "tristi" da una serie di video e usarli per creare un promo o un'evidenziazione. Analogamente, è possibile recuperare momenti correlati a eventi specifici di interesse, ad esempio "terremoti passati durante l'ultimo decennio".
Scopi didattici: creare riepiloghi dai video delle lezioni per semplificare la revisione e la comprensione del materiale da parte degli studenti. Gli studenti possono anche porre domande specifiche relative al materiale della lezione. È possibile fare riferimento alla parte esatta del video in cui viene discusso l'articolo rendendo più efficiente l'esperienza di apprendimento.
Esperienze interattive: è possibile creare esperienze interattive, ad esempio chatbot basati su video o assistenti virtuali, in grado di rispondere alle query utente in base al contenuto del video.
Funzionamento
Affinché l'output sia pronto per la richiesta, il video viene suddiviso in sezioni coerenti che soddisfano sia l'essenza del video che le dimensioni del prompt. Le sezioni sono suddivise in base alla segmentazione della scena di Video Indexer per intelligenza artificiale di Azure e ad altre informazioni dettagliate. I risultati del contenuto della richiesta vengono consolidati e generati separatamente per ogni segmento. Ad esempio:
Insights
La tabella seguente contiene le informazioni dettagliate usate per la generazione di richieste.
VI Insight | Tag e formato |
---|---|
Titolo video | [Titolo video] <titolo video> |
Rilevamento oggetti | [Oggetti rilevati] <oggetto 1>, <oggetto 2>, ... |
Etichette | [Etichette visive] <etichetta 1>, <etichetta 2>, ... |
OCR | [OCR] <ocr cluster1><ocr cluster2> ... |
Trascrizione e altoparlanti | [Trascrizione] <nome> del parlante: <righe> di trascrizione\n<nome> voce: <righe> di trascrizione\n ... |
Visi | [Persone note] <faccia 1>, <faccia 2>, ... |
Effetti audio (AED) | [Effetti audio] < effetto 1>, <effetto 2>, ... |
Posizione del segmento all'interno del video | [Tag] [Beginning, Middle, End, Rolling credits] |
Creare un contenuto prompt per un video
Usare l'API Prompt Content nel video indicizzato per ottenere il formato Prompt-Ready per ogni segmento.
Nota
Le informazioni dettagliate sul contenuto della richiesta vengono sottoposte al set di impostazioni specifico usato per indicizzare il video.
- Per generare l'API Prompt Content, usare la richiesta post di creazione di contenuto prompt.
- Per visualizzare il contenuto del prompt, usare la richiesta Get PromptContent .
Richiesta di esempi
Usare l'ID account AVI e l'ID video.
POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent
Esempio di risposta
index
{
"algoVersion": "2.0.0",
"schemaVersion": "0.0.1",
"partition": null,
"name": "10_best_dressed_grammy",
"sections": [
{
"id": 0,
"start": "0:00:00",
"end": "0:00:40.915875",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY
CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
},
{
"id": 1,
"start": "0:00:40.915875",
"end": "0:01:17.202125",
"content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
},
}
Controllare lo stato del processo
Il completamento del processo di richiesta richiede alcuni minuti. Se si vuole controllare lo stato del processo, è possibile usare la richiesta Get Job Status (Ottieni stato processo).
Usare i fotogrammi chiave per richiedere un modello linguistico di grandi dimensioni visivamente
La richiesta di contenuto prompt supporta modelli linguistici che possono usare l'input visivo nelle richieste. Quando si seleziona il modello GPT-4V, è possibile includere fotogrammi chiave come parte della richiesta fornita al modello. I fotogrammi restituiti nella risposta al contenuto della richiesta rappresentano i fotogrammi chiave del video. Questa funzionalità è consigliata per i video con trascrizioni limitate o senza trascrizioni nel video o quando si vuole fornire più contesto al modello linguistico per migliorarne i risultati.
Creare e inviare una richiesta di contenuto prompt
Come descritto in precedenza, il contenuto testuale per il prompt si trova nella risposta JSON. Ogni stringa nella parte "frame" della risposta JSON è l'ID del fotogramma chiave. Usare Get Video Thumbnail The ThumbnailId is the FrameId from the prompt content .Use Get Video ThumbnailId is the FrameId from the prompt content. Dopo aver ottenuto sia il contenuto testuale che gli artefatti del fotogramma chiave, è possibile combinarli come richieste per un modello di intelligenza artificiale di propria scelta.
Limiti
La funzionalità di richiesta è ottimizzata per i video che contengono il maggior numero possibile di informazioni dettagliate.