Partilhar via


Azure AI Video Indexer com prompts LLM

Descrição geral

O Azure AI Video Indexer integra-se com LLMs (Large Language Models). LLMs são modelos de IA de linguagem natural que você pode usar para fazer perguntas sobre conteúdo de vídeo e muito mais. Extraia as informações do Azure AI Video Indexer em um formato pronto para prompt que pode ser facilmente usado com LLMs. Não há necessidade de reindexar vídeos para criar o formato pronto para prompts dos vídeos.

Casos de Utilização

Gerar um resumo de vídeo: Você pode pedir ao modelo LLM para gerar resumos de vídeos inteiros ou segmentos de vídeo. Esses segmentos podem ser combinados para criar vários tipos de resumos, como um resumo informativo, um teaser ou outro resumo, dependendo das suas necessidades.

Capacidade de pesquisa: Ao converter conteúdo de vídeo em um formato baseado em texto e pronto para prompt, você pode realizar pesquisas detalhadas em linguagem natural dentro do seu conteúdo de vídeo. Isso pode melhorar significativamente a capacidade de descoberta em grandes bibliotecas de vídeo com base em consultas específicas.

Criação de conteúdo: Você pode consultar sua biblioteca de vídeos para momentos específicos em seus vídeos associados a determinadas emoções ou eventos. Por exemplo, você pode recuperar momentos "engraçados" ou "tristes" de uma série de vídeos e usá-los para criar uma promoção ou destaque. Da mesma forma, você pode recuperar momentos relacionados a eventos específicos de interesse, como "terremotos passados durante a última década".

Fins educacionais: Crie resumos a partir de vídeos de palestras para facilitar a revisão e compreensão do material pelos alunos. Os alunos também podem fazer perguntas específicas relacionadas com o material da aula. Você pode consultar a parte exata do vídeo onde o artigo é discutido, tornando a experiência de aprendizagem mais eficiente.

Experiências interativas: você pode criar experiências interativas, como chatbots baseados em vídeo ou assistentes virtuais, que podem responder às perguntas do usuário com base no conteúdo do vídeo.

Como funciona

Para que a saída esteja pronta para prompt, o vídeo é dividido em seções coerentes que se encaixam tanto na essência do vídeo quanto no tamanho do prompt. As seções são divididas com base no Azure AI Video Indexer, Segmentação de Cena e outros insights. Os resultados do conteúdo do prompt são consolidados e gerados por segmento separadamente. Por exemplo:

Informações

A tabela a seguir contém os insights usados para a geração de prompts.

VI Visão Etiquetar e formatar
Título do vídeo [Título do vídeo] <título do vídeo>
Deteção de objetos [Objetos detetados] <objeto 1>, <objeto 2>, ...
Etiquetas [Rótulos visuais] <rótulo 1>, <rótulo 2>, ...
OCR [OCR] <OCR Cluster1><OCR Cluster2> ...
Transcrição e oradores [Transcrição] <Nome> do orador: <Linhas> de transcrição\n<Nome> do orador: <Linhas> de transcrição\n ...
Faces [Pessoas conhecidas] <face 1>, <face 2>, ...
Efeitos de áudio (AED) [Efeitos de áudio] < efeito 1>, <efeito 2>, ...
Posição do segmento dentro do vídeo [Etiquetas] [Início, Meio, Fim, Créditos rolantes]

Criar conteúdo de prompt para um vídeo

Use a API Prompt Content em seu vídeo indexado para obter o formato Prompt-Ready por cada segmento.

Nota

As informações de conteúdo de prompt estão sujeitas à predefinição específica que está sendo usada para indexar o vídeo.

Pedido de exemplo

Use o ID da sua conta AVI e o ID do vídeo.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Resposta de exemplo

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Verificar o estado da tarefa

Leva alguns minutos para que o trabalho imediato seja concluído. Se você quiser verificar o status do trabalho, você pode usar a solicitação Obter status do trabalho.

Use quadros-chave para solicitar visualmente um modelo de linguagem grande

A solicitação Prompt Content oferece suporte a modelos de linguagem que podem usar entrada visual em prompts. Ao selecionar o modelo GPT-4V, você pode incluir quadros-chave como parte do prompt fornecido ao modelo. Os quadros retornados na resposta de conteúdo de prompt representam os quadros-chave do vídeo. Este recurso é recomendado para vídeos com pouca ou nenhuma transcrição no vídeo ou quando deseja fornecer mais contexto ao modelo de idioma para melhorar seus resultados.

Criar e enviar uma solicitação de Conteúdo Prompt

Conforme descrito acima, o conteúdo textual do prompt está na resposta JSON. Cada cadeia de caracteres na parte "frames" da resposta JSON é a ID do quadro-chave. Use Obter miniatura de vídeo O ThumbnailId é o FrameId do conteúdo do prompt. Depois de ter o conteúdo textual e os artefatos de quadro-chave, você pode combiná-los como prompts para um modelo de IA de sua escolha.

Limitações

O recurso de prompt é otimizado para vídeos que contêm o maior número possível de informações.