Udostępnij za pośrednictwem


Usługa Azure AI Video Indexer z monitami LLM

Omówienie

Usługa Azure AI Video Indexer integruje się z dużymi modelami językowymi (LLMs). LLMs to modele sztucznej inteligencji języka naturalnego, których można użyć do zadawania pytań dotyczących zawartości wideo i wiele innych. Wyodrębnianie szczegółowych informacji usługi Azure AI Video Indexer w formacie gotowym do wyświetlenia monitu, który można łatwo używać z usługami LLMs. Nie ma potrzeby ponownego indeksowania filmów wideo w celu utworzenia formatu wideo gotowego do wyświetlenia monitu.

Przypadki użycia

Generowanie podsumowania wideo: możesz poprosić model LLM o wygenerowanie podsumowań całych filmów wideo lub segmentów wideo. Te segmenty można połączyć w celu utworzenia kilku typów podsumowań, takich jak podsumowanie informacyjne, teaser lub inne podsumowanie w zależności od potrzeb.

Możliwość wyszukiwania: konwertując zawartość wideo na format gotowy do wyświetlania tekstu, można wykonywać szczegółowe wyszukiwania w języku naturalnym w zawartości wideo. Może to znacznie poprawić odnajdywanie w dużych bibliotekach wideo na podstawie określonych zapytań.

Tworzenie zawartości: możesz wysyłać zapytania do biblioteki wideo o określone momenty w klipach wideo skojarzonych z określonymi emocjami lub zdarzeniami. Na przykład możesz pobrać "zabawne" lub "smutne" chwile z serii wideo i użyć ich do utworzenia promo lub wyróżnienia. Podobnie możesz pobrać chwile związane z konkretnymi wydarzeniami zainteresowania, takimi jak "ostatnie trzęsienia ziemi w ciągu ostatniej dekady".

Cele edukacyjne: twórz podsumowania z filmów wykładowych, aby ułatwić uczniom przeglądanie i zrozumienie materiału. Uczniowie mogą również zadawać konkretne pytania związane z materiałem wykładowym. Możesz zapoznać się z dokładną częścią filmu wideo, w którym omówiono artykuł, co sprawia, że środowisko nauki jest bardziej wydajne.

Interaktywne środowiska: możesz tworzyć interaktywne środowiska, takie jak czatboty wideo lub asystentów wirtualnych, które mogą odpowiadać na zapytania użytkowników na podstawie zawartości filmu wideo.

Jak to działa

Aby dane wyjściowe są gotowe do wyświetlenia monitu, film wideo jest podzielony na spójne sekcje, które pasują zarówno do istoty filmu wideo, jak i rozmiaru monitu. Sekcje są podzielone na podstawie segmentacji sceny usługi Azure AI Video Indexer i innych szczegółowych informacji. Wyniki zawartości monitu są konsolidowane i generowane osobno dla poszczególnych segmentów. Na przykład:

Wyniki analiz

Poniższa tabela zawiera szczegółowe informacje używane do generowania monitów.

Szczegółowe informacje VI Tag i format
Tytuł wideo [Tytuł wideo] <tytuł wideo>
Wykrywanie obiektów [Wykryte obiekty] <obiekt 1>, <obiekt 2>, ...
Etykiety [Etykiety wizualne] <etykieta 1>, <etykieta 2>, ...
OCR [OCR] <ocr cluster1><ocr cluster2> ...
Transkrypcja i prelegenci [Transkrypcja] <nazwa> osoby mówiącej: <transkrypcja wierszy>\n<nazwa> osoby mówiącej: <wiersze> transkrypcji\n ...
Twarze [Znane osoby] <twarz 1>, <twarz 2>, ...
Efekty dźwiękowe (AED) [Efekty dźwiękowe] < efekt 1>, <efekt 2>, ...
Pozycja segmentu w filmie wideo [Tagi] [Początek, środkowy, koniec, środki stopniowe]

Tworzenie monituj o zawartość filmu wideo

Użyj interfejsu API monitowania zawartości w indeksowanym filmie wideo, aby uzyskać format Prompt-Ready dla każdego segmentu.

Uwaga

Szczegółowe informacje o zawartości monitu są poddawane określonym ustawieniom wstępnym używanym do indeksowania wideo.

Przykładowe żądanie

Użyj identyfikatora konta AVI i identyfikatora wideo.

POST https://api.videoindexer.ai/trial/Accounts/{accountId}/Videos/{videoId}/PromptContent

Przykładowa odpowiedź

index
{
  "algoVersion": "2.0.0",
  "schemaVersion": "0.0.1",
  "partition": null,
  "name": "10_best_dressed_grammy",
  "sections": [
    {
      "id": 0,
      "start": "0:00:00",
      "end": "0:00:40.915875",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] necktie\n[Visual labels] human face, clothing, person, woman, suit, wedding dress, dress, indoor, wall, carpet, rug, fashion, lady, long hair, fashion accessory, fashion design\n[OCR] TROPHy, LIFE, SPECIAL, EDITION, news FEED, BY

 CLEVVER, CLEVVER, @NazPerez, BEST DRESSED CELEBS AT 2018 GRAMMYS\n[Transcript] Check out the 10 best dressed celebs from the 2018 Grammy Awards and don't forget to subscribe to our channel to get all the latest celebrity updates.\nFrom white roses to white hot looks, this year's Grammy Awards was a feast of fashion thanks to so many celebs bringing their A game to the show.\nSo let's kick off this list of the best dress from the red carpet, starting with Lady Gaga.\nGaga looked like a gothic Princess in her dramatic all black ball gown.\nThe Armani Preve dress featured A Lacy bodysuit and billowing black skirt with a huge train.\nAga's black heeled boots were also some of the highest we've ever seen, like ever, but we wouldn't expect anything less from Mama Monster.\nAnother look we love from the carpet was Anna Kendrick's sexy suit by Belmont."
    },
    {
      "id": 1,
      "start": "0:00:40.915875",
      "end": "0:01:17.202125",
      "content": "[Video title] 10_best_dressed_grammy\n[Detected objects] remote\n[Visual labels] human face, clothing, person, dress, carpet, rug, fashion, lady, furniture, female person, fashion model, model, haute couture, smile\n[OCR] TROPHy, LIFE, news FEED, BEST DRESSED CELEBS AT 2018 GRAMMYS, D CELEBS AT 2018 GRAMMYS, BEST DRESSED\n[Transcript] Anna gave the structured look a sexy feminine touch by wearing a Lacy strapless top underneath and some pale pink stilettos.\nHer suit may have said business, but her relaxed WAVY hairstyle said I came to get down.\nNext on our list is the literally red hot Camila Cabello.\nCamila was all glitzing glam in her strapless Vivian Westwood gown.\nThat humped her curves perfectly.\nCamila opted to wear her hair up and accessorized with some serious bling, but it's that plunging neckline that has this unable to look away.\nAnother look we loved came courtesy of Miley Cyrus, who absolutely slayed in this black velvet bodysuit.\nMiley looked beyond chic, from her classic Hollywood hairstyle to her glitter heels."
    },
}

Sprawdzanie stanu zadania

Ukończenie zadania monitu trwa kilka minut. Jeśli chcesz sprawdzić stan zadania, możesz użyć żądania Pobierz stan zadania.

Używanie ramek kluczowych do wyświetlania monitu o wizualizację dużego modelu językowego

Żądanie Monituj zawartość obsługuje modele językowe, które mogą używać wizualnych danych wejściowych w monitach. Podczas wybierania modelu GPT-4V można uwzględnić ramki kluczowe w ramach monitu dostarczonego do modelu. Ramki zwrócone w odpowiedzi na zawartość monitu reprezentują ramki kluczowe z wideo. Ta funkcja jest zalecana w przypadku filmów wideo z ograniczoną liczbą lub brakiem transkrypcji w filmie wideo lub gdy chcesz udostępnić więcej kontekstu modelowi językowemu, aby poprawić jego wyniki.

Tworzenie i wysyłanie żądania zawartości monitu

Jak opisano powyżej, tekstowa zawartość monitu znajduje się w odpowiedzi JSON. Każdy ciąg w części "ramki" odpowiedzi JSON jest identyfikatorem ramki kluczy. Użyj polecenia Pobierz miniaturę wideo Miniatura Miniatura jest identyfikatorem FrameId z zawartości monitu. Po utworzeniu zawartości tekstowej i artefaktów ramki kluczy możesz połączyć je jako monity dotyczące wybranego modelu sztucznej inteligencji.

Ograniczenia

Funkcja monitu jest zoptymalizowana pod kątem filmów wideo zawierających jak najwięcej szczegółowych informacji.