Udostępnij za pośrednictwem


Omówienie modelu sztucznej inteligencji usługi Azure AI Video Indexer Bring Your Own (BYO)

Ten artykuł zawiera omówienie usługi Azure AI Video Indexer bring your own AI model( Bring Your Own AI model).

Wprowadzenie

Możesz połączyć szczegółowe informacje z innych źródeł, w tym modeli klasyfikacji i wykrywania innych firm, aby utworzyć szczegółową analizę danych multimedialnych. Możesz użyć co najmniej jednego modelu oferowanego przez firmę Microsoft, zewnętrznego modelu niestandardowego lub dostosowanego modelu osoby, marki, mowy lub języka oferowanego przez usługę Azure Video Indexer.

Ta funkcja jest również dostępna dla funkcji VI włączonej przez usługę Arc.

ZASTRZEŻENIE: Kodeks postępowania firmy Microsoft dla usługi Azure OpenAI ma zastosowanie do korzystania z funkcji Bring Your Own Model, która obejmuje prawo firmy Microsoft do zaprzestania dostępu i korzystania z tej funkcji w przypadku niezgodności.

Cennik

Dzięki modelowi BYO usługi Video Indexer użytkownicy mogą dodawać niestandardowe szczegółowe informacje do obiektów szczegółowych informacji wideo bez ponoszenia dodatkowych kosztów poza wymieniony koszt procesu indeksowania. Jednak wszelkie koszty związane ze środowiskiem zewnętrznym i modelem nie powinny być traktowane jako część ceny rozliczeniowej usługi Video Indexer. Zdecydowanie zalecamy przejrzenie naszej sekcji najlepszych rozwiązań, aby zoptymalizować logikę zewnętrzną i zmniejszyć koszty.

Ogólny przepływ pracy

  1. Wideo jest przekazywane i indeksowane za pomocą usługi Azure AI Video Indexer.
  2. Po zakończeniu procesu indeksowania zostanie utworzone zdarzenie.
  3. Kod niestandardowy nasłuchuje zdarzenia i uruchamia proces przetwarzania końcowego wideo.
    1. Uzyskaj szczegółowe informacje wyodrębnione przez usługę Video Indexer.
    2. Pobierz ramkę kluczową dla sekcji wideo.
    3. Wyślij ramkę kluczową do niestandardowego modelu sztucznej inteligencji.
    4. Poprawianie niestandardowych szczegółowych informacji z powrotem do usługi Video Indexer.

diagram przepływu pracy opisany powyżej

Wymagania wstępne

Aby rozpocząć korzystanie z funkcji modelu BYO w usłudze Azure AI Video Indexer, musisz:

  1. Trenowanie lub przenoszenie zewnętrznego modelu sztucznej inteligencji, który odbiera zasoby wideo i zwraca szczegółowe informacje.
  2. Utwórz kod niestandardowy, który:
    1. Nasłuchuje zdarzeń usługi Event Hubss.
    2. Wyodrębnia element video id ze zdarzeń.
    3. Pobiera odpowiednie zasoby, wywołując interfejsy API VI. W tym scenariuszu zażądaj pobierania indeksu wideo i uzyskiwania adresów URL sygnatur dostępu współdzielonego ramek.
    4. Wysyła zasoby do zewnętrznego modelu sztucznej inteligencji.
    5. Tworzy obiekt JSON na podstawie szczegółowych informacji pobranych z niestandardowego modelu sztucznej inteligencji.
    6. Żądania aktualizacji poprawki indeksu wideo.

Schemat

Wartości wypełniania danych niestandardowych są następujące:

Nazwa/nazwisko Opis Wymagane
name Nazwa modelu sztucznej inteligencji zewnętrznej prawda
displayName Nazwa grupy szczegółowych informacji, która ma być wyświetlana w usłudze Video Indexer prawda
displayType Definiuje typ reprezentacji interfejsu użytkownika dla tej konkretnej grupy szczegółowych informacji. Wartość domyślna: Kapsułki
Możliwe typy:
Kapsuła — tylko jeden poziom tekstu
CapsuleAndTags — w przyszłości zostanie dodany tekst tylko na dwóch poziomach .
fałsz
wyników Tablica obiektów reprezentujących szczegółowe informacje wykryte przez zewnętrzny model sztucznej inteligencji prawda
results.id Identyfikator podanego przez użytkownika obiektu wyniku powinien być unikatowy w zakresie wyników prawda
results.type To pole reprezentuje typ szczegółowych informacji, który został skategoryzowany przez zewnętrzny model sztucznej inteligencji. Służy do reprezentowania ogólnej kategorii szczegółowych informacji, co oznacza, że może istnieć wiele szczegółowych informacji tego typu zidentyfikowanych w określonej ramce. Przykłady typów szczegółowych informacji to: "koszykówka", "tłum klaskanie", "biała koszula". prawda
results.subType To pole reprezentuje typ szczegółowych informacji, który został skategoryzowany przez zewnętrzny model sztucznej inteligencji. Służy do reprezentowania określonej kategorii szczegółowych informacji, co oznacza, że w określonej ramce może istnieć tylko jeden wgląd w ten typ. Przykłady typów szczegółowych informacji to: "koszykówka #23", "John clapping", "Biała koszula Dana". fałsz
results.metaData Więcej danych na temat szczegółowych informacji fałsz
results.instances Tablica reprezentująca okna czasowe wykryto szczegółowe informacje. prawda
results.instances.confidence Ustaw z wynikiem ufności zwróconym z modelu zewnętrznego fałsz
results.instances.start Godzina rozpoczęcia wystąpienia w filmie wideo. Format: hh.mm.ss.ff fałsz
results.instances.end Godzina zakończenia wystąpienia w filmie wideo. Format: hh.mm.ss.ff fałsz
results.instances.adjustedStart Używany podczas wyświetlania w interfejsie użytkownika, ustawiany z wartością startu fałsz
results.instances.adjustedEnd Używany podczas wyświetlania w interfejsie użytkownika, ustawiany z wartością z End fałsz

Framerate

Usługa Azure AI Video Indexer obsługuje jedną liczbę klatek na sekundę dla poziomu wideo w warstwie Podstawowa/Standardowa i cztery jednostki FPS na poziomie zaawansowanym. Wyższa szybkość klatek nie jest obsługiwana. Indeksowanie można zoptymalizować, wykonując następujące czynności:

  • Przetwarzanie tylko określonych segmentów, które są interesujące, takich jak ramki, które zawierają wykryty dźwięk, obiekt lub osobę lub
  • próbka niższej liczby klatek na sekundę, na przykład co 5 sekund.

Wybór ramki

Do wyboru czasu można użyć parametrów pomijania ramek i rozmiaru strony. Formuła to wartość pominięcia ramek pomnożona przez liczbę klatek na sekundę oraz wartość rozmiaru strony pomnożona przez liczbę klatek na sekundę w celu określenia zakresu czasu.

Adres URL: https://api.videoindexer.ai/{location}/Accounts/{accountId}/Videos/{videoId}/FramesFilePaths[?urlsLifetimeSeconds][&pageSize][&skip][&accessToken]

Parametry:

Nazwa/nazwisko Opis Wymagane
videoId Identyfikator wideo prawda
urlsLifetimeSeconds okres istnienia adresów URL w sekundach prawda
Pagesize Maksymalna liczba ramek zwracanych przez każde wywołanie fałsz
pominąć Ramki do pominięcia fałsz
accessToken Należy podać jako parametr w ciągu zapytania adresu URL lub w nagłówku autoryzacji jako token elementu nośnego. Zakres tokenu dostępu powinien mieć wartość Konto, a uprawnienie powinno mieć wartość Czytelnik. prawda

Odpowiedź: FrameFilePathsResult

Nazwa/nazwisko Opis Wymagane
wyników Lista parametrów FrameUriData Fałsz
NextPage Dane stronicowania (pomiń, pageSize, isDone) Fałsz

FrameFilePathData

Nazwa/nazwisko Opis
name Nazwa pliku ramki
frameIndex Indeks ramki
Godzina rozpoczęcia Godzina rozpoczęcia ramki w filmie wideo
Godzina zakończenia Godzina zakończenia ramki w filmie wideo
filePath Identyfikator URI sygnatury dostępu współdzielonego ramki w środowisku chmury lub ścieżce pliku w środowiskach brzegowych

Przykładowe dane wysyłane z aplikacji niestandardowej w formacie schematu

"customInsights": [
    {
        "Name": "tattoo",  
        "displayName": "Tattoo’s model",
        "displayType": "CapsuleAndTag",
        "Results": [   
            {   
                "id": 1,   
                "Type": "Dragon",   
                "WikiDataId": "57F",   
                "SubType": "Leg tattoo",   
                "Metadata": "",   
                "Instances": [
                    {
                        "Confidence": 0.49,
                        "AdjustedStart": "0:00:32.72", 
                        "AdjustedEnd": "0:00:42.72",
                        "start": "0:00:32.72",
                        "end": "0:00:42.72",
                    }
                ]
            }
        ]
    }... 

Przykłady modelu Bring Your Own

Przykłady byO

Korzystanie z interfejsu API usługi Azure AI Video Indexer