Omówienie sceny, strzałów, wykrywania klatek kluczowych
Scena, strzał, wykrywanie klatek kluczowych
Wykrywanie sceny wykrywa, kiedy scena zmienia się w filmie wideo na podstawie podpowiedzi wizualnych.
Scena przedstawia pojedyncze zdarzenie i składa się z serii zdjęć, które są powiązane.
Zdjęcia to seria ramek wyróżniających się sygnałami wizualnymi, takimi jak nagłe i stopniowe przejścia w schemacie kolorów sąsiednich ramek. Metadane strzału obejmują czas rozpoczęcia i zakończenia, a także listę klatek kluczowych uwzględnionych w zdjęciu.
Klatka kluczowa to ramka z strzału, która najlepiej reprezentuje strzał.
Przypadki użycia sceny, zrzutu i ramki kluczy
- Łatwe przeglądanie i edytowanie zawartości wideo oraz zarządzanie nią w oparciu o różne szczegółowości.
- Użyj wykrywania typów zdjęć redakcyjnych do edytowania filmów wideo w klipach, zwiastunach lub podczas wyszukiwania określonego stylu ramki kluczowej.
Wykrywanie scen
Usługa Azure AI Video Indexer określa, kiedy scena zmienia się w wideo na podstawie podpowiedzi wizualnych. Scena przedstawia jedno zdarzenie i składa się z serii kolejnych zdjęć, które są semantycznie powiązane.
Miniatura sceny to pierwsza ramka kluczowa jego bazowego strzału.
Usługa Azure AI Video Indexer dzieli wideo na sceny w oparciu o spójność kolorów między kolejnymi zrzutami i pobiera początek i godzinę zakończenia każdej sceny.
Filmy wideo muszą zawierać co najmniej trzy sceny.
Wykrywanie strzałów
Usługa Azure AI Video Indexer określa, kiedy film zmienia się na podstawie podpowiedzi wizualnych, wykrywając nagłe i stopniowe przejścia w schemacie kolorów i inną wizualną cechę sąsiednich ramek. Metadane strzału obejmują godzinę rozpoczęcia i zakończenia, a także listę klatek kluczowych uwzględnionych w tym zdjęciu. Zdjęcia są kolejnymi klatkami pobranymi z tego samego aparatu w tym samym czasie.
Uwaga
Może istnieć różnica między zrzutami, które obejmują ramki, które są częścią przejścia. Te klatki nie są uważane za część strzału.
Wykrywanie typu zdjęć redakcyjnych klatek kluczowych
Typ strzału jest określany na podstawie analizy pierwszej klatki kluczowej każdego strzału. Zdjęcia są identyfikowane przez skalę, rozmiar i lokalizację twarzy wyświetlanych w pierwszej klatce kluczowej.
Rozmiar i skala zdjęć są określane na podstawie odległości między kamerą a twarzami wyświetlanymi w ramce. Korzystając z tych właściwości, usługa Azure AI Video Indexer wykrywa następujące typy zdjęć:
- Szeroki: pokazuje ciało całej osoby.
- Średni: pokazuje górną część ciała i twarz osoby.
- Zbliżenie: głównie pokazuje twarz osoby.
- Skrajne zbliżenie: pokazuje twarz osoby wypełniającej ekran.
Typy strzałów można również określić według lokalizacji znaków tematu w odniesieniu do środka ramki. Ta właściwość definiuje następujące typy zdjęć w usłudze Azure AI Video Indexer:
- Lewa twarz: osoba pojawia się po lewej stronie ramki.
- Środkowa twarz: osoba pojawia się w centralnym regionie ramki.
- Prawa twarz: osoba pojawia się po prawej stronie ramy.
- Na świeżym powietrzu: osoba pojawia się na świeżym powietrzu.
- Wewnątrz: osoba pojawia się w pomieszczeniu.
Dodatkowe cechy:
- Dwa zdjęcia: pokazuje twarze dwóch osób o średnim rozmiarze.
- Wiele twarzy: więcej niż dwie osoby.
Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego
Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.
- Wybierz kartę Biblioteka .
- Wybierz multimedia, z którym chcesz pracować.
- Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
- Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.
Używanie interfejsu API
- Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie
&includeSummarizedInsights=false
elementu . - Poszukaj par kluczy opisanych w przykładowej odpowiedzi.
Przykładowa odpowiedź
"scenes": [
{
"id": 1,
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:09.1333333",
"start": "0:00:00",
"end": "0:00:09.1333333"
}
]
},
{
"id": 2,
"instances": [
{
"adjustedStart": "0:00:09.1333333",
"adjustedEnd": "0:00:10.8",
"start": "0:00:09.1333333",
"end": "0:00:10.8"
}
]
},
{
"id": 3,
"instances": [
{
"adjustedStart": "0:00:10.8",
"adjustedEnd": "0:00:26.9333333",
"start": "0:00:10.8",
"end": "0:00:26.9333333"
}
]
}...
{
"id": 31,
"instances": [
{
"adjustedStart": "0:18:45",
"adjustedEnd": "0:18:50.2",
"start": "0:18:45",
"end": "0:18:50.2"
}
]
}
],
"shots": [
{
"id": 1,
"tags": [
"Wide",
"Medium"
],
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "60152925-0e6d-48cf-be33-aa6c00dfb334",
"adjustedStart": "0:00:00.1666667",
"adjustedEnd": "0:00:00.2",
"start": "0:00:00.1666667",
"end": "0:00:00.2"
}
]
},
{
"id": 2,
"instances": [
{
"thumbnailId": "f1a09cdf-b42b-45f5-bc69-5292d1216e50",
"adjustedStart": "0:00:00.2333333",
"adjustedEnd": "0:00:00.2666667",
"start": "0:00:00.2333333",
"end": "0:00:00.2666667"
}
]
}
],
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:01.9333333",
"start": "0:00:00",
"end": "0:00:01.9333333"
}
]
},
{
"id": 2,
"tags": [
"Medium"
],
"keyFrames": [
{
"id": 3,
"instances": [
{
"thumbnailId": "b17774d0-41cf-4174-9c41-6bc2f17c86e2",
"adjustedStart": "0:00:02",
"adjustedEnd": "0:00:02.0333333",
"start": "0:00:02",
"end": "0:00:02.0333333"
}
]
}
],
"instances": [
{
"adjustedStart": "0:00:01.9333333",
"adjustedEnd": "0:00:02.9666667",
"start": "0:00:01.9333333",
"end": "0:00:02.9666667"
}
]
}...
Pobieranie ramek kluczowych za pomocą interfejsu API
Aby pobrać każdą ramkę kluczową, użyj identyfikatorów ramki kluczy z żądaniem Pobierz miniatury .
Ostrzeżenie
Nie zalecamy używania danych bezpośrednio z folderu artifacts w celach produkcyjnych. Artefakty to pośrednie dane wyjściowe procesu indeksowania. Są to zasadniczo nieprzetworzone dane wyjściowe różnych aparatów sztucznej inteligencji, które analizują filmy wideo; schemat artefaktów może ulec zmianie w czasie.
Ważne
Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:
Uwagi dotyczące wykrywania sceny, strzałów i klatek kluczowych
- Detektor działa najlepiej na plikach multimedialnych, które mają w nich zdjęcia i sceny.
- Jeśli film wideo jest nakręcony jednym aparatem, który nigdy się nie porusza, segmentacja zdjęć działa słabo, a klatki kluczowe mogą nie być reprezentatywne.
- Ramki kluczowe są wybierane, biorąc pod uwagę poziom rozmycia ramek. Jeśli większość zdjęć jest rozmyta, na przykład z ruchem, ramka kluczowa może być również rozmyta.
- Filmy wideo o niskiej jakości wizualnej generują słabe wyniki.
- Czas każdego zrzutu/sceny/ramki kluczy może się zmienić (mniej niż sekundę).
Składniki sceny, strzałów i klatek kluczowych
Nie zdefiniowano żadnych składników.