Uzyskiwanie szczegółowych informacji o wykrywaniu obiektów
Wykrywanie obiektów
Usługa Azure AI Video Indexer wykrywa obiekty w filmach, takich jak samochody, torebki i plecaki oraz laptopy.
Obsługiwane obiekty
- samolot
- jabłko
- plecak
- banan
- rękawica baseballowa
- łóżko
- ławka
- rower
- łódź
- książka
- butelka
- misa
- brokuł
- autobus
- ciasto
- samochód
- marchewka
- komórka
- krzesło
- zegar
- mysz komputerowa
- kanapa
- filiżanka
- Stół
- Pączek
- hydrant
- rozwidlenie
- frisbee
- suszarka
- torebka
- hot dog
- klawiatura
- latawiec
- nóż
- laptop
- kuchenka mikrofalowa
- motocykl
- mysz komputerowa
- krawat
- pomarańcza
- piekarnik
- parkometr
- pizza
- roślina garnkowa
- kanapka
- nożyczki
- zlew
- deskorolka
- Narty
- snowboard
- łyżka
- piłka sportowa
- Znak stop
- walizka
- Surfboard
- miś
- rakieta tenisowa
- toster
- toaleta
- szczoteczka do zębów
- Sygnalizacja świetlna
- pociąg
- parasol
- wazon
- kieliszek do wina
Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego
Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.
- Wybierz kartę Biblioteka .
- Wybierz multimedia, z którym chcesz pracować.
- Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
- Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.
Używanie interfejsu API
- Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie
&includeSummarizedInsights=false
elementu . - Poszukaj par kluczy opisanych w przykładowej odpowiedzi.
Przykładowa odpowiedź
Wykryte i śledzone obiekty są wyświetlane w obszarze "wykryte obiekty" w pobranym pliku insights.json . Za każdym razem, gdy jest wykrywany unikatowy obiekt, otrzymuje on identyfikator. Ten obiekt jest również śledzony, co oznacza, że model obserwuje wykryty obiekt, aby powrócić do ramki. Jeśli tak, inne wystąpienie zostanie dodane do wystąpień obiektu o różnych godzinach rozpoczęcia i zakończenia.
W tym przykładzie wykryto pierwszy samochód i otrzymał identyfikator 1, ponieważ był to również pierwszy wykryty obiekt. Następnie wykryto inny samochód i że samochód otrzymał identyfikator 23, ponieważ został wykryty 23 obiekt. Później pojawił się ponownie pierwszy samochód, a kolejne wystąpienie zostało dodane do formatu JSON. Oto wynikowy kod JSON:
detectedObjects: [
{
id: 1,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.468,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:02.44",
start: "0:00:00",
end: "0:00:02.44"
},
{
confidence: 0.53,
adjustedStart: "0:03:00",
adjustedEnd: "0:00:03.55",
start: "0:03:00",
end: "0:00:03.55"
}
]
},
{
id: 23,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.427,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:14.24",
start: "0:00:00",
end: "0:00:14.24"
}
]
}
]
Klawisz | Definicja |
---|---|
ID | Przyrostowa liczba identyfikatorów wykrytych obiektów w pliku multimedialnym |
Typ | Typ obiektów, na przykład Samochód |
Identyfikator miniatury | Identyfikator GUID reprezentujący pojedyncze wykrywanie obiektu |
displayName | Nazwa, która ma być wyświetlana w środowisku portalu VI |
Identyfikator wikiDataID | Unikatowy identyfikator w strukturze WikiData |
Wystąpienia | Lista wszystkich śledzonych wystąpień |
Ufność | Wynik z zakresu od 0 do 1 wskazujący pewność wykrywania obiektu |
skorygowany start | skorygowany czas rozpoczęcia filmu wideo podczas korzystania z edytora |
skorygowaneend | skorygowany czas zakończenia filmu wideo podczas korzystania z edytora |
start | czas wyświetlania obiektu w ramce |
end | czas, przez który obiekt nie jest już wyświetlany w ramce |
Składniki
Do wykrywania obiektów nie zdefiniowano żadnych składników.
Uwagi dotyczące przezroczystości
Ważne
Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:
- Istnieje do 20 wykryć na ramkę dla standardowego i zaawansowanego przetwarzania oraz 35 ścieżek na klasę.
- Rozmiar obiektu nie powinien być większy niż 90 procent ramki. Bardzo duże obiekty, które stale rozciągają się na dużą część ramki, mogą nie być rozpoznawane.
- Małe lub rozmyte obiekty mogą być trudne do wykrycia. Mogą być one pominięte lub błędnie sklasyfikowane (kieliszek wina, filiżanka).
- Obiekty, które są przejściowe i pojawiają się w bardzo niewielu ramkach, mogą nie zostać rozpoznane.
- Inne czynniki, które mogą mieć wpływ na dokładność wykrywania obiektu, obejmują warunki niskiego oświetlenia, ruch kamery i okluzji.
- Usługa Azure AI Video Indexer obsługuje tylko obiekty w świecie rzeczywistym. Nie ma obsługi animacji ani CGI. Wygenerowane przez komputer grafiki (takie jak naklejki informacyjne) mogą powodować dziwne wyniki.
- Bindery, broszury i inne materiały pisane wydają się być wykrywane jako "książka".