Udostępnij za pośrednictwem


Uzyskiwanie szczegółowych informacji o wykrywaniu obiektów

Wykrywanie obiektów

Usługa Azure AI Video Indexer wykrywa obiekty w filmach, takich jak samochody, torebki i plecaki oraz laptopy.

Obsługiwane obiekty

  • samolot
  • jabłko
  • plecak
  • banan
  • rękawica baseballowa
  • łóżko
  • ławka
  • rower
  • łódź
  • książka
  • butelka
  • misa
  • brokuł
  • autobus
  • ciasto
  • samochód
  • marchewka
  • komórka
  • krzesło
  • zegar
  • mysz komputerowa
  • kanapa
  • filiżanka
  • Stół
  • Pączek
  • hydrant
  • rozwidlenie
  • frisbee
  • suszarka
  • torebka
  • hot dog
  • klawiatura
  • latawiec
  • nóż
  • laptop
  • kuchenka mikrofalowa
  • motocykl
  • mysz komputerowa
  • krawat
  • pomarańcza
  • piekarnik
  • parkometr
  • pizza
  • roślina garnkowa
  • kanapka
  • nożyczki
  • zlew
  • deskorolka
  • Narty
  • snowboard
  • łyżka
  • piłka sportowa
  • Znak stop
  • walizka
  • Surfboard
  • miś
  • rakieta tenisowa
  • toster
  • toaleta
  • szczoteczka do zębów
  • Sygnalizacja świetlna
  • pociąg
  • parasol
  • wazon
  • kieliszek do wina

Wyświetlanie kodu JSON szczegółowych informacji za pomocą portalu internetowego

Po przekazaniu i zaindeksowaniu klipu wideo szczegółowe informacje są dostępne w formacie JSON do pobrania przy użyciu portalu internetowego.

  1. Wybierz kartę Biblioteka .
  2. Wybierz multimedia, z którym chcesz pracować.
  3. Wybierz pozycję Pobierz i Szczegółowe informacje (JSON). Plik JSON zostanie otwarty na nowej karcie przeglądarki.
  4. Poszukaj pary kluczy opisanej w przykładowej odpowiedzi.

Używanie interfejsu API

  1. Użyj żądania Pobierz indeks wideo. Zalecamy przekazanie &includeSummarizedInsights=falseelementu .
  2. Poszukaj par kluczy opisanych w przykładowej odpowiedzi.

Przykładowa odpowiedź

Wykryte i śledzone obiekty są wyświetlane w obszarze "wykryte obiekty" w pobranym pliku insights.json . Za każdym razem, gdy jest wykrywany unikatowy obiekt, otrzymuje on identyfikator. Ten obiekt jest również śledzony, co oznacza, że model obserwuje wykryty obiekt, aby powrócić do ramki. Jeśli tak, inne wystąpienie zostanie dodane do wystąpień obiektu o różnych godzinach rozpoczęcia i zakończenia.

W tym przykładzie wykryto pierwszy samochód i otrzymał identyfikator 1, ponieważ był to również pierwszy wykryty obiekt. Następnie wykryto inny samochód i że samochód otrzymał identyfikator 23, ponieważ został wykryty 23 obiekt. Później pojawił się ponownie pierwszy samochód, a kolejne wystąpienie zostało dodane do formatu JSON. Oto wynikowy kod JSON:

detectedObjects: [
    {
    id: 1,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.468,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:02.44",
        start: "0:00:00",
        end: "0:00:02.44"
        },
        {
        confidence: 0.53,
        adjustedStart: "0:03:00",
        adjustedEnd: "0:00:03.55",
        start: "0:03:00",
        end: "0:00:03.55"
        }    
    ]
    },
    {
    id: 23,
    type: "Car",
    thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
    displayName: "car",
    wikiDataId: "Q1420",
    instances: [
        {
        confidence: 0.427,
        adjustedStart: "0:00:00",
        adjustedEnd: "0:00:14.24",
        start: "0:00:00",
        end: "0:00:14.24"
        }    
    ]
    }
]
Klawisz Definicja
ID Przyrostowa liczba identyfikatorów wykrytych obiektów w pliku multimedialnym
Typ Typ obiektów, na przykład Samochód
Identyfikator miniatury Identyfikator GUID reprezentujący pojedyncze wykrywanie obiektu
displayName Nazwa, która ma być wyświetlana w środowisku portalu VI
Identyfikator wikiDataID Unikatowy identyfikator w strukturze WikiData
Wystąpienia Lista wszystkich śledzonych wystąpień
Ufność Wynik z zakresu od 0 do 1 wskazujący pewność wykrywania obiektu
skorygowany start skorygowany czas rozpoczęcia filmu wideo podczas korzystania z edytora
skorygowaneend skorygowany czas zakończenia filmu wideo podczas korzystania z edytora
start czas wyświetlania obiektu w ramce
end czas, przez który obiekt nie jest już wyświetlany w ramce

Składniki

Do wykrywania obiektów nie zdefiniowano żadnych składników.

Uwagi dotyczące przezroczystości

Ważne

Ważne jest, aby zapoznać się z omówieniem noty przejrzystości dla wszystkich funkcji VI. Każda analiza zawiera również własne uwagi dotyczące przejrzystości:

  • Istnieje do 20 wykryć na ramkę dla standardowego i zaawansowanego przetwarzania oraz 35 ścieżek na klasę.
  • Rozmiar obiektu nie powinien być większy niż 90 procent ramki. Bardzo duże obiekty, które stale rozciągają się na dużą część ramki, mogą nie być rozpoznawane.
  • Małe lub rozmyte obiekty mogą być trudne do wykrycia. Mogą być one pominięte lub błędnie sklasyfikowane (kieliszek wina, filiżanka).
  • Obiekty, które są przejściowe i pojawiają się w bardzo niewielu ramkach, mogą nie zostać rozpoznane.
  • Inne czynniki, które mogą mieć wpływ na dokładność wykrywania obiektu, obejmują warunki niskiego oświetlenia, ruch kamery i okluzji.
  • Usługa Azure AI Video Indexer obsługuje tylko obiekty w świecie rzeczywistym. Nie ma obsługi animacji ani CGI. Wygenerowane przez komputer grafiki (takie jak naklejki informacyjne) mogą powodować dziwne wyniki.
  • Bindery, broszury i inne materiały pisane wydają się być wykrywane jako "książka".

Przykładowy kod

Zobacz wszystkie przykłady dla vi