Abrufen von Einblicken zur Objekterkennung
Objekterkennung
Azure AI Video Indexer erkennt Objekte in Videos wie Autos, Handtaschen und Rucksäcken und Laptops.
Unterstützte Objekte
- airplane
- apple
- backpack
- Banane
- Baseballhandschuh
- Bett
- bench
- bicycle
- boat
- book (Buch)
- Flasche
- bowl
- Brokkoli
- Bus
- Kuchen
- Auto
- Karotte
- cell phone
- Stuhl
- clock
- Computermaus
- Couch
- Tasse
- Esstisch
- Ring
- fire hydrant
- Fork
- Frisbee
- Föhn
- Handtasche
- Hot Dog
- Tastatur
- Drachen
- knife
- laptop
- Mikrowelle
- Motorrad
- Computermaus
- Krawatte
- orange
- oven
- parking meter
- pizza
- Topfpflanze
- sandwich
- scissors
- sink
- skateboard
- Ski
- Snowboard
- Löffel
- Sportball
- stop sign
- Koffer
- Surfbrett
- Teddybär
- Tennisschläger
- toaster
- Toilette
- Zahnbürste
- Ampel
- Training
- Regenschirm
- Vase
- Weinglas
Anzeigen des Einblicks-JSON mit dem Webportal
Nachdem Sie ein Video hochgeladen und indiziert haben, stehen Einblicke im JSON-Format zum Download über das Webportal zur Verfügung.
- Wählen Sie die Registerkarte "Bibliothek" aus.
- Wählen Sie Medien aus, mit dem Sie arbeiten möchten.
- Wählen Sie "Herunterladen " und " Insights (JSON)" aus. Die JSON-Datei wird auf einer neuen Browserregisterkarte geöffnet.
- Suchen Sie nach dem in der Beispielantwort beschriebenen Schlüsselpaar.
Verwenden der API
- Verwenden Sie die Anforderung "Videoindex abrufen". Es wird empfohlen, die Übergabe zu übergeben
&includeSummarizedInsights=false
. - Suchen Sie nach den in der Beispielantwort beschriebenen Schlüsselpaaren.
Beispielantwort
Erkannte und nachverfolgte Objekte werden unter "erkannte Objekte" in der heruntergeladenen insights.json Datei angezeigt. Jedes Mal, wenn ein eindeutiges Objekt erkannt wird, erhält es eine ID. Dieses Objekt wird auch nachverfolgt, was bedeutet, dass das Modell auf das erkannte Objekt überwacht, um zum Frame zurückzukehren. Wenn dies der Fall ist, wird eine andere Instanz den Instanzen für das Objekt mit unterschiedlichen Anfangs- und Endzeiten hinzugefügt.
In diesem Beispiel wurde das erste Auto erkannt und erhielt eine ID von 1, da es auch das erste Objekt erkannt wurde. Dann wurde ein anderes Auto erkannt und das Auto wurde die ID von 23 erhalten, da es das 23. Objekt erkannt wurde. Später erschien das erste Auto wieder und eine andere Instanz wurde dem JSON hinzugefügt. Hier sehen Sie den resultierenden JSON-Code:
detectedObjects: [
{
id: 1,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t33",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.468,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:02.44",
start: "0:00:00",
end: "0:00:02.44"
},
{
confidence: 0.53,
adjustedStart: "0:03:00",
adjustedEnd: "0:00:03.55",
start: "0:03:00",
end: "0:00:03.55"
}
]
},
{
id: 23,
type: "Car",
thumbnailId: "1c0b9fbb-6e05-42e3-96c1-abe2cd48t34",
displayName: "car",
wikiDataId: "Q1420",
instances: [
{
confidence: 0.427,
adjustedStart: "0:00:00",
adjustedEnd: "0:00:14.24",
start: "0:00:00",
end: "0:00:14.24"
}
]
}
]
Schlüssel | Definition |
---|---|
Kennung | Inkrementelle Anzahl der IDs der erkannten Objekte in der Mediendatei |
type | Typ von Objekten, z. B. Car |
ThumbnailID | GUID, die eine einzelne Erkennung des Objekts darstellt |
displayName | Name, der in der VI-Portaloberfläche angezeigt werden soll |
WikiDataID | Ein eindeutiger Bezeichner in der WikiData-Struktur |
Instanzen | Liste aller Instanzen, die nachverfolgt wurden |
Zuverlässigkeit | Eine Bewertung zwischen 0 und 1, die die Vertrauenswürdigkeit der Objekterkennung angibt |
adjustedStart | angepasste Startzeit des Videos bei Verwendung des Editors |
adjustedEnd | angepasste Endzeit des Videos bei Verwendung des Editors |
start | die Uhrzeit, zu der das Objekt im Frame angezeigt wird |
end | die Zeit, zu der das Objekt nicht mehr im Frame angezeigt wird |
Komponenten
Für die Objekterkennung sind keine Komponenten definiert.
Transparenzhinweise
Wichtig
Es ist wichtig, die Übersicht über die Transparenzhinweise für alle VI-Features zu lesen. Jeder Einblick hat auch eigene Transparenzhinweise:
- Es gibt bis zu 20 Erkennungen pro Frame für Standard- und erweiterte Verarbeitung und 35 Spuren pro Klasse.
- Die Objektgröße sollte nicht größer als 90 Prozent des Frames sein. Sehr große Objekte, die sich konsistent über einen großen Teil des Frames erstrecken, werden möglicherweise nicht erkannt.
- Kleine oder verschwommene Objekte können schwer zu erkennen sein. Sie können entweder verpasst oder falsch klassifiziert werden (Weinglas, Tasse).
- Objekte, die vorübergehend sind und in sehr wenigen Frames angezeigt werden, werden möglicherweise nicht erkannt.
- Andere Faktoren, die sich auf die Genauigkeit der Objekterkennung auswirken können, sind niedrige Lichtverhältnisse, Kamerabewegungen und Okklusionen.
- Azure AI Video Indexer unterstützt nur reale Objekte. Es gibt keine Unterstützung für Animationen oder CGI. Computer generierte Grafiken (z. B. News-Aufkleber) können seltsame Ergebnisse erzeugen.
- Binder, Broschüren und andere schriftliche Materialien werden meist als "Buch" erkannt.