Objekterkennung

Artikel
11/04/2024

In diesem Artikel wird das Konzept der Objekterkennung erläutert. Die Objekterkennung ist vergleichbar mit dem Tagging (mit einem Etikett versehen), die API gibt aber die Koordinaten des umgebenden Felds (in Pixel) für jedes im Image gefundene Objekt zurück. Wenn ein Bild beispielsweise einen Hund, eine Katze und eine Person enthält, wird der Vorgang zur Objekterkennung diese Objekte zusammen mit ihren Koordinaten im Bild auflisten. Sie können diese Funktion verwenden, um die Beziehungen zwischen den Objekten in einem Bild zu verarbeiten. Außerdem können Sie ermitteln, ob mehrere Instanzen des gleichen Objekts in einem Image enthalten sind.

Die Funktion zur Objekterkennung wendet Tags auf der Grundlage der Objekte oder Lebewesen an, die im Bild identifiziert wurden. An diesem Punkt gibt es keine formale Beziehung zwischen der Taggingtaxonomie und der Objekterkennungstaxonomie. Auf konzeptioneller Ebene betrachtet, findet die Objekterkennungsfunktion nur Objekte und Lebewesen, während die Tagfunktion darüber hinaus kontextbezogene Begriffe wie Innenraum beinhalten kann, die nicht mithilfe von Begrenzungsrahmen gefunden werden können.

Testen Sie mithilfe von Azure KI Vision Studio die Features zur Objekterkennung ganz schnell und einfach in Ihrem Browser.

Vision Studio testen

Beispiel für die Objekterkennung

Die folgende JSON-Antwort veranschaulicht, was von der Bildanalyse-API zurückgegeben wird, wenn sie Objekte im Beispielbild erkennt.

Foto, das eine Frau mit einem Microsoft Surface-Gerät in einer Küche zeigt.

{
   "objects":[
      {
         "rectangle":{
            "x":730,
            "y":66,
            "w":135,
            "h":85
         },
         "object":"kitchen appliance",
         "confidence":0.501
      },
      {
         "rectangle":{
            "x":523,
            "y":377,
            "w":185,
            "h":46
         },
         "object":"computer keyboard",
         "confidence":0.51
      },
      {
         "rectangle":{
            "x":471,
            "y":218,
            "w":289,
            "h":226
         },
         "object":"Laptop",
         "confidence":0.85,
         "parent":{
            "object":"computer",
            "confidence":0.851
         }
      },
      {
         "rectangle":{
            "x":654,
            "y":0,
            "w":584,
            "h":473
         },
         "object":"person",
         "confidence":0.855
      }
   ],
   "requestId":"25018882-a494-4e64-8196-f627a35c1135",
   "metadata":{
      "height":473,
      "width":1260,
      "format":"Jpeg"
   },
   "modelVersion":"2021-05-01"
}

Begrenzungen

Es ist wichtig, die Einschränkungen bei der Objekterkennung zu beachten, damit Sie die Auswirkungen von falsch negativen Ergebnissen (ausgelassene Objekten) und begrenzten Details vermeiden oder minimieren können.

Objekte werden in der Regel nicht erkannt, wenn sie klein (weniger als 5 % des Bilds) sind.
Objekte werden in der Regel nicht erkannt, wenn sie eng beieinander liegen (z. B. ein Stapel Teller).
Objekte werden nicht nach Marken- oder Produktnamen unterschieden (z. B. verschiedene Arten von Mineralwasser in einem Verkaufsregal). Mithilfe der Funktion Markenerkennung können Sie jedoch Markeninformationen aus einem Bild auslesen.

Verwenden der API

Die Funktion zur Erkennung von Objekten ist Teil der Bildanalyse-API. Sie können diese API über ein natives SDK oder REST-Aufrufe aufrufen. Beziehen Sie Objects in den Abfrageparameter visualFeatures ein. Nachdem Sie die vollständige JSON-Antwort erhalten haben, analysieren Sie die Zeichenfolge auf die Inhalte im Abschnitt Objekte.

Schnellstart: die Bildanalyse

Freigeben über

Objekterkennung

Beispiel für die Objekterkennung

Begrenzungen

Verwenden der API

Feedback

Zusätzliche Ressourcen