Erwägen von Optionen zum Bezeichnen von Bildern
Die einfachste Option zum Bezeichnen von Bildern für die Objekterkennung ist die Verwendung der interaktiven Benutzeroberfläche im Azure KI Custom Vision-Portal. Auf dieser Oberfläche werden automatisch Bereiche vorgeschlagen, die Objekte enthalten, denen Sie Tags zuweisen können. Sie können diese Bereiche auch anpassen, indem Sie den Begrenzungsrahmen so ziehen, dass er das zu bezeichnende Objekt umschließt.
Nachdem Sie einen anfänglichen Batch von Bildern mit Tags versehen haben, können Sie das Modell trainieren. Beim weiteren Erstellen von Bezeichnungen für neue Bilder kann das Tool für die intelligente Bezeichnungserstellung im Portal genutzt werden, das nicht nur die Bereiche, sondern auch die darin enthaltenen Objektklassen vorschlagen kann.
Alternativ können Sie ein Bezeichnungstool wie das in Azure Machine Learning Studio bereitgestellte Tool oder das Microsoft Visual Object Tagging Tool (VOTT) verwenden, um weitere Features zu nutzen, z. B. das Zuweisen von Bildbezeichnungsaufgaben an mehrere Teammitgliedern.
Maßeinheiten für den Begrenzungsrahmen
Wenn Sie ein anderes Bezeichnungstool als das Azure KI Custom Vision-Portal verwenden möchten, müssen Sie die Ausgabe möglicherweise an die von der Azure KI Custom Vision-API erwarteten Messeinheiten anpassen. Begrenzungsrahmen werden durch vier Werte definiert, die die Koordinaten für links (X) und oben (Y) der oberen linken Ecke des Begrenzungsrahmens sowie die Breite und Höhe des Begrenzungsrahmens angeben. Diese Werte werden als proportionale Werte in Bezug auf die Größe des Quellbilds ausgedrückt. Sehen Sie sich beispielsweise die folgenden Werte für einen Begrenzungsrahmen an:
- Links: 0,1
- Oben: 0,5
- Breite: 0,5
- Höhe: 0,25
Dadurch wird ein Rahmen definiert, bei dem sich der linke Rand um 0,1 (ein Zehntel) vom linken Rand des Bilds und der obere Rand um 0,5 (die Hälfte der Bildhöhe) vom oberen Rand entfernt befindet. Der Rahmen weist die Hälfte der Breite und ein Viertel der Höhe des Gesamtbilds auf.
Die folgende Abbildung zeigt Bezeichnungsinformationen im JSON-Format für Objekte in einem Bild.