Bilder sammeln
Um ein Objekterkennungsmodell für die Erkennung Ihrer Objekte zu trainieren, müssen Sie Bilder erfassen, die diese Objekte enthalten. Halten Sie sich an die Leitlinien für Bildmenge und -qualität, um bessere Ergebnisse zu erzielen.
Format und Größe
Die Bilder, die Sie Ihrem Objekterkennungsmodell zuführen, benötigen diese Eigenschaften:
Format:
- JPG
- PNG
- BMP
Größe:
- Maximal 6 MB für das Training
- Mindestbreite/-höhe von 256 Pixel x 256 Pixel
Datenmenge und -balance
Wichtig ist, dass Sie genügend Bilder hochladen, um Ihr KI-Modell zu trainieren. Als Ausgangspunkt empfehlen sich mindestens 15 Bilder pro Objekt für den Trainingssatz. Bei weniger Bildern besteht die große Gefahr, dass Ihr Modell Konzepte lernt, die bloß Rauschen oder irrelevant sind. Das Training Ihres Modells mit mehr Bildern erhöht die Genauigkeit.
Darüber hinaus sollten Sie sicherstellen, dass Ihre Daten ausgewogen sind. Wenn Sie 500 Bilder für ein Objekt und nur 50 Bilder für ein anderes haben, ist Ihr Trainingsdataset nicht ausgewogen. Dies kann dazu führen, dass das Modell eines der Objekte besser erkennen kann. Um einheitlichere Ergebnisse zu erzielen, sollte das Verhältnis zwischen dem Objekt mit den wenigsten Bildern und dem Objekt mit den meisten Bildern mindestens 1:2 betragen. Wenn beispielsweise das Objekt mit der größten Anzahl von Bildern 500 Bilder hat, muss das Objekt mit den wenigsten Bildern mindestens 250 Bilder für das Training haben.
Verwenden Sie vielfältigere Bilder
Stellen Sie Bilder zur Verfügung, die repräsentativ für das sind, was dem Modell bei normalem Gebrauch vorgelegt wird. Angenommen, Sie trainieren ein Modell zur Erkennung von Äpfeln. Wenn Sie nur Bilder von Äpfeln auf Tellern trainieren, kann es sein, dass Äpfel in Bäumen nicht konsistent erkannt werden. Das Einbeziehen verschiedener Arten von Bildern stellt sicher, dass Ihr Modell nicht voreingenommen ist und sich gut verallgemeinern lässt. Nachfolgend finden Sie einige Möglichkeiten, wie Sie Ihren Trainingssatz vielfältiger gestalten können.
Hintergrund
Verwenden Sie Bilder Ihrer Objekte vor verschiedenen Hintergründen, zum Beispiel Obst auf Tellern, in Händen und auf Bäumen. Fotos im Kontext sind besser als Fotos vor neutralen Hintergründen, da sie dem Klassifizierer mehr Informationen liefern.
Beleuchtung
Verwenden Sie Trainingsbilder mit unterschiedlicher Beleuchtung, insbesondere dann, wenn die Bilder, die für die Erkennung verwendet werden, eine unterschiedliche Beleuchtung aufweisen können. Fügen Sie beispielsweise Bilder hinzu, die mit Blitz, hoher Belichtung usw. aufgenommen wurden. Es ist ebenfalls hilfreich, Bilder mit unterschiedlicher Sättigung, Farbton und Helligkeit aufzunehmen. Die Gerätekamera ermöglicht Ihnen wahrscheinlich das Festlegen dieser Einstellungen.
Objektgröße
Verwenden Sie Bilder, in denen die Objekte unterschiedlich groß sind, und erfassen Sie verschiedene Teile des Objekts, zum Beispiel ein Foto von Bananensträußen und eine Nahaufnahme einer einzelnen Banane. Verschiedene Größen helfen dem Modell, besser zu verallgemeinern.
Kamerawinkel
Stellen Sie Bilder bereit, die aus verschiedenen Winkeln aufgenommen wurden. Wenn alle Ihre Fotos von einer Gruppe fester Kameras, wie z. B. Überwachungskameras, stammen, weisen Sie jeder Kamera eine andere Beschriftung zu. Dies kann helfen, die Modellierung von nicht zugehörigen Objekten wie z. B. Laternenpfählen als Hauptmerkmal zu vermeiden. Weisen Sie Kameras Beschriftungen zu, auch wenn die Kameras die gleichen Objekte aufzeichnen.
Unerwartete Ergebnisse
KI-Modelle können fälschlicherweise Merkmale lernen, die Ihre Bilder als Gemeinsamkeiten aufweisen. Angenommen, Sie möchten ein Modell erstellen, das Äpfel von Zitrusfrüchten unterscheidet. Wenn Sie Bilder von Äpfeln in Händen und von Zitrusfrüchten auf weißen Tellern verwenden, könnte das Modell zur Unterscheidung zwischen Händen und weißen Tellern statt zwischen Äpfeln und Zitrusfrüchten trainiert werden.
Um dies zu korrigieren, verwenden Sie die oben genannten Hinweise zum Training mit unterschiedlichen Bildern: Stellen Sie Bilder mit unterschiedlichen Winkeln, Hintergründen, Objektgrößen, Gruppen und anderen Varianten zur Verfügung.