Bearbeiten

Freigeben über


Imageklassifizierung in Azure

Azure Blob Storage
Maschinelles Sehen in Azure
Azure Cosmos DB
Azure Event Grid
Azure-Funktionen

Lösungsideen

In diesem Artikel wird eine Lösungsidee beschrieben. Ihr Cloudarchitekt kann diese Anleitung verwenden, um die Hauptkomponenten für eine typische Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

Durch die Verwendung von Azure-Diensten wie der Computer Vision API und Azure Functions können Unternehmen die Notwendigkeit der Verwaltung einzelner Server vermeiden und gleichzeitig die Von Microsoft bereits mit der Verarbeitung von Images mit Azure AI-Diensten entwickelte Expertise reduzieren. Diese Lösungsidee befasst sich speziell mit einem Anwendungsfall für die Bildverarbeitung. Wenn Sie unterschiedliche KI-Anforderungen haben, sollten Sie die vollständige Suite Azure AI-Diensteberücksichtigen.

Architektur

Diagramm einer Architektur für Bildklassifizierungsaufgaben.

Laden Sie eine Visio-Datei dieser Lösungsidee herunter.

Datenfluss

In diesem Szenario werden die Back-End-Komponenten einer Web- oder mobilen Anwendung behandelt. Daten fließen wie folgt durch das Szenario:

  1. Das Hinzufügen neuer Dateien (Bilduploads) in Blob Storage löst ein Ereignis in Azure Event Grid aus. Der Uploadprozess kann über das Web oder eine mobile Anwendung orchestriert werden. Alternativ können Bilder separat in den Azure Blob Storage hochgeladen werden.
  2. Ereignisraster sendet eine Benachrichtigung, die die Azure-Funktionen auslöst.
  3. Azure Functions ruft die Azure AI Vision-API auf, um das neu hochgeladene Bild zu analysieren. Azure AI Vision greift über die BLOB-URL, die von Azure Functions analysiert wird, auf das Bild zu.
  4. Azure Functions behält die AI Vision-API-Antwort in Azure Cosmos DB bei. Diese Antwort enthält die Ergebnisse der Analyse zusammen mit den Bildmetadaten.
  5. Die Ergebnisse können im Web oder im mobilen Front-End genutzt und wiedergegeben werden. Beachten Sie, dass dieser Ansatz die Ergebnisse der Klassifizierung abruft, aber nicht das hochgeladene Bild.

Komponenten

  • Azure AI Vision ist Teil der Azure AI Services Suite und wird verwendet, um Informationen zu den einzelnen Bildern abzurufen.
  • Azure Functions stellt die Back-End-API für die Webanwendung bereit. Diese Plattform bietet auch die Ereignisverarbeitung für hochgeladene Bilder.
  • Azure Event Grid löst ein Ereignis aus, wenn ein neues Bild in blob Storage hochgeladen wird. Das Bild wird dann mit Azure Functions verarbeitet.
  • Azure Blob Storage- speichert alle Bilddateien, die in die Webanwendung hochgeladen werden, sowie alle statischen Dateien, die von der Webanwendung verwendet werden.
  • Azure Cosmos DB- speichert Metadaten zu jedem hochgeladenen Bild, einschließlich der Ergebnisse der Verarbeitung aus der Computer Vision-API.

Alternativen

  • Azure OpenAI GPT-4o und GPT-4o-mini. GPT-4o und GPT-4o-mini sind multimodale Chatmodelle von OpenAI, die allgemeine Fragen zu den von Ihnen bereitgestellten Bildern beantworten können.
  • Custom Vision Service. Die Computer Vision-API gibt eine Reihe von taxonomiebasierten Kategorienzurück. Wenn Sie Informationen verarbeiten müssen, die nicht von der Computer Vision-API zurückgegeben werden, ziehen Sie den Custom Vision Service in Betracht, mit dem Sie benutzerdefinierte Bildklassifizierer erstellen können. Um mehr über diesen Dienst zu erfahren, folgen Sie dem Schnellstart Erstellen eines Imageklassifizierungsmodells mit der custom Vision.
  • Azure AI Search. Wenn Ihr Anwendungsfall das Abfragen der Metadaten umfasst, um Bilder zu finden, die bestimmte Kriterien erfüllen, sollten Sie Azure AI Search verwenden. Azure AI Search diesen Workflow nahtlos integrieren.
  • Logic Apps. Wenn Sie nicht in Echtzeit auf hinzugefügte Dateien zu einem Blob reagieren müssen, können Sie die Verwendung von Logik-Apps in Betracht ziehen. Eine Logik-App, die überprüfen kann, ob eine Datei hinzugefügt wurde, kann vom Serientrigger oder Schiebefenstertriggergestartet werden.
  • Wenn Sie Bilder in Dokumente eingebettet haben, verwenden Sie Azure AI Document Intelligence-, um diese Bilder zu finden. Mit diesen Informationen können Sie weitere Computervisionsaufgaben für die eingebetteten Bilder extrahieren und ausführen. Verwenden Sie Document Intelligence, um Daten zu diesen eingebetteten Bildern zu sammeln, z. B. Seitenzahl oder Beschriftungstext, der zusammen mit den anderen Metadaten der Bilder gespeichert werden kann, die über die Computer Vision-API empfangen werden. Wenn Ihre Bilder hauptsächlich Fotos oder Scans von Dokumenten sind, verwenden Sie die benutzerdefinierten Dokumentintelligenz-Klassifizierungsmodelle, um die Klassifizierung einer Eingabedatei jeweils auf einer Seite durchzuführen, um die Dokumente zu identifizieren. Dieser Ansatz kann auch mehrere Dokumente oder mehrere Instanzen eines einzelnen Dokuments innerhalb einer Eingabedatei identifizieren.

Szenariodetails

Dieses Szenario ist für Unternehmen relevant, die Bilder verarbeiten müssen.

Mögliche Anwendungen umfassen das Klassifizieren von Bildern für eine Modewebsite, das Analysieren von Text und Bildern für Versicherungsansprüche oder das Verständnis von Telemetriedaten aus Spielfotos. Traditionell müssten Unternehmen Know-how in Machine Learning-Modellen entwickeln, die Modelle trainieren und schließlich die Bilder durch ihren benutzerdefinierten Prozess ausführen, um die Daten aus den Bildern herauszuholen.

Potenzielle Anwendungsfälle

Diese Lösung eignet sich ideal für die Einzelhandels-, Spiele-, Finanz- und Versicherungsbranchen. Weitere relevante Anwendungsfälle sind:

  • Klassifizieren von Bildern auf einer Modewebsite. Bildklassifizierung kann von Verkäufern beim Hochladen von Bildern von Produkten auf der Plattform zum Verkauf verwendet werden. Sie können dann die anschließende manuelle Markierung automatisieren. Die Kunden können auch den visuellen Eindruck der Produkte durchsuchen.

  • Klassifizieren von Telemetriedaten aus Screenshots von Spielen. Die Klassifizierung von Videospielen aus Screenshots entwickelt sich zu einem relevanten Problem in sozialen Medien, gekoppelt mit Computervision. Wenn z. B. Twitch-Streamer unterschiedliche Spiele nacheinander spielen, können sie die datenstrominformationen manuell aktualisieren. Fehler beim Aktualisieren von Datenstrominformationen könnten zu einer Fehlklassifizierung von Datenströmen bei Benutzersuchen führen und zu einem Verlust potenzieller Zuschauerschaft sowohl für die Inhaltsersteller als auch für die Streamingplattformen führen. Während sie neuartige Spiele einführen, könnte eine benutzerdefinierte Modellroute hilfreich sein, um neuartige Bilder aus diesen Spielen zu erkennen.

  • Klassifizieren von Bildern für Versicherungsansprüche. Die Bildklassifizierung kann dazu beitragen, den Zeit- und Kostenaufwand für die Verarbeitung und Unterschreibung von Ansprüchen zu reduzieren. Es könnte helfen, Naturkatastrophenschäden, Fahrzeugschäden zu analysieren und Wohn- und Gewerbeimmobilien zu identifizieren.

Nächste Schritte

Produktdokumentation

Einen geführten Lernpfad finden Sie unter: