Wählen Sie eine Azure KI Bild- und Videoverarbeitungstechnologie
Azure KI Services helfen Entwicklern und Unternehmen bei der Erstellung intelligenter, moderner, marktreifer und verantwortungsbewusster Anwendungen mit sofort einsatzbereiten, vorgefertigten und anpassbaren APIs und Modellen.
Dieser Artikel befasst sich mit Azure KI Services, die Video- und Bildverarbeitungsfunktionen bieten, wie z. B. visuelle Analyse und Generierung von Bildern, Objekterkennung, Bildklassifizierung und Gesichtserkennung.
Dienste
Die folgenden Services bieten Video- und Bildverarbeitungsfunktionen für Azure KI Services:
-
- Verwenden Sie Azure OpenAI für die Bilderzeugung aus natürlicher Sprache unter Verwendung vorab trainierter generativer Bildmodelle. Zum Beispiel die On-Demand-Generierung individueller Grafiken.
- Verwenden Sie Azure OpenAI, wenn Sie eine unspezifische, umfassende Analyse von Bildern durchführen müssen. Zum Beispiel die Erstellung von Zugänglichkeitsbeschreibungen.
- Verwenden Sie Azure OpenAI nicht, wenn Sie die in Azure Machine Learning verfügbaren Open-Source-Modelle zur Bilderzeugung verwenden möchten.
- Verwenden Sie Azure OpenAI nicht, wenn Sie bestimmte Arten der Bildverarbeitung wie die Extraktion von Formen, die Gesichtserkennung oder die Erkennung domänenspezifischer Bildmerkmale benötigen. Für diese Szenarien sollten Sie stattdessen KI-Lösungen verwenden oder entwickeln, die speziell für diese Zwecke trainiert wurden.
-
- Verwenden Sie den Vision-Dienst, wenn Sie grundlegende optische Zeichenerkennung (OCR), Bildanalyse oder grundlegende Videoanalyse benötigen, um Bewegung und andere Ereignisse zu erkennen.
- Verwenden Sie den Vision-Dienst nicht für Analysen, die bereits von großen, multimodalen Grundmodellen unterstützt werden.
- Verwenden Sie den Vision-Dienst nicht zur Moderation von Inhalten. Verwenden Sie stattdessen den Dienst Content Safety.
-
- Verwenden Sie diesen Dienst, wenn Sie spezielle Anforderungen haben, die die Bildanalyse des Basic-Services Vision nicht erfüllen kann. Sie eignet sich beispielsweise zur Erkennung von ungewöhnlichen Objekten, Herstellungsfehlern oder zur Erstellung detaillierter benutzerdefinierter Klassifizierungen.
- Verwenden Sie den Dienst nicht, wenn Sie eine einfache Objekterkennung oder Gesichtserkennung benötigen. Nutzen Sie stattdessen die Services Gesichtserkennung oder Vision.
- Verwenden Sie den Dienst nicht für einfache Visual-Analysen. Verwenden Sie stattdessen bildverarbeitungsfähige Modelle von Azure OpenAI oder Open-Source-Modelle in Azure Machine Learning.
-
- Verwenden Sie den Service Gesichtserkennung, wenn Sie überprüfen müssen, ob Gesichter echt oder gefälscht sind, oder um ähnliche Gesichter zu identifizieren, zu gruppieren oder zu suchen.
- Verwenden Sie den Service Gesichtserkennung nicht, um Emotionen in Gesichtern zu erkennen oder andere hochrangige Schlussfolgerungen über Gesichter zu ziehen. Verwenden Sie stattdessen multimodale Sprachmodelle für diese Aufgaben.
-
- Verwenden Sie den Azure Video Indexer Service für fortgeschrittene Aufgaben im Zusammenhang mit der Videoanalyse, die die grundlegende Videoanalyse des Vision Service nicht leisten kann.
- Verwenden Sie den Azure Video Indexer Service nicht für grundlegende Videoanalyseaufgaben wie das Zählen von Personen und die Erkennung von Bewegungen und Ereignissen. Die grundlegende Videoanalyse des Vision Services ist für diese Aufgaben kostengünstiger.
Azure OpenAI
Azure OpenAI bietet Zugriff auf die leistungsstarken Sprachmodelle von OpenAI, einschließlich der neuesten Generation von GPT-Modellen. Diese unterstützen die visuelle Analyse und die Generierung von Bildern, und DALL-E unterstützt die Bilderzeugung.
Azure KI Vision
Azure KI Vision bietet fortschrittliche Algorithmen, die Bilder verarbeiten und Informationen basierend auf den visuellen Merkmalen, die Sie interessieren, zurückgeben. Es bietet vier Dienste: OCR, Gesichtserkennung, Bild- und Raumanalyse.
Capabilities
Die folgende Tabelle enthält eine Liste der im Azure KI Vision Service verfügbaren Funktionen.
Funktion | Beschreibung |
---|---|
Optische Zeichenerkennung (OCR) | Der Optische Zeichenerkennungs-Dienst (OCR) extrahiert Text aus Bildern. Sie können die Lese-API verwenden, um gedruckten und handschriftlichen Text aus Bildern und Dokumenten zu extrahieren. Hierbei werden auf Deep Learning basierende Modelle verwendet, und es wird Text auf vielen verschiedenen Oberflächen und Hintergründen verarbeitet. Beispiele hierfür sind Geschäftsdokumente, Rechnungen, Belege, Poster, Visitenkarten, Briefe und Whiteboards. Die OCR-APIs unterstützen das Extrahieren von gedruckten Text in mehreren Sprachen. |
Bildanalyse | Der Bildanalysedienst extrahiert viele visuelle Merkmale aus Bildern, z. B. Objekte, Gesichter und automatisch erstellte Textbeschreibungen. Mit Image Analysis 4.0, das auf dem Florence-Grundmodell basiert, können Sie auch benutzerdefinierte Bildidentifizierungsmodelle erstellen. |
Videoanalyse | Die Videoanalyse umfasst videobezogene Features wie räumliche Analyse und Videoabruf. Dier räumliche Analyse analysiert das vorhanden sein und Verschieben von Personen in einem Videofeed und erzeugt Ereignisse, auf die andere Systeme reagieren können. |
Azure KI Custom Vision
Der Azure KI Custom Vision Service ist ein Bilderkennungsdienst, mit dem Sie Ihre eigenen Bilderkennungsmodelle erstellen, bereitstellen und verbessern können. Ein Bildbezeichner wendet entsprechend den visuellen Merkmalen auf einem Bild Bezeichnungen auf Bilder an. Jede Bezeichnung stellt eine Klassifizierung oder ein Objekt dar. Mit Custom Vision können Sie Ihre eigenen Bezeichnungen angeben und benutzerdefinierte Modelle für deren Erkennung trainieren.
Der Custom Vision-Dienst verwendet einen Machine-Learning-Algorithmus, um Bilder auf benutzerdefinierte Features zu analysieren. Sie stellen Sätze von Bildern zur Verfügung, die die von Ihnen gesuchten visuellen Merkmale aufweisen bzw. nicht aufweisen. Anschließend kennzeichnen Sie die Bilder mit eigenen Bezeichnungen (Tags) zum Zeitpunkt der Übergabe. Der Algorithmus wird dann mit diesen Daten trainiert und berechnet seine eigene Genauigkeit, indem er Tests anhand derselben Bilder durchführt. Nachdem das Modell trainiert wurde, können Sie es testen, noch mal trainieren und schließlich für Ihre Bilderkennungs-App verwenden, um Bilder zu klassifizieren oder Objekte zu erkennen. Darüber hinaus kann das Modell exportiert und offline verwendet werden.
Capabilities
In der folgenden Tabelle finden Sie eine Liste der Funktionen, die im Azure KI Custom Vision Service verfügbar sind.
Funktion | Beschreibung |
---|---|
Bildklassifizierung | Sagen Sie eine Kategorie oder Klasse basierend auf einer Reihe von Eingaben, die als Features bezeichnet werden, voraus. Berechnen Sie eine Wahrscheinlichkeitsbewertung für jede mögliche Klasse, und geben Sie eine Bezeichnung zurück, die die Klasse angibt, zu der das Objekt wahrscheinlich gehört. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und deren Bezeichnungen bestehen. |
Objekterkennung | Rufen Sie die Koordinaten eines Objekts in einem Bild ab. Um dieses Modell zu verwenden, benötigen Sie Daten, die aus Features und ihren Bezeichnungen bestehen |
Anwendungsfälle
Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für den Azure KI Custom Vision Service.
Anwendungsfall | Beschreibung |
---|---|
Verwenden von Custom Vision mit einem IoT-Gerät zum Melden von visuellen Zuständen | Verwenden Sie Custom Vision, um ein Gerät mit einer Kamera auf die Erkennung visueller Zustände zu trainieren. Sie können dieses Erkennungsszenario auf einem IoT-Gerät ausführen, indem Sie ein exportiertes ONNX-Modell verwenden. Ein visueller Zustand beschreibt den Inhalt eines Bilds: ein leerer Raum oder ein Raum mit Personen, eine leere Straße oder eine Straße mit einem LKW usw. |
Erkennungsmodul von Logos in Kamerabildern | Analyse von Fotos, um nach bestimmten Logos zu suchen. |
Azure KI Gesichtserkennung
Der Azure KI Gesichtserkennungs-Service stellt KI-Algorithmen zur Verfügung, die menschliche Gesichter in Bildern erkennen, identifizieren und analysieren. Gesichtserkennungssoftware ist in zahlreichen Szenarien wichtig, z. B. Identifikation, berührungslose Zugangskontrolle und automatische Gesichtsunschärfe aus Datenschutzgründen.
Capabilities
Die folgende Tabelle enthält eine Liste der Funktionen, die im Azure KI Gesichtserkennungs-Service verfügbar sind.
Funktion | Beschreibung |
---|---|
Gesichtserkennung und Analyse | Identifizieren Sie Bereiche eines Bilds, die ein menschliches Gesicht enthalten, typischerweise durch Ausgabe der Koordinaten eines Begrenzungsrahmens, der ein Rechteck um das Gesicht bildet. |
Suchen ähnlicher Gesichter | Der Vorgang „Ähnliches suchen“ ermöglicht einen Abgleich zwischen einem Zielgesicht und mehreren Kandidatengesichtern, um eine Untermenge von Gesichtern zu ermitteln, die dem Zielgesicht ähnlich sind. Dies ist hilfreich, wenn eine Gesichtserkennungssuche anhand von Bildern durchgeführt werden soll. |
Gruppieren von Gesichtern | Mit dem Gruppierungsvorgang wird eine Gruppe von unbekannten Gesichtern anhand der Ähnlichkeit in kleinere Gruppen aufgeteilt. Jede Gruppe ist eine zusammenhanglose korrekte Teilmenge der ursprünglichen Gesichtergruppe. Außerdem wird ein einzelnes „messyGroup“-Array zurückgegeben, das die Gesichts-IDs enthält, für die keine Ähnlichkeiten gefunden wurden. |
Identifikation | Die Gesichtserkennung kann den „1:n“-Abgleich eines Gesichts in einem Bild mit einer Gruppe von Gesichtern in einem sicheren Repository adressieren. Übereinstimmungskandidaten werden basierend auf der Genauigkeit der Übereinstimmung ihrer Gesichtsdaten mit dem Abfragegesicht zurückgegeben. |
Vorgänge der Gesichtserkennung | Moderne Unternehmen und Apps können die Gesichtserkennungstechnologien verwenden, einschließlich Gesichtsüberprüfung („1:1“-Abgleich) und Gesichtsidentifikation („1:n“-Abgleich), um zu bestätigen, dass ein Benutzer die Person ist, die er sein möchte. |
Liveness-Erkennung | Die Aktivitätserkennung ist eine Anti-Spoofing-Funktion, die überprüft, ob ein Benutzer physisch vor der Kamera anwesend ist. Diese Funktion wird verwendet, um Spoofingangriffe mit einem gedruckten Foto, einem aufgezeichneten Video oder einer 3D-Maske des Gesichts des Benutzers zu verhindern. |
Anwendungsfälle
Die folgende Tabelle enthält eine Liste möglicher Anwendungsfälle für den Dienst Azure KI Gesichtserkennung.
Anwendungsfall | Beschreibung |
---|---|
Verifizieren Sie die Benutzeridentität. | Überprüfen Sie eine Person anhand eines vertrauenswürdigen Gesichtsbildes. Diese Verifizierung kann verwendet werden, um Zugang zu digitalen oder physischen Objekten zu gewähren. In den meisten Fällen könnte das vertrauenswürdige Gesichtsbild von einer vom Staat ausgestellten ID wie einem Reisepass oder Führerschein stammen, oder es könnte aus einem Registrierungsfoto stammen, das persönlich aufgenommen wurde. Während der Überprüfung kann die Liveness-Erkennung eine wichtige Rolle bei der Überprüfung spielen, um zu überprüfen, ob das Bild von einer echten Person stammt, nicht von einem gedruckten Foto oder einer Maske. |
Gesichtsbearbeitung | Schwärzen oder verwischen Sie erkannte Gesichter von Personen, die in einem Video aufgenommen wurden, um deren Privatsphäre zu schützen. |
Berührungslose Zugangskontrolle. | Im Vergleich zu Methoden wie Karten oder Tickets ermöglicht die Opt-in-Gesichtsidentifikation eine verbesserte Zugangskontrolle und reduziert gleichzeitig die Hygiene- und Sicherheitsrisiken, die durch die gemeinsame Nutzung, den Verlust oder den Diebstahl physischer Medien entstehen. Die Gesichtserkennung unterstützt den Eincheckprozess von Personen beim Einchecken in Flughäfen, Stadien, Vergnügungsparks, Gebäuden, Rezeptionen von Bürogebäuden, Krankenhäusern, Fitnessstudios, Clubs oder Schulen. |
Azure KI Video Indexer
Azure KI Video Indexer ist eine Cloud-Anwendung, die Teil der Azure KI Services ist und auf Azure KI Services (wie Gesichtserkennung, Übersetzer, Azure KI Vision und Speech) aufbaut. Sie ermöglicht Ihnen, mithilfe der Video- und Audiomodelle von Azure KI Video Indexer Erkenntnisse aus Ihren Videos zu gewinnen.
Capabilities
In der folgenden Tabelle finden Sie eine Liste einiger der im Azure KI Video Indexer-Service verfügbaren Funktionen.
Funktion | Beschreibung |
---|---|
Mehrsprachige Sprecher*innenidentifikation und Transkription | Identifiziert die gesprochene Sprache in verschiedenen Audiosegmenten. Die Funktion sendet jedes Segment der zu transkribierenden Mediendatei und kombiniert die Transkriptionen dann wieder zu einer einzigen Transkription. |
Gesichtserkennung | erkennt und gruppiert im Video gezeigte Gesichter. |
Identifikation von Sehenswürdigkeiten | Identifiziert über 1 Million prominente Persönlichkeiten, wie z. B. Staatsoberhäupter, Schauspieler, Künstler, Sportler, Forscher, Führungskräfte aus der Wirtschaft und der Technologiebranche auf der ganzen Welt. Die Daten über diese Berühmtheiten können Sie auch auf verschiedenen Websites suchen (IMDB, Wikipedia usw.). |
Kontobasierte Gesichtserkennung | Trainiert ein Modell für ein bestimmtes Konto. Gesichter im Video werden dann auf Grundlage des trainierten Modells erkannt. |
Beobachtete Personenverfolgung (Vorschau) | Erkennt beobachtete Personen in Videos und liefert Informationen wie die Position der Person im Videobild (unter Verwendung von Bounding Boxes) sowie den genauen Zeitstempel (Anfang, Ende) und die Zuversicht, wenn eine Person erscheint. |
Audio-Transkription | Konvertiert Sprache in Text in über 50 Sprachen und erlaubt Erweiterungen. |
Sprachenerkennung | Identifiziert die vorherrschende gesprochene Sprache. |
Rauschunterdrückung | bereinigt (basierend auf Skype-Filtern) Telefonaudio oder verrauschte Aufnahmen. |
Übersetzung | Erstellt Übersetzungen des Audiotranskripts in viele verschiedene Sprachen. |
Weitere Funktionen des Azure KI Video Indexer-Dienstes finden Sie in der Azure KI Video Indexer-Dokumentation.
Anwendungsfälle
In der folgenden Tabelle finden Sie eine Liste möglicher Anwendungsfälle für den Azure KI Video Indexer-Service.
Anwendungsfall | Beschreibung |
---|---|
Intensivsuche | Verwenden Sie die aus dem Video extrahierten Erkenntnisse, um die Suchfunktion für eine Videobibliothek zu verbessern. Beispielsweise kann die Indizierung von gesprochenem Text und Gesichtern die Suche nach Stellen in einem Video ermöglichen, in denen eine Person bestimmte Wörter benutzt hat oder zwei Personen zusammen gezeigt werden. Die Suche auf Grundlage solcher Erkenntnisse ist für Nachrichtenagenturen, Bildungseinrichtungen, Rundfunkanstalten, Besitzer von Unterhaltungsinhalten, Branchenanwendungen und im Allgemeinen für alle Branchen von Nutzen, die über eine Videobibliothek verfügen, in der Benutzer eine Suche durchführen müssen. |
Inhaltserstellung | Erstellt Trailer, Highlightkompilationen, Inhalte für soziale Medien oder Nachrichtenclips basierend auf den Erkenntnissen, die Azure KI Video Indexer aus Ihren Inhalten extrahiert. Keyframes, Szenenmarkierungen und Zeitstempel der Personen- und Bezeichnungsdarstellungen gestalten den Erstellungsprozess viel reibungsloser und einfacher und ermöglichen es Ihnen, problemlos zu den Teilen des Videos zu gelangen, die Sie zum Erstellen von Inhalten benötigen. |
Zugriff | Ganz gleich, ob Sie Ihre Inhalte für Menschen mit Behinderungen zugänglich machen möchten oder ob Sie Ihre Inhalte in verschiedenen Regionen in unterschiedlichen Sprachen verbreiten möchten, Sie können die Transkription und Übersetzung nutzen, die Azure KI Video Indexer in mehreren Sprachen bietet. |
Monetarisierung | Azure KI Video Indexer kann helfen, den Wert von Videos zu steigern. Beispielsweise können Unternehmen aus Branchen, die auf Werbeeinnahmen angewiesen sind (Nachrichtenmedien, soziale Medien usw.) wirkungsvolle Anzeigen schalten, indem sie die extrahierten Erkenntnisse als zusätzliche Signale für den Anzeigenserver nutzen. |
Inhaltsmoderation | Verwenden Sie textbasierte und visuelle Moderationsmodelle, um Ihre Benutzer vor unangemessenen Inhalten zu schützen und zu überprüfen, ob die von Ihnen veröffentlichten Inhalte den Werten Ihrer Organisation entsprechen. Sie können bestimmte Videos automatisch blockieren oder Ihre Benutzer vor dem Inhalt warnen. |
Empfehlungen | Die aus Videos gewonnenen Erkenntnisse können genutzt werden, um die Kundenbindung zu verbessern, indem für die Benutzer relevante Stellen in einem Video hervorgehoben werden. Indem Sie jedes Video mit zusätzlichen Metadaten kennzeichnen, können Sie den Benutzern die relevantesten Videos empfehlen und den Teil des Videos hervorheben, der ihren Anforderungen entspricht. |
Nächste Schritte
- Was ist Azure KI Vision?
- Lernpfad: Entwickeln von Lösungen für die linguistischen Datenverarbeitung mit Azure KI Services
- Lernpfad: Erste Schritte mit Azure KI Services
- Lernpfad: Microsoft Azure KI-Grundlagen: Computer Vision
- Lernpfad: Erstellen von Lösungen für Computer Vision mit Azure KI Vision
- Lernpfad: Erstellen einer Bilderkennungslösung mit Azure IoT Edge und Azure KI Services