Analysieren von Video- und Audiodateien mit Azure Media Services
Warnung
Azure Media Services wird am 30. Juni 2024 eingestellt. Weitere Informationen finden Sie im AMS Retirement Guide.
Wichtig
Wie die Verantwortlichen KI-Standards von Microsoft skizziert, verpflichtet sich Microsoft zu Fairness, Datenschutz, Sicherheit und Transparenz in Bezug auf KI-Systeme. Um diese Standards zu erfüllen, setzt Azure Media Services die voreingestellte Video Analyzer-voreingestellten am 14. September 2023. Mit dieser Voreinstellung können Sie derzeit mehrere Video- und Audioeinblicke aus einer Videodatei extrahieren. Kunden können ihre aktuellen Workflows durch den erweiterten Featuresatz ersetzen, der von Azure Video Indexerangeboten wird.
Mit Mediendiensten können Sie Einblicke aus Ihren Video- und Audiodateien mithilfe der Voreinstellungen für Audio- und Videoanalyse extrahieren. In diesem Artikel werden die Analysevoreinstellungen beschrieben, die zum Extrahieren von Erkenntnissen verwendet werden. Wenn Sie detailliertere Einblicke aus Ihren Videos wünschen, verwenden Sie den Azure Video Indexer-Dienst. Um zu verstehen, wann Video Indexer vs. Media Services Analyzer-Voreinstellungen verwendet werden sollen, lesen Sie das Vergleichsdokument.
Es gibt zwei Modi für die Voreinstellung "Audio Analyzer", "Basic" und "Standard". Weitere Informationen finden Sie in der Beschreibung der Unterschiede in der folgenden Tabelle.
Um Ihre Inhalte mithilfe von Media Services v3-Voreinstellungen zu analysieren, erstellen Sie eine Transform und übermitteln einen Auftrag, der eine der folgenden Voreinstellungen verwendet: VideoAnalyzerPreset oder AudioAnalyzerPreset.
Anmerkung
AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen öffentlichen Netzwerkzugriff hat.
Compliance, Datenschutz und Sicherheit
Sie müssen alle anwendbaren Gesetze in Ihrer Verwendung von VideoIndexer einhalten, und Sie dürfen video indexer oder einen anderen Azure-Dienst nicht auf eine Weise verwenden, die die Rechte anderer verletzt oder für andere schädlich sein kann. Bevor Sie Videos, einschließlich biometrischer Daten, zur Verarbeitung und Speicherung in den Videoindexer-Dienst hochladen, müssen Sie alle richtigen Rechte haben, einschließlich aller geeigneten Zustimmungen, von den Einzelnen im Video. Informationen zu Compliance, Datenschutz und Sicherheit in Video Indexer finden Sie in den Azure Cognitive Services-Nutzungsbedingungen. Überprüfen Sie für die Datenschutzverpflichtungen und die Verarbeitung Ihrer Daten die Datenschutzbestimmungen von Microsoft, die Onlinedienstebedingungen ("OST") und Ergänzung zur Datenverarbeitung ("DPA"). Weitere Datenschutzinformationen, einschließlich der Datenaufbewahrung, Löschung/Zerstörung, sind im OST verfügbar. Durch die Verwendung von Video Indexer erklären Sie sich damit einverstanden, dass Sie an die Cognitive Services-Bedingungen, die OST-, DPA- und die Datenschutzerklärung gebunden sind.
Integrierte Voreinstellungen
Media Services unterstützt derzeit die folgenden integrierten Analysevoreinstellungen:
Voreingestellter Name | Szenario/Modus- | Details |
---|---|---|
AudioAnalyzerPreset- | Analysieren des Audiostandardmodus | Die Voreinstellung wendet einen vordefinierten Satz KI-basierter Analysevorgänge an, einschließlich der Sprachtranskription. Derzeit unterstützt die Voreinstellung die Verarbeitung von Inhalten mit einer einzelnen Audiospur, die Sprache in einer sprache enthält. Geben Sie die Sprache für die Audionutzlast in der Eingabe mithilfe des BCP-47-Formats von "language tag-region" an. Eine Liste der unterstützten Sprachen finden Sie unten für verfügbare Sprachcodes. Die automatische Spracherkennung wählt die erste erkannte Sprache aus und setzt die ausgewählte Sprache für die gesamte Datei fort, wenn sie nicht festgelegt oder auf NULL festgelegt ist. Das Feature für die automatische Spracherkennung unterstützt derzeit: Englisch, Chinesisch, Französisch, Deutsch, Italienisch, Japanisch, Spanisch, Russisch und Brasilianisches Portugiesisch. Es wird nicht unterstützt, dynamisch zwischen Sprachen zu wechseln, nachdem die erste Sprache erkannt wurde. Die automatische Spracherkennung funktioniert am besten mit Audioaufzeichnungen mit klar erkennbarer Sprache. Wenn die automatische Spracherkennung die Sprache nicht findet, fällt die Transkription auf Englisch zurück. |
AudioAnalyzerPreset- | Analysieren des Einfachen Audiomodus | Dieser voreingestellte Modus führt sprach-zu-Text-Transkription und Generierung einer VTT-Untertitel-/Untertiteldatei durch. Die Ausgabe dieses Modus enthält eine Insights-JSON-Datei, einschließlich nur der Schlüsselwörter, Transkription und Anzeigedauerinformationen. Automatische Spracherkennung und Sprecherdiarisierung sind in diesem Modus nicht enthalten. Die Liste der unterstützten Sprachen ist mit dem obigen Standardmodus identisch. |
VideoAnalyzerPreset- | Analysieren von Audio und Video | Extrahiert Einblicke (umfangreiche Metadaten) aus Audio- und Videodaten und gibt eine JSON-Formatdatei aus. Sie können angeben, ob Beim Verarbeiten einer Videodatei nur Audioerkenntnisse extrahiert werden sollen. |
FaceDetectorPreset- | Erkennen von Gesichtern, die im Video vorhanden sind | Beschreibt die Einstellungen, die beim Analysieren eines Videos verwendet werden sollen, um alle vorhandenen Gesichter zu erkennen. |
Anmerkung
AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen öffentlichen Netzwerkzugriff hat.
Unterstützte Sprachen
- Arabisch ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' und 'ar-SY')
- Brasilianisches Portugiesisch ('pt-BR')
- Chinesisch ('zh-CN')
- Dänisch('da-DK')
- Englisch ('en-US', 'en-GB' und 'en-AU')
- Finnisch ('fi-FI')
- Französisch ('fr-FR' und 'fr-CA')
- Deutsch ('de-DE')
- Hebräisch (he-IL)
- Hindi ('hi-IN'), Koreanisch ('ko-KR')
- Italienisch ('it-IT')
- Japanisch ('ja-JP')
- Norwegisch ('nb-NO')
- Persisch ('fa-IR')
- Portugal Portugiesisch ('pt-PT')
- Russisch ('ru-RU')
- Spanisch ('es-ES' und 'es-MX')
- Schwedisch ('sv-SE')
- Thailändisch ('th-TH')
- Türkisch ('tr-TR')
Anmerkung
AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen öffentlichen Netzwerkzugriff hat.
AudioAnalyzerPreset-Standardmodus
Mit der Voreinstellung können Sie mehrere Audioeinblicke aus einer Audio- oder Videodatei extrahieren.
Die Ausgabe enthält eine JSON-Datei (mit allen Erkenntnissen) und VTT-Datei für das Audiotranskript. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47 Zeichenfolge angibt. Zu den Audioeinblicken gehören:
- Audiotranskription: Eine Transkription der gesprochenen Wörter mit Zeitstempeln. Es werden mehrere Sprachen unterstützt.
- Schlüsselwörter: Schlüsselwörter, die aus der Audiotranskription extrahiert werden.
AudioAnalyzerPreset-Standardmodus
Mit der Voreinstellung können Sie mehrere Audioeinblicke aus einer Audio- oder Videodatei extrahieren.
Die Ausgabe enthält eine JSON-Datei und eine VTT-Datei für das Audiotranskript. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47 Zeichenfolge angibt. Die Ausgabe umfasst:
- Audiotranskription: Eine Transkription der gesprochenen Wörter mit Zeitstempeln. Mehrere Sprachen werden unterstützt, die automatische Spracherkennung und die Sprecherdiarisierung sind jedoch nicht enthalten.
- Schlüsselwörter: Schlüsselwörter, die aus der Audiotranskription extrahiert werden.
VideoAnalyzerPreset
Mit der Voreinstellung können Sie mehrere Audio- und Videoeinblicke aus einer Videodatei extrahieren. Die Ausgabe enthält eine JSON-Datei (mit allen Einblicken), eine VTT-Datei für das Videotranskript und eine Sammlung von Miniaturansichten. Diese Voreinstellung akzeptiert auch eine BCP47 Zeichenfolge (die Sprache des Videos darstellt) als Eigenschaft. Zu den Videoeinblicken gehören alle oben genannten Audioeinblicke und die folgenden zusätzlichen Elemente:
- Gesichtsverfolgung: Die Zeit, in der Gesichter im Video vorhanden sind. Jedes Gesicht verfügt über eine Gesichts-ID und eine entsprechende Sammlung von Miniaturansichten.
- Visueller Text: Der Text, der über die optische Zeichenerkennung erkannt wird. Der Text ist zeitstempelt und wird auch zum Extrahieren von Schlüsselwörtern (zusätzlich zum Audiotranskript) verwendet.
- Keyframes: Eine Sammlung von Keyframes, die aus dem Video extrahiert wurden.
- visuelle Inhaltsmoderation: Der Teil der Videos, die als erwachsener oder rassiger Natur gekennzeichnet sind.
- Anmerkungs-: Ein Ergebnis der Anmerkungen zu den Videos basierend auf einem vordefinierten Objektmodell
insights.json-Elemente
Die Ausgabe enthält eine JSON-Datei (insights.json) mit allen Erkenntnissen im Video oder Audio. Der JSON-Code kann die folgenden Elemente enthalten:
Abschrift
Name | Beschreibung |
---|---|
id | Die Zeilen-ID. |
Text | Das Transkript selbst. |
Sprache | Die Transkriptsprache. Soll das Transkript unterstützen, bei dem jede Zeile eine andere Sprache haben kann. |
Instanzen | Eine Liste der Zeitbereiche, in denen diese Zeile angezeigt wurde. Wenn die Instanz transkriptiv ist, hat sie nur eine Instanz. |
Beispiel:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
OCR
Name | Beschreibung |
---|---|
id | Die OCR-Zeilen-ID. |
Text | Der OCR-Text. |
Vertrauen | Die Erkennungsvertrauenswahrscheinlichkeit. |
Sprache | Die SPRACHE OCR. |
Instanzen | Eine Liste der Zeitbereiche, in denen dieser OCR angezeigt wurde (dieselbe OCR kann mehrmals angezeigt werden). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Gesichter
Name | Beschreibung |
---|---|
id | Die Gesichts-ID. |
Name | Der Gesichtsname. Es kann sich um "Unknown #0", einen identifizierten Prominenten oder um einen geschulten Kunden sein. |
Vertrauen | Das Vertrauen der Gesichtsidentifikation. |
Beschreibung | Eine Beschreibung des Prominenten. |
thumbnailId | Die ID der Miniaturansicht dieses Gesichts. |
KnownPersonId | Die interne ID (wenn es sich um eine bekannte Person handelt). |
referenceId | Die Bing-ID (wenn es sich um eine Bing-Prominente handelt). |
referenceType | Derzeit nur Bing. |
Titel | Der Titel (wenn es sich um eine Prominente handelt, z. B. "Microsofts CEO"). |
imageUrl | Die Bild-URL, wenn es sich um eine Prominente handelt. |
Instanzen | Instanzen, in denen das Gesicht im angegebenen Zeitraum angezeigt wurde. Jede Instanz verfügt auch über eine ThumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Schüsse
Name | Beschreibung |
---|---|
id | Die Shot-ID. |
keyFrames | Eine Liste der Keyframes innerhalb des Screenshots (jede verfügt über eine ID und eine Liste der Instanzen von Zeitbereichen). Keyframeinstanzen weisen ein ThumbnailId-Feld mit der Miniaturansichts-ID des Keyframes auf. |
Instanzen | Eine Liste der Zeitbereiche dieses Screenshots (Aufnahmen haben nur eine Instanz). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
Statistik
Name | Beschreibung |
---|---|
CorrespondenceCount | Anzahl der Korrespondenzen im Video. |
WordCount | Die Anzahl der Wörter pro Sprecher. |
SpeakerNumberOfFragments | Die Menge der Fragmente, die der Sprecher in einem Video hat. |
SpeakerLongestMonolog | Der längste Monolog des Lautsprechers. Wenn der Lautsprecher stille innerhalb des Monologs hat, ist es enthalten. Stille am Anfang und ende des Monologs wird entfernt. |
SpeakerTalkToListenRatio | Die Berechnung basiert auf der Zeit, die für den Monolog des Sprechers (ohne die Stille dazwischen) geteilt durch die Gesamtzeit des Videos. Die Zeit wird auf den dritten Dezimalkommapunkt gerundet. |
etiketten
Name | Beschreibung |
---|---|
id | Die Bezeichnungs-ID. |
Name | Der Bezeichnungsname (z. B. "Computer", "TV"). |
Sprache | Die Bezeichnungsnamesprache (bei Übersetzung). BCP-47 |
Instanzen | Eine Liste der Zeitbereiche, in denen diese Bezeichnung angezeigt wurde (eine Bezeichnung kann mehrmals angezeigt werden). Jede Instanz weist ein Konfidenzfeld auf. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Schlüsselwörter
Name | Beschreibung |
---|---|
id | Die Schlüsselwort-ID. |
Text | Der Schlüsselworttext. |
Vertrauen | Das Erkennungsvertrauen des Schlüsselworts. |
Sprache | Die Schlüsselwortsprache (wenn übersetzt). |
Instanzen | Eine Liste der Zeitbereiche, in denen dieses Schlüsselwort angezeigt wurde (ein Schlüsselwort kann mehrmals angezeigt werden). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Der visualContentModeration-Block enthält Zeitbereiche, die der Videoindexer für potenziell erwachsene Inhalte gefunden hat. Wenn visualContentModeration leer ist, gibt es keinen erwachsenen Inhalt, der identifiziert wurde.
Videos, die als Erwachsene oder rassige Inhalte gefunden werden, sind möglicherweise nur für die private Ansicht verfügbar. Benutzer können eine Anfrage zur menschlichen Überprüfung des Inhalts einreichen, in diesem Fall enthält das attribut IsAdult
das Ergebnis der menschlichen Überprüfung.
Name | Beschreibung |
---|---|
id | Die ID der visuellen Inhaltsmoderation. |
adultScore | Die Erwachsenenbewertung (vom Inhaltsmoderator). |
racyScore | Die rassige Bewertung (aus der Inhaltsmoderation). |
Instanzen | Eine Liste der Zeitbereiche, in denen diese visuelle Inhaltsmoderation angezeigt wurde. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Hilfe und Support erhalten
Sie können media Services mit Fragen kontaktieren oder unsere Updates mit einer der folgenden Methoden befolgen:
- Q & A
-
Stack Overflow. Markieren Sie Fragen mit
azure-media-services
. - @MSFTAzureMedia oder verwenden Sie @AzureSupport, um Support anzufordern.
- Öffnen Sie ein Supportticket über das Azure-Portal.