Analysieren von Video- und Audiodateien mit Azure Media Services

Artikel
03/02/2023

Warnung

Azure Media Services wird am 30. Juni 2024 eingestellt. Weitere Informationen finden Sie im AMS Retirement Guide.

Wichtig

Wie die Verantwortlichen KI-Standards von Microsoft skizziert, verpflichtet sich Microsoft zu Fairness, Datenschutz, Sicherheit und Transparenz in Bezug auf KI-Systeme. Um diese Standards zu erfüllen, setzt Azure Media Services die voreingestellte Video Analyzer-voreingestellten am 14. September 2023. Mit dieser Voreinstellung können Sie derzeit mehrere Video- und Audioeinblicke aus einer Videodatei extrahieren. Kunden können ihre aktuellen Workflows durch den erweiterten Featuresatz ersetzen, der von Azure Video Indexerangeboten wird.

Mit Mediendiensten können Sie Einblicke aus Ihren Video- und Audiodateien mithilfe der Voreinstellungen für Audio- und Videoanalyse extrahieren. In diesem Artikel werden die Analysevoreinstellungen beschrieben, die zum Extrahieren von Erkenntnissen verwendet werden. Wenn Sie detailliertere Einblicke aus Ihren Videos wünschen, verwenden Sie den Azure Video Indexer-Dienst. Um zu verstehen, wann Video Indexer vs. Media Services Analyzer-Voreinstellungen verwendet werden sollen, lesen Sie das Vergleichsdokument.

Es gibt zwei Modi für die Voreinstellung "Audio Analyzer", "Basic" und "Standard". Weitere Informationen finden Sie in der Beschreibung der Unterschiede in der folgenden Tabelle.

Um Ihre Inhalte mithilfe von Media Services v3-Voreinstellungen zu analysieren, erstellen Sie eine Transform und übermitteln einen Auftrag, der eine der folgenden Voreinstellungen verwendet: VideoAnalyzerPreset oder AudioAnalyzerPreset.

Anmerkung

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen öffentlichen Netzwerkzugriff hat.

Compliance, Datenschutz und Sicherheit

Sie müssen alle anwendbaren Gesetze in Ihrer Verwendung von VideoIndexer einhalten, und Sie dürfen video indexer oder einen anderen Azure-Dienst nicht auf eine Weise verwenden, die die Rechte anderer verletzt oder für andere schädlich sein kann. Bevor Sie Videos, einschließlich biometrischer Daten, zur Verarbeitung und Speicherung in den Videoindexer-Dienst hochladen, müssen Sie alle richtigen Rechte haben, einschließlich aller geeigneten Zustimmungen, von den Einzelnen im Video. Informationen zu Compliance, Datenschutz und Sicherheit in Video Indexer finden Sie in den Azure Cognitive Services-Nutzungsbedingungen. Überprüfen Sie für die Datenschutzverpflichtungen und die Verarbeitung Ihrer Daten die Datenschutzbestimmungen von Microsoft, die Onlinedienstebedingungen ("OST") und Ergänzung zur Datenverarbeitung ("DPA"). Weitere Datenschutzinformationen, einschließlich der Datenaufbewahrung, Löschung/Zerstörung, sind im OST verfügbar. Durch die Verwendung von Video Indexer erklären Sie sich damit einverstanden, dass Sie an die Cognitive Services-Bedingungen, die OST-, DPA- und die Datenschutzerklärung gebunden sind.

Integrierte Voreinstellungen

Media Services unterstützt derzeit die folgenden integrierten Analysevoreinstellungen:

Voreingestellter Name	Szenario/Modus-	Details
AudioAnalyzerPreset-	Analysieren des Audiostandardmodus	Die Voreinstellung wendet einen vordefinierten Satz KI-basierter Analysevorgänge an, einschließlich der Sprachtranskription. Derzeit unterstützt die Voreinstellung die Verarbeitung von Inhalten mit einer einzelnen Audiospur, die Sprache in einer sprache enthält. Geben Sie die Sprache für die Audionutzlast in der Eingabe mithilfe des BCP-47-Formats von "language tag-region" an. Eine Liste der unterstützten Sprachen finden Sie unten für verfügbare Sprachcodes. Die automatische Spracherkennung wählt die erste erkannte Sprache aus und setzt die ausgewählte Sprache für die gesamte Datei fort, wenn sie nicht festgelegt oder auf NULL festgelegt ist. Das Feature für die automatische Spracherkennung unterstützt derzeit: Englisch, Chinesisch, Französisch, Deutsch, Italienisch, Japanisch, Spanisch, Russisch und Brasilianisches Portugiesisch. Es wird nicht unterstützt, dynamisch zwischen Sprachen zu wechseln, nachdem die erste Sprache erkannt wurde. Die automatische Spracherkennung funktioniert am besten mit Audioaufzeichnungen mit klar erkennbarer Sprache. Wenn die automatische Spracherkennung die Sprache nicht findet, fällt die Transkription auf Englisch zurück.
AudioAnalyzerPreset-	Analysieren des Einfachen Audiomodus	Dieser voreingestellte Modus führt sprach-zu-Text-Transkription und Generierung einer VTT-Untertitel-/Untertiteldatei durch. Die Ausgabe dieses Modus enthält eine Insights-JSON-Datei, einschließlich nur der Schlüsselwörter, Transkription und Anzeigedauerinformationen. Automatische Spracherkennung und Sprecherdiarisierung sind in diesem Modus nicht enthalten. Die Liste der unterstützten Sprachen ist mit dem obigen Standardmodus identisch.
VideoAnalyzerPreset-	Analysieren von Audio und Video	Extrahiert Einblicke (umfangreiche Metadaten) aus Audio- und Videodaten und gibt eine JSON-Formatdatei aus. Sie können angeben, ob Beim Verarbeiten einer Videodatei nur Audioerkenntnisse extrahiert werden sollen.
FaceDetectorPreset-	Erkennen von Gesichtern, die im Video vorhanden sind	Beschreibt die Einstellungen, die beim Analysieren eines Videos verwendet werden sollen, um alle vorhandenen Gesichter zu erkennen.

Anmerkung

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen öffentlichen Netzwerkzugriff hat.

Unterstützte Sprachen

Arabisch ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' und 'ar-SY')
Brasilianisches Portugiesisch ('pt-BR')
Chinesisch ('zh-CN')
Dänisch('da-DK')
Englisch ('en-US', 'en-GB' und 'en-AU')
Finnisch ('fi-FI')
Französisch ('fr-FR' und 'fr-CA')
Deutsch ('de-DE')
Hebräisch (he-IL)
Hindi ('hi-IN'), Koreanisch ('ko-KR')
Italienisch ('it-IT')
Japanisch ('ja-JP')
Norwegisch ('nb-NO')
Persisch ('fa-IR')
Portugal Portugiesisch ('pt-PT')
Russisch ('ru-RU')
Spanisch ('es-ES' und 'es-MX')
Schwedisch ('sv-SE')
Thailändisch ('th-TH')
Türkisch ('tr-TR')

Anmerkung

AudioAnalyzerPreset wird nicht unterstützt, wenn das Speicherkonto keinen öffentlichen Netzwerkzugriff hat.

AudioAnalyzerPreset-Standardmodus

Mit der Voreinstellung können Sie mehrere Audioeinblicke aus einer Audio- oder Videodatei extrahieren.

Die Ausgabe enthält eine JSON-Datei (mit allen Erkenntnissen) und VTT-Datei für das Audiotranskript. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47 Zeichenfolge angibt. Zu den Audioeinblicken gehören:

Audiotranskription: Eine Transkription der gesprochenen Wörter mit Zeitstempeln. Es werden mehrere Sprachen unterstützt.
Schlüsselwörter: Schlüsselwörter, die aus der Audiotranskription extrahiert werden.

AudioAnalyzerPreset-Standardmodus

Mit der Voreinstellung können Sie mehrere Audioeinblicke aus einer Audio- oder Videodatei extrahieren.

Die Ausgabe enthält eine JSON-Datei und eine VTT-Datei für das Audiotranskript. Diese Voreinstellung akzeptiert eine Eigenschaft, die die Sprache der Eingabedatei in Form einer BCP47 Zeichenfolge angibt. Die Ausgabe umfasst:

Audiotranskription: Eine Transkription der gesprochenen Wörter mit Zeitstempeln. Mehrere Sprachen werden unterstützt, die automatische Spracherkennung und die Sprecherdiarisierung sind jedoch nicht enthalten.
Schlüsselwörter: Schlüsselwörter, die aus der Audiotranskription extrahiert werden.

VideoAnalyzerPreset

Mit der Voreinstellung können Sie mehrere Audio- und Videoeinblicke aus einer Videodatei extrahieren. Die Ausgabe enthält eine JSON-Datei (mit allen Einblicken), eine VTT-Datei für das Videotranskript und eine Sammlung von Miniaturansichten. Diese Voreinstellung akzeptiert auch eine BCP47 Zeichenfolge (die Sprache des Videos darstellt) als Eigenschaft. Zu den Videoeinblicken gehören alle oben genannten Audioeinblicke und die folgenden zusätzlichen Elemente:

Gesichtsverfolgung: Die Zeit, in der Gesichter im Video vorhanden sind. Jedes Gesicht verfügt über eine Gesichts-ID und eine entsprechende Sammlung von Miniaturansichten.
Visueller Text: Der Text, der über die optische Zeichenerkennung erkannt wird. Der Text ist zeitstempelt und wird auch zum Extrahieren von Schlüsselwörtern (zusätzlich zum Audiotranskript) verwendet.
Keyframes: Eine Sammlung von Keyframes, die aus dem Video extrahiert wurden.
visuelle Inhaltsmoderation: Der Teil der Videos, die als erwachsener oder rassiger Natur gekennzeichnet sind.
Anmerkungs-: Ein Ergebnis der Anmerkungen zu den Videos basierend auf einem vordefinierten Objektmodell

insights.json-Elemente

Die Ausgabe enthält eine JSON-Datei (insights.json) mit allen Erkenntnissen im Video oder Audio. Der JSON-Code kann die folgenden Elemente enthalten:

Abschrift

Name	Beschreibung
id	Die Zeilen-ID.
Text	Das Transkript selbst.
Sprache	Die Transkriptsprache. Soll das Transkript unterstützen, bei dem jede Zeile eine andere Sprache haben kann.
Instanzen	Eine Liste der Zeitbereiche, in denen diese Zeile angezeigt wurde. Wenn die Instanz transkriptiv ist, hat sie nur eine Instanz.

Beispiel:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

OCR

Name	Beschreibung
id	Die OCR-Zeilen-ID.
Text	Der OCR-Text.
Vertrauen	Die Erkennungsvertrauenswahrscheinlichkeit.
Sprache	Die SPRACHE OCR.
Instanzen	Eine Liste der Zeitbereiche, in denen dieser OCR angezeigt wurde (dieselbe OCR kann mehrmals angezeigt werden).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Gesichter

Name	Beschreibung
id	Die Gesichts-ID.
Name	Der Gesichtsname. Es kann sich um "Unknown #0", einen identifizierten Prominenten oder um einen geschulten Kunden sein.
Vertrauen	Das Vertrauen der Gesichtsidentifikation.
Beschreibung	Eine Beschreibung des Prominenten.
thumbnailId	Die ID der Miniaturansicht dieses Gesichts.
KnownPersonId	Die interne ID (wenn es sich um eine bekannte Person handelt).
referenceId	Die Bing-ID (wenn es sich um eine Bing-Prominente handelt).
referenceType	Derzeit nur Bing.
Titel	Der Titel (wenn es sich um eine Prominente handelt, z. B. "Microsofts CEO").
imageUrl	Die Bild-URL, wenn es sich um eine Prominente handelt.
Instanzen	Instanzen, in denen das Gesicht im angegebenen Zeitraum angezeigt wurde. Jede Instanz verfügt auch über eine ThumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Schüsse

Name	Beschreibung
id	Die Shot-ID.
keyFrames	Eine Liste der Keyframes innerhalb des Screenshots (jede verfügt über eine ID und eine Liste der Instanzen von Zeitbereichen). Keyframeinstanzen weisen ein ThumbnailId-Feld mit der Miniaturansichts-ID des Keyframes auf.
Instanzen	Eine Liste der Zeitbereiche dieses Screenshots (Aufnahmen haben nur eine Instanz).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

Statistik

Name	Beschreibung
CorrespondenceCount	Anzahl der Korrespondenzen im Video.
WordCount	Die Anzahl der Wörter pro Sprecher.
SpeakerNumberOfFragments	Die Menge der Fragmente, die der Sprecher in einem Video hat.
SpeakerLongestMonolog	Der längste Monolog des Lautsprechers. Wenn der Lautsprecher stille innerhalb des Monologs hat, ist es enthalten. Stille am Anfang und ende des Monologs wird entfernt.
SpeakerTalkToListenRatio	Die Berechnung basiert auf der Zeit, die für den Monolog des Sprechers (ohne die Stille dazwischen) geteilt durch die Gesamtzeit des Videos. Die Zeit wird auf den dritten Dezimalkommapunkt gerundet.

etiketten

Name	Beschreibung
id	Die Bezeichnungs-ID.
Name	Der Bezeichnungsname (z. B. "Computer", "TV").
Sprache	Die Bezeichnungsnamesprache (bei Übersetzung). BCP-47
Instanzen	Eine Liste der Zeitbereiche, in denen diese Bezeichnung angezeigt wurde (eine Bezeichnung kann mehrmals angezeigt werden). Jede Instanz weist ein Konfidenzfeld auf.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Schlüsselwörter

Name	Beschreibung
id	Die Schlüsselwort-ID.
Text	Der Schlüsselworttext.
Vertrauen	Das Erkennungsvertrauen des Schlüsselworts.
Sprache	Die Schlüsselwortsprache (wenn übersetzt).
Instanzen	Eine Liste der Zeitbereiche, in denen dieses Schlüsselwort angezeigt wurde (ein Schlüsselwort kann mehrmals angezeigt werden).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Der visualContentModeration-Block enthält Zeitbereiche, die der Videoindexer für potenziell erwachsene Inhalte gefunden hat. Wenn visualContentModeration leer ist, gibt es keinen erwachsenen Inhalt, der identifiziert wurde.

Videos, die als Erwachsene oder rassige Inhalte gefunden werden, sind möglicherweise nur für die private Ansicht verfügbar. Benutzer können eine Anfrage zur menschlichen Überprüfung des Inhalts einreichen, in diesem Fall enthält das attribut IsAdult das Ergebnis der menschlichen Überprüfung.

Name	Beschreibung
id	Die ID der visuellen Inhaltsmoderation.
adultScore	Die Erwachsenenbewertung (vom Inhaltsmoderator).
racyScore	Die rassige Bewertung (aus der Inhaltsmoderation).
Instanzen	Eine Liste der Zeitbereiche, in denen diese visuelle Inhaltsmoderation angezeigt wurde.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Hilfe und Support erhalten

Sie können media Services mit Fragen kontaktieren oder unsere Updates mit einer der folgenden Methoden befolgen:

Q & A
Stack Overflow. Markieren Sie Fragen mit azure-media-services.
@MSFTAzureMedia oder verwenden Sie @AzureSupport, um Support anzufordern.
Öffnen Sie ein Supportticket über das Azure-Portal.

Freigeben über

Analysieren von Video- und Audiodateien mit Azure Media Services

Compliance, Datenschutz und Sicherheit

Integrierte Voreinstellungen

Unterstützte Sprachen

AudioAnalyzerPreset-Standardmodus

AudioAnalyzerPreset-Standardmodus

VideoAnalyzerPreset

insights.json-Elemente

Abschrift

OCR

Gesichter

Schüsse

Statistik

etiketten

Schlüsselwörter

visualContentModeration

Hilfe und Support erhalten

Zusätzliche Ressourcen