Analyser des fichiers vidéo et audio avec Azure Media Services

Article
03/02/2023

logo

Avertissement

Azure Media Services sera mis hors service le 30 juin 2024. Pour plus d’informations, consultez le guide de mise hors service AMS.

Important

En tant que normes d’IA responsables de Microsoft, Microsoft s’engage à assurer l’équité, la confidentialité, la sécurité et la transparence en ce qui concerne les systèmes IA. Pour s’aligner sur ces normes, Azure Media Services met hors service le préréglage Video Analyzer le 14 septembre 2023. Cette présélection vous permet actuellement d’extraire plusieurs insights vidéo et audio à partir d’un fichier vidéo. Les clients peuvent remplacer leurs flux de travail actuels à l’aide de l’ensemble de fonctionnalités plus avancé proposé par Azure Video Indexer.

Media Services vous permet d’extraire des insights de vos fichiers vidéo et audio à l’aide des présélections d’analyseur audio et vidéo. Cet article décrit les présélections d’analyseur utilisées pour extraire des insights. Si vous souhaitez obtenir des informations plus détaillées à partir de vos vidéos, utilisez le service Azure Video Indexer . Pour comprendre quand utiliser Video Indexer et les présélections d’analyseur Media Services, consultez le document de comparaison .

Il existe deux modes pour la présélection Audio Analyzer, de base et standard. Consultez la description des différences dans le tableau ci-dessous.

Pour analyser votre contenu à l’aide de présélections Media Services v3, vous créez un transform et envoyez un de travail qui utilise l’une de ces présélections : VideoAnalyzerPreset ou AudioAnalyzerPreset.

Note

AudioAnalyzerPreset n’est pas pris en charge si le compte de stockage n’a pas d’accès au réseau public.

Conformité, confidentialité et sécurité

Vous devez vous conformer à toutes les lois applicables dans votre utilisation de Video Indexer, et vous ne pouvez pas utiliser Video Indexer ou tout autre service Azure d’une manière qui enfreint les droits d’autres personnes ou peut être dangereux pour d’autres personnes. Avant de charger des vidéos, y compris toutes les données biométriques, dans le service Video Indexer pour le traitement et le stockage, vous devez disposer de tous les droits appropriés, y compris tous les consentements appropriés, des individus dans la vidéo. Pour en savoir plus sur la conformité, la confidentialité et la sécurité dans Video Indexer, les conditions d’utilisation d’Azure Cognitive Services. Pour connaître les obligations de confidentialité et la gestion de vos données, consultez la déclaration de confidentialité de Microsoft, les conditions services en ligne (« OST ») et (« DPA »). Plus d’informations sur la confidentialité, notamment sur la rétention des données, la suppression/destruction, sont disponibles dans l’OST. En utilisant Video Indexer, vous acceptez d’être lié par les conditions cognitive Services, l’OST, la DPA et la déclaration de confidentialité.

Présélections intégrées

Media Services prend actuellement en charge les présélections d’analyseur intégrées suivantes :

nom prédéfini	scénario / mode	Détails
AudioAnalyzerPreset	Analyse du mode audio standard	La présélection applique un ensemble prédéfini d’opérations d’analyse basées sur l’IA, y compris la transcription vocale. Actuellement, la présélection prend en charge le traitement du contenu avec une seule piste audio qui contient la parole dans une seule langue. Spécifiez la langue de la charge utile audio dans l’entrée à l’aide du format BCP-47 « language tag-region ». Consultez la liste des langues prises en charge ci-dessous pour connaître les codes linguistiques disponibles. La détection automatique de la langue choisit la première langue détectée et continue avec la langue sélectionnée pour l’ensemble du fichier s’il n’est pas défini ou défini sur Null. La fonctionnalité de détection automatique de la langue prend actuellement en charge l’anglais, le chinois, le français, l’allemand, l’italien, le japonais, l’espagnol, le russe et le portugais brésilien. Il ne prend pas en charge le basculement dynamique entre les langues après la détection de la première langue. La fonctionnalité de détection automatique de la langue fonctionne mieux avec les enregistrements audio avec une voix clairement discernable. Si la détection automatique de la langue ne trouve pas la langue, la transcription revient à l’anglais.
AudioAnalyzerPreset	Analyse du mode de base audio	Ce mode prédéfini effectue la transcription vocale en texte et la génération d’un fichier de sous-titre/légende VTT. La sortie de ce mode inclut un fichier JSON Insights incluant uniquement les mots clés, la transcription et les informations de minutage. La détection automatique de la langue et la diarisation du haut-parleur ne sont pas incluses dans ce mode. La liste des langues prises en charge est identique au mode Standard ci-dessus.
VideoAnalyzerPreset	Analyse de l’audio et de la vidéo	Extrait des insights (métadonnées enrichies) à partir de l’audio et de la vidéo, et génère un fichier de format JSON. Vous pouvez spécifier si vous souhaitez uniquement extraire des insights audio lors du traitement d’un fichier vidéo.
FaceDetectorPreset	Détection des visages présents dans la vidéo	Décrit les paramètres à utiliser lors de l’analyse d’une vidéo pour détecter tous les visages présents.

Note

AudioAnalyzerPreset n’est pas pris en charge si le compte de stockage n’a pas d’accès au réseau public.

Langues prises en charge

Arabe ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' et 'ar-SY')
Portugais brésilien ('pt-BR')
Chinois ('zh-CN')
Danois('da-DK')
Anglais ('en-US', 'en-GB' et 'en-AU')
Finnois ('fi-FI')
Français ('fr-FR' et 'fr-CA')
Allemand ('de-DE')
Hébreu (he-IL)
Hindi ('hi-IN'), Coréen ('ko-KR')
Italien ('it-IT')
Japonais ('ja-JP')
Norvégien ('nb-NO')
Persane ('fa-IR')
Portugal Portugais ('pt-PT')
Russe ('ru-RU')
Espagnol ('es-ES' et 'es-MX')
Suédois ('sv-SE')
Thaï ('th-TH')
Turc ('tr-TR')

Note

AudioAnalyzerPreset n’est pas pris en charge si le compte de stockage n’a pas d’accès au réseau public.

Mode standard AudioAnalyzerPreset

La présélection vous permet d’extraire plusieurs insights audio à partir d’un fichier audio ou vidéo.

La sortie inclut un fichier JSON (avec tous les insights) et un fichier VTT pour la transcription audio. Cette présélection accepte une propriété qui spécifie la langue du fichier d’entrée sous la forme d’une chaîne BCP47. Les insights audio sont les suivants :

transcription audio: transcription des mots parlés avec horodatages. Plusieurs langues sont prises en charge.
Mots clés: mots clés extraits de la transcription audio.

Mode de base AudioAnalyzerPreset

La présélection vous permet d’extraire plusieurs insights audio à partir d’un fichier audio ou vidéo.

La sortie inclut un fichier JSON et un fichier VTT pour la transcription audio. Cette présélection accepte une propriété qui spécifie la langue du fichier d’entrée sous la forme d’une chaîne BCP47. La sortie inclut :

transcription audio: transcription des mots parlés avec horodatages. Plusieurs langues sont prises en charge, mais la détection automatique des langues et la diarisation de l’orateur ne sont pas incluses.
Mots clés: mots clés extraits de la transcription audio.

VideoAnalyzerPreset

La présélection vous permet d’extraire plusieurs insights audio et vidéo à partir d’un fichier vidéo. La sortie inclut un fichier JSON (avec tous les insights), un fichier VTT pour la transcription vidéo et une collection de miniatures. Cette présélection accepte également une chaîne BCP47 (représentant la langue de la vidéo) en tant que propriété. Les insights vidéo incluent tous les insights audio mentionnés ci-dessus et les éléments supplémentaires suivants :

suivi des visages: heure pendant laquelle les visages sont présents dans la vidéo. Chaque visage a un ID de visage et une collection correspondante de miniatures.
texte visuel: texte détecté via la reconnaissance optique de caractères. Le texte est horodaté et utilisé pour extraire des mots clés (en plus de la transcription audio).
images clés: collection d’images clés extraites de la vidéo.
modération du contenu visuel: partie des vidéos signalées comme adultes ou racées par nature.
annotation: résultat de l’annotation des vidéos basées sur un modèle objet prédéfini

éléments insights.json

La sortie inclut un fichier JSON (insights.json) avec tous les insights trouvés dans la vidéo ou l’audio. Le json peut contenir les éléments suivants :

transcription

Nom	Description
id	ID de ligne.
SMS	Transcription elle-même.
Langue	Langue de transcription. Destiné à prendre en charge la transcription où chaque ligne peut avoir une langue différente.
Cas	Liste des intervalles de temps où cette ligne apparaît. Si l’instance est transcription, elle n’aura qu’une seule instance.

Exemple:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Nom	Description
id	ID de ligne OCR.
SMS	Texte OCR.
confiance	Confiance de la reconnaissance.
Langue	Langue OCR.
Cas	Liste des intervalles de temps où cette OCR est apparue (la même OCR peut apparaître plusieurs fois).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Visages

Nom	Description
id	ID de visage.
nom	Nom du visage. Il peut s’agir de « Inconnu #0 », d’une célébrité identifiée ou d’une personne formée par le client.
confiance	Confiance de l’identification du visage.
description	Une description de la célébrité.
thumbnailId	ID de la miniature de ce visage.
knownPersonId	ID interne (s’il s’agit d’une personne connue).
referenceId	ID Bing (s’il s’agit d’une célébrité Bing).
referenceType	Actuellement, juste Bing.
titre	Titre (s’il s’agit d’une célébrité, par exemple, « Pdg de Microsoft »).
imageUrl	URL de l’image, s’il s’agit d’une célébrité.
Cas	Instances où le visage apparaît dans l’intervalle de temps donné. Chaque instance a également un miniaturesId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Coups

Nom	Description
id	ID de capture.
images clés	Liste des images clés dans la capture (chacune a un ID et une liste d’intervalles de temps d’instances). Les instances de trames clés ont un champ thumbnailId avec l’ID de miniature du keyFrame.
Cas	Liste des intervalles de temps de cette capture (les captures n’ont qu’une seule instance).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistiques

Nom	Description
CorrespondanceCount	Nombre de correspondances dans la vidéo.
WordCount	Nombre de mots par orateur.
SpeakerNumberOfFragments	Quantité de fragments que l’orateur a dans une vidéo.
SpeakerLongestMonolog	Le monologue le plus long de l’orateur. Si le haut-parleur a des silences à l’intérieur du monolog, il est inclus. Le silence au début et la fin du monolog est supprimé.
SpeakerTalkToListenRatio	Le calcul est basé sur le temps passé sur le monolog de l’orateur (sans le silence entre) divisé par le temps total de la vidéo. L’heure est arrondie au troisième décimale.

Étiquettes

Nom	Description
id	ID d’étiquette.
nom	Nom de l’étiquette (par exemple, « Ordinateur », « TV »).
Langue	Langue du nom de l’étiquette (en cas de traduction). BCP-47
Cas	Liste des intervalles de temps où cette étiquette apparaît (une étiquette peut apparaître plusieurs fois). Chaque instance a un champ de confiance.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Mots-clés

Nom	Description
id	ID de mot clé.
SMS	Texte du mot clé.
confiance	Confiance de la reconnaissance du mot clé.
Langue	Langue du mot clé (en cas de traduction).
Cas	Liste des intervalles de temps où ce mot clé est apparu (un mot clé peut apparaître plusieurs fois).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Le bloc visualContentModeration contient des intervalles de temps que Video Indexer a trouvés pour avoir du contenu adulte. Si visualContentModeration est vide, aucun contenu pour adultes n’a été identifié.

Les vidéos trouvées pour contenir du contenu adulte ou racé peuvent être disponibles uniquement pour une vue privée. Les utilisateurs peuvent soumettre une demande de révision humaine du contenu, auquel cas l’attribut IsAdult contiendra le résultat de la révision humaine.

Nom	Description
id	ID de modération du contenu visuel.
adultScore	Score adulte (de content moderator).
racyScore	Score racé (à partir de la modération du contenu).
Cas	Liste des intervalles de temps où cette modération de contenu visuel s’est produite.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Obtenir de l’aide et du support

Vous pouvez contacter Media Services avec des questions ou suivre nos mises à jour par l’une des méthodes suivantes :

Q & A
Stack Overflow. Étiquetez des questions avec azure-media-services.
@MSFTAzureMedia ou utilisez @AzureSupport pour demander du support.
Ouvrez un ticket de support via le portail Azure.

Partager via

Analyser des fichiers vidéo et audio avec Azure Media Services

Conformité, confidentialité et sécurité

Présélections intégrées

Langues prises en charge

Mode standard AudioAnalyzerPreset

Mode de base AudioAnalyzerPreset

VideoAnalyzerPreset

éléments insights.json

transcription

Ocr

Visages

Coups

statistiques

Étiquettes

Mots-clés

visualContentModeration

Obtenir de l’aide et du support

Ressources supplémentaires