Video- en audiobestanden analyseren met Azure Media Services

Artikel
03/02/2023

Waarschuwing

Azure Media Services wordt op 30 juni 2024 buiten gebruik gesteld. Zie de AMS Retirement Guidevoor meer informatie.

Belangrijk

Zoals de verantwoordelijke AI-standaarden van Microsoft een overzicht geeft, streeft Microsoft naar billijkheid, privacy, beveiliging en transparantie met betrekking tot AI-systemen. Om aan deze standaarden te voldoen, Azure Media Services de vooraf ingestelde Video Analyzer op 14 september 2023buiten gebruik stelt. Met deze voorinstelling kunt u momenteel meerdere video- en audio-inzichten extraheren uit een videobestand. Klanten kunnen hun huidige werkstromen vervangen door de geavanceerdere functieset die wordt aangeboden door Azure Video Indexer-.

Met Media Services kunt u inzichten uit uw video- en audiobestanden extraheren met behulp van de voorinstellingen voor audio- en videoanalyse. In dit artikel worden de vooraf ingestelde analyse-instellingen beschreven die worden gebruikt om inzichten te extraheren. Als u meer gedetailleerde inzichten uit uw video's wilt, gebruikt u de Azure Video Indexer-service. Raadpleeg het vergelijkingsdocumentom te begrijpen wanneer u de vooraf ingestelde instellingen van Video Indexer versus Media Services Analyzer gebruikt.

Er zijn twee modi voor de vooraf ingestelde Audio Analyzer, basic en standaard. Zie de beschrijving van de verschillen in de onderstaande tabel.

Als u uw inhoud wilt analyseren met behulp van voorinstellingen voor Media Services v3, maakt u een Transform en verzendt u een Taak die een van deze voorinstellingen gebruikt: VideoAnalyzerPreset of AudioAnalyzerPreset.

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Naleving, privacy en beveiliging

U moet voldoen aan alle toepasselijke wetten in uw gebruik van Video Indexer en u mag Video Indexer of een andere Azure-service niet gebruiken op een manier die de rechten van anderen schendt of schadelijk kan zijn voor anderen. Voordat u video's, inclusief biometrische gegevens, uploadt naar de Video Indexer-service voor verwerking en opslag, moet u beschikken over alle juiste rechten, inclusief alle juiste toestemmingen, van de personen in de video. De Voorwaarden van Azure Cognitive Servicesvoor meer informatie over naleving, privacy en beveiliging in Video Indexer. Raadpleeg voor de privacyverplichtingen en verwerking van uw gegevens van Microsoft de privacyverklaring van Microsoft, de voorwaarden voor onlineservices ("OST") en Addendum voor gegevensverwerking ("DPA"). Meer privacy-informatie, waaronder over gegevensretentie, verwijdering/vernietiging, is beschikbaar in de OST. Door Video Indexer te gebruiken, stemt u ermee in dat u gebonden bent aan de Voorwaarden van Cognitive Services, de OST, DPA en de privacyverklaring.

Ingebouwde voorinstellingen

Media Services ondersteunt momenteel de volgende ingebouwde analyzer-voorinstellingen:

vooraf ingestelde naam	scenario/modus	details
AudioAnalyzerPreset	De standaardmodus voor audio analyseren	Met de voorinstelling wordt een vooraf gedefinieerde set analysebewerkingen op basis van AI toegepast, waaronder spraaktranscriptie. Momenteel ondersteunt de voorinstelling verwerking van inhoud met één audiospoor dat spraak in één taal bevat. Geef de taal voor de audiopayload op in de invoer met behulp van de BCP-47-indeling van 'language tag-region'. Zie de lijst met ondersteunde talen hieronder voor beschikbare taalcodes. De automatische taaldetectie kiest de eerste gedetecteerde taal en gaat verder met de geselecteerde taal voor het hele bestand als het niet is ingesteld of op null is ingesteld. De functie voor automatische taaldetectie ondersteunt momenteel: Engels, Chinees, Frans, Duits, Italiaans, Japans, Spaans, Russisch en Braziliaans Portugees. Het biedt geen ondersteuning voor dynamisch schakelen tussen talen nadat de eerste taal is gedetecteerd. De functie voor automatische taaldetectie werkt het beste met audio-opnamen met duidelijk te onderscheiden spraak. Als automatische taaldetectie de taal niet kan vinden, valt de transcriptie terug in het Engels.
AudioAnalyzerPreset	Audio Basic-modus analyseren	Deze vooraf ingestelde modus voert spraak-naar-tekst transcriptie uit en het genereren van een VTT-ondertitelingsbestand. De uitvoer van deze modus bevat een Insights JSON-bestand, inclusief alleen de trefwoorden, transcriptie en tijdsinstellingen. Automatische taaldetectie en spreker-diarisatie zijn niet opgenomen in deze modus. De lijst met ondersteunde talen is identiek aan de bovenstaande standaardmodus.
VideoAnalyzerPreset	Audio en video analyseren	Extraheert inzichten (uitgebreide metagegevens) uit zowel audio als video en voert een JSON-indeling uit. U kunt opgeven of u alleen audio-inzichten wilt extraheren bij het verwerken van een videobestand.
FaceDetectorPreset	Gezichten detecteren die aanwezig zijn in video	Beschrijft de instellingen die moeten worden gebruikt bij het analyseren van een video om alle aanwezige gezichten te detecteren.

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Ondersteunde talen

Arabisch ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' en 'ar-SY')
Braziliaans Portugees ('pt-BR')
Chinees ('zh-CN')
Deens('da-DK')
Engels ('en-US', 'en-GB' en 'en-AU')
Fins ('fi-FI')
Frans ('fr-FR' en 'fr-CA')
Duits ('de-DE')
Hebreeuws (he-IL)
Hindi ('hi-IN'), Koreaans ('ko-KR')
Italiaans ('it-IT')
Japans ('ja-JP')
Noors ('nb-NO')
Perzisch ('fa-IR')
Portugal Portugees ('pt-PT')
Russisch ('ru-RU')
Spaans ('es-ES' en 'es-MX')
Zweeds ('sv-SE')
Thais ('th-TH')
Turks ('tr-TR')

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Standaardmodus AudioAnalyzerPreset

Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.

De uitvoer bevat een JSON-bestand (met alle inzichten) en VTT-bestand voor het audiotranscriptie. Deze voorinstelling accepteert een eigenschap waarmee de taal van het invoerbestand wordt opgegeven in de vorm van een BCP47 tekenreeks. De audio-inzichten zijn onder andere:

audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund.
trefwoorden: trefwoorden die zijn geëxtraheerd uit de audiotranscriptie.

Basismodus AudioAnalyzerPreset

Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.

De uitvoer bevat een JSON-bestand en VTT-bestand voor het audiotranscriptie. Deze voorinstelling accepteert een eigenschap waarmee de taal van het invoerbestand wordt opgegeven in de vorm van een BCP47 tekenreeks. De uitvoer omvat:

audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund, maar automatische taaldetectie en spreker-diarisatie zijn niet opgenomen.
trefwoorden: trefwoorden die zijn geëxtraheerd uit de audiotranscriptie.

VideoAnalyzerPreset

Met de voorinstelling kunt u meerdere audio- en video-inzichten extraheren uit een videobestand. De uitvoer bevat een JSON-bestand (met alle inzichten), een VTT-bestand voor de videotranscriptie en een verzameling miniaturen. Deze voorinstelling accepteert ook een BCP47 tekenreeks (die de taal van de video vertegenwoordigt) als eigenschap. De video-inzichten omvatten alle hierboven genoemde audio-inzichten en de volgende extra items:

gezichtstracking: de tijd waarin gezichten aanwezig zijn in de video. Elk gezicht heeft een gezichts-id en een bijbehorende verzameling miniaturen.
visuele tekst: de tekst die wordt gedetecteerd via optische tekenherkenning. De tekst is een tijdstempel en wordt ook gebruikt om trefwoorden te extraheren (naast het audiotranscriptie).
Keyframes: een verzameling sleutelframes die zijn geëxtraheerd uit de video.
visuele inhoudsbeheer: het gedeelte van de video's dat is gemarkeerd als volwassen of ongepast in de natuur.
Aantekening: Een resultaat van het toevoegen van aantekeningen aan de video's op basis van een vooraf gedefinieerd objectmodel

insights.json elementen

De uitvoer bevat een JSON-bestand (insights.json) met alle inzichten in de video of audio. De JSON kan de volgende elementen bevatten:

afschrift

Naam	Beschrijving
legitimatiebewijs	De regel-id.
Sms	Het transcript zelf.
Taal	De transcripttaal. Bedoeld ter ondersteuning van transcriptie waarbij elke regel een andere taal kan hebben.
Exemplaren	Een lijst met tijdsbereiken waarin deze regel werd weergegeven. Als het exemplaar transcriptie is, heeft het slechts één exemplaar.

Voorbeeld:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Naam	Beschrijving
legitimatiebewijs	De OCR-regel-id.
Sms	De OCR-tekst.
vertrouwen	Het herkenningsvertrouwen.
Taal	De OCR-taal.
Exemplaren	Een lijst met tijdsbereiken waarin deze OCR werd weergegeven (dezelfde OCR kan meerdere keren worden weergegeven).

"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Gezichten

Naam	Beschrijving
legitimatiebewijs	De gezichts-id.
naam	De naam van het gezicht. Het kan 'Onbekend #0', een geïdentificeerde beroemdheid of een getrainde persoon van een klant zijn.
vertrouwen	Het vertrouwen van gezichtsidentificatie.
beschrijving	Een beschrijving van de beroemdheid.
thumbnailId	De id van de miniatuur van dat gezicht.
knownPersonId	De interne id (als het een bekende persoon is).
referenceId	De Bing-id (als het een Bing-beroemdheid is).
referenceType	Momenteel alleen Bing.
titel	De titel (als het een beroemdheid is, bijvoorbeeld 'Ceo van Microsoft').
imageUrl	De afbeeldings-URL, als het een beroemdheid is.
Exemplaren	Exemplaren waarin het gezicht in het opgegeven tijdsbereik werd weergegeven. Elk exemplaar heeft ook een thumbnailsId.

"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Shots

Naam	Beschrijving
legitimatiebewijs	De schot-id.
keyFrames	Een lijst met sleutelframes binnen de opname (elk heeft een id en een lijst met tijdsbereiken van exemplaren). Sleutelframeexemplaren hebben een thumbnailId-veld met de miniatuur-id van het keyFrame.
Exemplaren	Een lijst met tijdsbereiken van deze opname (shots hebben slechts één exemplaar).

"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistiek

Naam	Beschrijving
CorrespondentieAantal	Aantal correspondenties in de video.
WordCount	Het aantal woorden per spreker.
SpeakerNumberOfFragments	De hoeveelheid fragmenten die de spreker in een video heeft.
SpeakerLongestMonolog	De langste monolog van de luidspreker. Als de spreker stiltes in de monolog heeft, wordt deze opgenomen. Stilte aan het begin en het einde van de monolog wordt verwijderd.
SpeakerTalkToListenRatio	De berekening is gebaseerd op de tijd die is besteed aan de monolog van de spreker (zonder de stilte ertussen) gedeeld door de totale tijd van de video. De tijd wordt afgerond op het derde decimaalteken.

labels

Naam	Beschrijving
legitimatiebewijs	De label-id.
naam	De labelnaam (bijvoorbeeld 'Computer', 'TV').
Taal	De labelnaamtaal (wanneer vertaald). BCP-47
Exemplaren	Een lijst met tijdsbereiken waarin dit label werd weergegeven (een label kan meerdere keren worden weergegeven). Elk exemplaar heeft een betrouwbaarheidsveld.

"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Zoekwoorden

Naam	Beschrijving
legitimatiebewijs	De trefwoord-id.
Sms	De trefwoordtekst.
vertrouwen	Het vertrouwen van de herkenning van het trefwoord.
Taal	De trefwoordtaal (wanneer vertaald).
Exemplaren	Een lijst met tijdsbereiken waarin dit trefwoord wordt weergegeven (een trefwoord kan meerdere keren worden weergegeven).

"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Het visualContentModeration-blok bevat tijdsbereiken die Video Indexer heeft gevonden om mogelijk inhoud voor volwassenen te hebben. Als visualContentModeration leeg is, is er geen inhoud voor volwassenen geïdentificeerd.

Video's die inhoud voor volwassenen of ongepaste inhoud bevatten, zijn mogelijk alleen beschikbaar voor privéweergave. Gebruikers kunnen een aanvraag indienen voor een menselijke beoordeling van de inhoud. In dat geval bevat het kenmerk IsAdult het resultaat van de menselijke beoordeling.

Naam	Beschrijving
legitimatiebewijs	De beheer-id voor visuele inhoud.
adultScore	De score voor volwassenen (van content moderator).
racyScore	De ongepaste score (van inhoudsbeheer).
Exemplaren	Een lijst met tijdsbereiken waarin dit beheer van visuele inhoud werd weergegeven.

"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Hulp en ondersteuning krijgen

U kunt contact opnemen met Media Services met vragen of onze updates volgen op een van de volgende manieren:

Q & A-
Stack Overflow-. Tag vragen met azure-media-services.
@MSFTAzureMedia of @AzureSupport gebruiken om ondersteuning aan te vragen.
Open een ondersteuningsticket via Azure Portal.

Delen via

Video- en audiobestanden analyseren met Azure Media Services

Naleving, privacy en beveiliging

Ingebouwde voorinstellingen

Ondersteunde talen

Standaardmodus AudioAnalyzerPreset

Basismodus AudioAnalyzerPreset

VideoAnalyzerPreset

insights.json elementen

afschrift

Ocr

Gezichten

Shots

statistiek

labels

Zoekwoorden

visualContentModeration

Hulp en ondersteuning krijgen

Aanvullende resources