Delen via


Video- en audiobestanden analyseren met Azure Media Services

Media Services-logo v3


Waarschuwing

Azure Media Services wordt op 30 juni 2024 buiten gebruik gesteld. Zie de AMS Retirement Guidevoor meer informatie.

Belangrijk

Zoals de verantwoordelijke AI-standaarden van Microsoft een overzicht geeft, streeft Microsoft naar billijkheid, privacy, beveiliging en transparantie met betrekking tot AI-systemen. Om aan deze standaarden te voldoen, Azure Media Services de vooraf ingestelde Video Analyzer op 14 september 2023buiten gebruik stelt. Met deze voorinstelling kunt u momenteel meerdere video- en audio-inzichten extraheren uit een videobestand. Klanten kunnen hun huidige werkstromen vervangen door de geavanceerdere functieset die wordt aangeboden door Azure Video Indexer-.

Met Media Services kunt u inzichten uit uw video- en audiobestanden extraheren met behulp van de voorinstellingen voor audio- en videoanalyse. In dit artikel worden de vooraf ingestelde analyse-instellingen beschreven die worden gebruikt om inzichten te extraheren. Als u meer gedetailleerde inzichten uit uw video's wilt, gebruikt u de Azure Video Indexer-service. Raadpleeg het vergelijkingsdocumentom te begrijpen wanneer u de vooraf ingestelde instellingen van Video Indexer versus Media Services Analyzer gebruikt.

Er zijn twee modi voor de vooraf ingestelde Audio Analyzer, basic en standaard. Zie de beschrijving van de verschillen in de onderstaande tabel.

Als u uw inhoud wilt analyseren met behulp van voorinstellingen voor Media Services v3, maakt u een Transform en verzendt u een Taak die een van deze voorinstellingen gebruikt: VideoAnalyzerPreset of AudioAnalyzerPreset.

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Naleving, privacy en beveiliging

U moet voldoen aan alle toepasselijke wetten in uw gebruik van Video Indexer en u mag Video Indexer of een andere Azure-service niet gebruiken op een manier die de rechten van anderen schendt of schadelijk kan zijn voor anderen. Voordat u video's, inclusief biometrische gegevens, uploadt naar de Video Indexer-service voor verwerking en opslag, moet u beschikken over alle juiste rechten, inclusief alle juiste toestemmingen, van de personen in de video. De Voorwaarden van Azure Cognitive Servicesvoor meer informatie over naleving, privacy en beveiliging in Video Indexer. Raadpleeg voor de privacyverplichtingen en verwerking van uw gegevens van Microsoft de privacyverklaring van Microsoft, de voorwaarden voor onlineservices ("OST") en Addendum voor gegevensverwerking ("DPA"). Meer privacy-informatie, waaronder over gegevensretentie, verwijdering/vernietiging, is beschikbaar in de OST. Door Video Indexer te gebruiken, stemt u ermee in dat u gebonden bent aan de Voorwaarden van Cognitive Services, de OST, DPA en de privacyverklaring.

Ingebouwde voorinstellingen

Media Services ondersteunt momenteel de volgende ingebouwde analyzer-voorinstellingen:

vooraf ingestelde naam scenario/modus details
AudioAnalyzerPreset De standaardmodus voor audio analyseren Met de voorinstelling wordt een vooraf gedefinieerde set analysebewerkingen op basis van AI toegepast, waaronder spraaktranscriptie. Momenteel ondersteunt de voorinstelling verwerking van inhoud met één audiospoor dat spraak in één taal bevat. Geef de taal voor de audiopayload op in de invoer met behulp van de BCP-47-indeling van 'language tag-region'. Zie de lijst met ondersteunde talen hieronder voor beschikbare taalcodes. De automatische taaldetectie kiest de eerste gedetecteerde taal en gaat verder met de geselecteerde taal voor het hele bestand als het niet is ingesteld of op null is ingesteld. De functie voor automatische taaldetectie ondersteunt momenteel: Engels, Chinees, Frans, Duits, Italiaans, Japans, Spaans, Russisch en Braziliaans Portugees. Het biedt geen ondersteuning voor dynamisch schakelen tussen talen nadat de eerste taal is gedetecteerd. De functie voor automatische taaldetectie werkt het beste met audio-opnamen met duidelijk te onderscheiden spraak. Als automatische taaldetectie de taal niet kan vinden, valt de transcriptie terug in het Engels.
AudioAnalyzerPreset Audio Basic-modus analyseren Deze vooraf ingestelde modus voert spraak-naar-tekst transcriptie uit en het genereren van een VTT-ondertitelingsbestand. De uitvoer van deze modus bevat een Insights JSON-bestand, inclusief alleen de trefwoorden, transcriptie en tijdsinstellingen. Automatische taaldetectie en spreker-diarisatie zijn niet opgenomen in deze modus. De lijst met ondersteunde talen is identiek aan de bovenstaande standaardmodus.
VideoAnalyzerPreset Audio en video analyseren Extraheert inzichten (uitgebreide metagegevens) uit zowel audio als video en voert een JSON-indeling uit. U kunt opgeven of u alleen audio-inzichten wilt extraheren bij het verwerken van een videobestand.
FaceDetectorPreset Gezichten detecteren die aanwezig zijn in video Beschrijft de instellingen die moeten worden gebruikt bij het analyseren van een video om alle aanwezige gezichten te detecteren.

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Ondersteunde talen

  • Arabisch ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' en 'ar-SY')
  • Braziliaans Portugees ('pt-BR')
  • Chinees ('zh-CN')
  • Deens('da-DK')
  • Engels ('en-US', 'en-GB' en 'en-AU')
  • Fins ('fi-FI')
  • Frans ('fr-FR' en 'fr-CA')
  • Duits ('de-DE')
  • Hebreeuws (he-IL)
  • Hindi ('hi-IN'), Koreaans ('ko-KR')
  • Italiaans ('it-IT')
  • Japans ('ja-JP')
  • Noors ('nb-NO')
  • Perzisch ('fa-IR')
  • Portugal Portugees ('pt-PT')
  • Russisch ('ru-RU')
  • Spaans ('es-ES' en 'es-MX')
  • Zweeds ('sv-SE')
  • Thais ('th-TH')
  • Turks ('tr-TR')

Notitie

AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.

Standaardmodus AudioAnalyzerPreset

Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.

De uitvoer bevat een JSON-bestand (met alle inzichten) en VTT-bestand voor het audiotranscriptie. Deze voorinstelling accepteert een eigenschap waarmee de taal van het invoerbestand wordt opgegeven in de vorm van een BCP47 tekenreeks. De audio-inzichten zijn onder andere:

  • audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund.
  • trefwoorden: trefwoorden die zijn geëxtraheerd uit de audiotranscriptie.

Basismodus AudioAnalyzerPreset

Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.

De uitvoer bevat een JSON-bestand en VTT-bestand voor het audiotranscriptie. Deze voorinstelling accepteert een eigenschap waarmee de taal van het invoerbestand wordt opgegeven in de vorm van een BCP47 tekenreeks. De uitvoer omvat:

  • audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund, maar automatische taaldetectie en spreker-diarisatie zijn niet opgenomen.
  • trefwoorden: trefwoorden die zijn geëxtraheerd uit de audiotranscriptie.

VideoAnalyzerPreset

Met de voorinstelling kunt u meerdere audio- en video-inzichten extraheren uit een videobestand. De uitvoer bevat een JSON-bestand (met alle inzichten), een VTT-bestand voor de videotranscriptie en een verzameling miniaturen. Deze voorinstelling accepteert ook een BCP47 tekenreeks (die de taal van de video vertegenwoordigt) als eigenschap. De video-inzichten omvatten alle hierboven genoemde audio-inzichten en de volgende extra items:

  • gezichtstracking: de tijd waarin gezichten aanwezig zijn in de video. Elk gezicht heeft een gezichts-id en een bijbehorende verzameling miniaturen.
  • visuele tekst: de tekst die wordt gedetecteerd via optische tekenherkenning. De tekst is een tijdstempel en wordt ook gebruikt om trefwoorden te extraheren (naast het audiotranscriptie).
  • Keyframes: een verzameling sleutelframes die zijn geëxtraheerd uit de video.
  • visuele inhoudsbeheer: het gedeelte van de video's dat is gemarkeerd als volwassen of ongepast in de natuur.
  • Aantekening: Een resultaat van het toevoegen van aantekeningen aan de video's op basis van een vooraf gedefinieerd objectmodel

insights.json elementen

De uitvoer bevat een JSON-bestand (insights.json) met alle inzichten in de video of audio. De JSON kan de volgende elementen bevatten:

afschrift

Naam Beschrijving
legitimatiebewijs De regel-id.
Sms Het transcript zelf.
Taal De transcripttaal. Bedoeld ter ondersteuning van transcriptie waarbij elke regel een andere taal kan hebben.
Exemplaren Een lijst met tijdsbereiken waarin deze regel werd weergegeven. Als het exemplaar transcriptie is, heeft het slechts één exemplaar.

Voorbeeld:

"transcript": [
{
    "id": 0,
    "text": "Hi I'm Doug from office.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    }
    ]
},
{
    "id": 1,
    "text": "I have a guest. It's Michelle.",
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:02.7200000",
        "end": "00:00:03.9600000"
    }
    ]
}
]

Ocr

Naam Beschrijving
legitimatiebewijs De OCR-regel-id.
Sms De OCR-tekst.
vertrouwen Het herkenningsvertrouwen.
Taal De OCR-taal.
Exemplaren Een lijst met tijdsbereiken waarin deze OCR werd weergegeven (dezelfde OCR kan meerdere keren worden weergegeven).
"ocr": [
    {
      "id": 0,
      "text": "LIVE FROM NEW YORK",
      "confidence": 0.91,
      "language": "en-US",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:52"
        }
      ]
    },
    {
      "id": 1,
      "text": "NOTICIAS EN VIVO",
      "confidence": 0.9,
      "language": "es-ES",
      "instances": [
        {
          "start": "00:00:26",
          "end": "00:00:28"
        },
        {
          "start": "00:00:32",
          "end": "00:00:38"
        }
      ]
    }
  ],

Gezichten

Naam Beschrijving
legitimatiebewijs De gezichts-id.
naam De naam van het gezicht. Het kan 'Onbekend #0', een geïdentificeerde beroemdheid of een getrainde persoon van een klant zijn.
vertrouwen Het vertrouwen van gezichtsidentificatie.
beschrijving Een beschrijving van de beroemdheid.
thumbnailId De id van de miniatuur van dat gezicht.
knownPersonId De interne id (als het een bekende persoon is).
referenceId De Bing-id (als het een Bing-beroemdheid is).
referenceType Momenteel alleen Bing.
titel De titel (als het een beroemdheid is, bijvoorbeeld 'Ceo van Microsoft').
imageUrl De afbeeldings-URL, als het een beroemdheid is.
Exemplaren Exemplaren waarin het gezicht in het opgegeven tijdsbereik werd weergegeven. Elk exemplaar heeft ook een thumbnailsId.
"faces": [{
	"id": 2002,
	"name": "Xam 007",
	"confidence": 0.93844,
	"description": null,
	"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
	"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
	"referenceId": null,
	"title": null,
	"imageUrl": null,
	"instances": [{
		"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
		"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
		"adjustedStart": "00:00:07.2400000",
		"adjustedEnd": "00:00:45.6780000",
		"start": "00:00:07.2400000",
		"end": "00:00:45.6780000"
	},
	{
		"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
		"adjustedStart": "00:10:23.9570000",
		"adjustedEnd": "00:10:39.2390000",
		"start": "00:10:23.9570000",
		"end": "00:10:39.2390000"
	}]
}]

Shots

Naam Beschrijving
legitimatiebewijs De schot-id.
keyFrames Een lijst met sleutelframes binnen de opname (elk heeft een id en een lijst met tijdsbereiken van exemplaren). Sleutelframeexemplaren hebben een thumbnailId-veld met de miniatuur-id van het keyFrame.
Exemplaren Een lijst met tijdsbereiken van deze opname (shots hebben slechts één exemplaar).
"Shots": [
    {
      "id": 0,
      "keyFrames": [
        {
          "id": 0,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 00.1670000",
              "end": "00: 00: 00.2000000"
            }
          ]
        }
      ],
      "instances": [
        {
	        "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 00.2000000",
          "end": "00: 00: 05.0330000"
        }
      ]
    },
    {
      "id": 1,
      "keyFrames": [
        {
          "id": 1,
          "instances": [
            {
	            "thumbnailId": "00000000-0000-0000-0000-000000000000",
              "start": "00: 00: 05.2670000",
              "end": "00: 00: 05.3000000"
            }
          ]
        }
      ],
      "instances": [
        {
          "thumbnailId": "00000000-0000-0000-0000-000000000000",
          "start": "00: 00: 05.2670000",
          "end": "00: 00: 10.3000000"
        }
      ]
    }
  ]

statistiek

Naam Beschrijving
CorrespondentieAantal Aantal correspondenties in de video.
WordCount Het aantal woorden per spreker.
SpeakerNumberOfFragments De hoeveelheid fragmenten die de spreker in een video heeft.
SpeakerLongestMonolog De langste monolog van de luidspreker. Als de spreker stiltes in de monolog heeft, wordt deze opgenomen. Stilte aan het begin en het einde van de monolog wordt verwijderd.
SpeakerTalkToListenRatio De berekening is gebaseerd op de tijd die is besteed aan de monolog van de spreker (zonder de stilte ertussen) gedeeld door de totale tijd van de video. De tijd wordt afgerond op het derde decimaalteken.

labels

Naam Beschrijving
legitimatiebewijs De label-id.
naam De labelnaam (bijvoorbeeld 'Computer', 'TV').
Taal De labelnaamtaal (wanneer vertaald). BCP-47
Exemplaren Een lijst met tijdsbereiken waarin dit label werd weergegeven (een label kan meerdere keren worden weergegeven). Elk exemplaar heeft een betrouwbaarheidsveld.
"labels": [
    {
      "id": 0,
      "name": "person",
      "language": "en-US",
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 00.0000000",
          "end": "00: 00: 25.6000000"
        },
        {
          "confidence": 1.0,
          "start": "00: 01: 33.8670000",
          "end": "00: 01: 39.2000000"
        }
      ]
    },
    {
      "name": "indoor",
      "language": "en-US",
      "id": 1,
      "instances": [
        {
          "confidence": 1.0,
          "start": "00: 00: 06.4000000",
          "end": "00: 00: 07.4670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 09.6000000",
          "end": "00: 00: 10.6670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 11.7330000",
          "end": "00: 00: 20.2670000"
        },
        {
          "confidence": 1.0,
          "start": "00: 00: 21.3330000",
          "end": "00: 00: 25.6000000"
        }
      ]
    }
  ]

Zoekwoorden

Naam Beschrijving
legitimatiebewijs De trefwoord-id.
Sms De trefwoordtekst.
vertrouwen Het vertrouwen van de herkenning van het trefwoord.
Taal De trefwoordtaal (wanneer vertaald).
Exemplaren Een lijst met tijdsbereiken waarin dit trefwoord wordt weergegeven (een trefwoord kan meerdere keren worden weergegeven).
"keywords": [
{
    "id": 0,
    "text": "office",
    "confidence": 1.6666666666666667,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:00.5100000",
        "end": "00:00:02.7200000"
    },
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    }
    ]
},
{
    "id": 1,
    "text": "icons",
    "confidence": 1.4,
    "language": "en-US",
    "instances": [
    {
        "start": "00:00:03.9600000",
        "end": "00:00:12.2700000"
    },
    {
        "start": "00:00:13.9900000",
        "end": "00:00:15.6100000"
    }
    ]
}
]

visualContentModeration

Het visualContentModeration-blok bevat tijdsbereiken die Video Indexer heeft gevonden om mogelijk inhoud voor volwassenen te hebben. Als visualContentModeration leeg is, is er geen inhoud voor volwassenen geïdentificeerd.

Video's die inhoud voor volwassenen of ongepaste inhoud bevatten, zijn mogelijk alleen beschikbaar voor privéweergave. Gebruikers kunnen een aanvraag indienen voor een menselijke beoordeling van de inhoud. In dat geval bevat het kenmerk IsAdult het resultaat van de menselijke beoordeling.

Naam Beschrijving
legitimatiebewijs De beheer-id voor visuele inhoud.
adultScore De score voor volwassenen (van content moderator).
racyScore De ongepaste score (van inhoudsbeheer).
Exemplaren Een lijst met tijdsbereiken waarin dit beheer van visuele inhoud werd weergegeven.
"VisualContentModeration": [
{
    "id": 0,
    "adultScore": 0.00069,
    "racyScore": 0.91129,
    "instances": [
    {
        "start": "00:00:25.4840000",
        "end": "00:00:25.5260000"
    }
    ]
},
{
    "id": 1,
    "adultScore": 0.99231,
    "racyScore": 0.99912,
    "instances": [
    {
        "start": "00:00:35.5360000",
        "end": "00:00:35.5780000"
    }
    ]
}
]

Hulp en ondersteuning krijgen

U kunt contact opnemen met Media Services met vragen of onze updates volgen op een van de volgende manieren: