Video- en audiobestanden analyseren met Azure Media Services
Waarschuwing
Azure Media Services wordt op 30 juni 2024 buiten gebruik gesteld. Zie de AMS Retirement Guidevoor meer informatie.
Belangrijk
Zoals de verantwoordelijke AI-standaarden van Microsoft een overzicht geeft, streeft Microsoft naar billijkheid, privacy, beveiliging en transparantie met betrekking tot AI-systemen. Om aan deze standaarden te voldoen,
Met Media Services kunt u inzichten uit uw video- en audiobestanden extraheren met behulp van de voorinstellingen voor audio- en videoanalyse. In dit artikel worden de vooraf ingestelde analyse-instellingen beschreven die worden gebruikt om inzichten te extraheren. Als u meer gedetailleerde inzichten uit uw video's wilt, gebruikt u de Azure Video Indexer-service. Raadpleeg het vergelijkingsdocumentom te begrijpen wanneer u de vooraf ingestelde instellingen van Video Indexer versus Media Services Analyzer gebruikt.
Er zijn twee modi voor de vooraf ingestelde Audio Analyzer, basic en standaard. Zie de beschrijving van de verschillen in de onderstaande tabel.
Als u uw inhoud wilt analyseren met behulp van voorinstellingen voor Media Services v3, maakt u een Transform en verzendt u een Taak die een van deze voorinstellingen gebruikt: VideoAnalyzerPreset of AudioAnalyzerPreset.
Notitie
AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.
Naleving, privacy en beveiliging
U moet voldoen aan alle toepasselijke wetten in uw gebruik van Video Indexer en u mag Video Indexer of een andere Azure-service niet gebruiken op een manier die de rechten van anderen schendt of schadelijk kan zijn voor anderen. Voordat u video's, inclusief biometrische gegevens, uploadt naar de Video Indexer-service voor verwerking en opslag, moet u beschikken over alle juiste rechten, inclusief alle juiste toestemmingen, van de personen in de video. De Voorwaarden van Azure Cognitive Servicesvoor meer informatie over naleving, privacy en beveiliging in Video Indexer. Raadpleeg voor de privacyverplichtingen en verwerking van uw gegevens van Microsoft de privacyverklaring van Microsoft, de voorwaarden voor onlineservices ("OST") en Addendum voor gegevensverwerking ("DPA"). Meer privacy-informatie, waaronder over gegevensretentie, verwijdering/vernietiging, is beschikbaar in de OST. Door Video Indexer te gebruiken, stemt u ermee in dat u gebonden bent aan de Voorwaarden van Cognitive Services, de OST, DPA en de privacyverklaring.
Ingebouwde voorinstellingen
Media Services ondersteunt momenteel de volgende ingebouwde analyzer-voorinstellingen:
vooraf ingestelde naam | scenario/modus | details |
---|---|---|
AudioAnalyzerPreset | De standaardmodus voor audio analyseren | Met de voorinstelling wordt een vooraf gedefinieerde set analysebewerkingen op basis van AI toegepast, waaronder spraaktranscriptie. Momenteel ondersteunt de voorinstelling verwerking van inhoud met één audiospoor dat spraak in één taal bevat. Geef de taal voor de audiopayload op in de invoer met behulp van de BCP-47-indeling van 'language tag-region'. Zie de lijst met ondersteunde talen hieronder voor beschikbare taalcodes. De automatische taaldetectie kiest de eerste gedetecteerde taal en gaat verder met de geselecteerde taal voor het hele bestand als het niet is ingesteld of op null is ingesteld. De functie voor automatische taaldetectie ondersteunt momenteel: Engels, Chinees, Frans, Duits, Italiaans, Japans, Spaans, Russisch en Braziliaans Portugees. Het biedt geen ondersteuning voor dynamisch schakelen tussen talen nadat de eerste taal is gedetecteerd. De functie voor automatische taaldetectie werkt het beste met audio-opnamen met duidelijk te onderscheiden spraak. Als automatische taaldetectie de taal niet kan vinden, valt de transcriptie terug in het Engels. |
AudioAnalyzerPreset | Audio Basic-modus analyseren | Deze vooraf ingestelde modus voert spraak-naar-tekst transcriptie uit en het genereren van een VTT-ondertitelingsbestand. De uitvoer van deze modus bevat een Insights JSON-bestand, inclusief alleen de trefwoorden, transcriptie en tijdsinstellingen. Automatische taaldetectie en spreker-diarisatie zijn niet opgenomen in deze modus. De lijst met ondersteunde talen is identiek aan de bovenstaande standaardmodus. |
VideoAnalyzerPreset | Audio en video analyseren | Extraheert inzichten (uitgebreide metagegevens) uit zowel audio als video en voert een JSON-indeling uit. U kunt opgeven of u alleen audio-inzichten wilt extraheren bij het verwerken van een videobestand. |
FaceDetectorPreset | Gezichten detecteren die aanwezig zijn in video | Beschrijft de instellingen die moeten worden gebruikt bij het analyseren van een video om alle aanwezige gezichten te detecteren. |
Notitie
AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.
Ondersteunde talen
- Arabisch ('ar-BH', 'ar-EG', 'ar-IQ', 'ar-JO', 'ar-KW', 'ar-LB', 'ar-OM', 'ar-QA', 'ar-SA' en 'ar-SY')
- Braziliaans Portugees ('pt-BR')
- Chinees ('zh-CN')
- Deens('da-DK')
- Engels ('en-US', 'en-GB' en 'en-AU')
- Fins ('fi-FI')
- Frans ('fr-FR' en 'fr-CA')
- Duits ('de-DE')
- Hebreeuws (he-IL)
- Hindi ('hi-IN'), Koreaans ('ko-KR')
- Italiaans ('it-IT')
- Japans ('ja-JP')
- Noors ('nb-NO')
- Perzisch ('fa-IR')
- Portugal Portugees ('pt-PT')
- Russisch ('ru-RU')
- Spaans ('es-ES' en 'es-MX')
- Zweeds ('sv-SE')
- Thais ('th-TH')
- Turks ('tr-TR')
Notitie
AudioAnalyzerPreset wordt niet ondersteund als het opslagaccount geen openbare netwerktoegang heeft.
Standaardmodus AudioAnalyzerPreset
Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.
De uitvoer bevat een JSON-bestand (met alle inzichten) en VTT-bestand voor het audiotranscriptie. Deze voorinstelling accepteert een eigenschap waarmee de taal van het invoerbestand wordt opgegeven in de vorm van een BCP47 tekenreeks. De audio-inzichten zijn onder andere:
- audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund.
- trefwoorden: trefwoorden die zijn geëxtraheerd uit de audiotranscriptie.
Basismodus AudioAnalyzerPreset
Met de voorinstelling kunt u meerdere audio-inzichten extraheren uit een audio- of videobestand.
De uitvoer bevat een JSON-bestand en VTT-bestand voor het audiotranscriptie. Deze voorinstelling accepteert een eigenschap waarmee de taal van het invoerbestand wordt opgegeven in de vorm van een BCP47 tekenreeks. De uitvoer omvat:
- audiotranscriptie: een transcriptie van de gesproken woorden met tijdstempels. Er worden meerdere talen ondersteund, maar automatische taaldetectie en spreker-diarisatie zijn niet opgenomen.
- trefwoorden: trefwoorden die zijn geëxtraheerd uit de audiotranscriptie.
VideoAnalyzerPreset
Met de voorinstelling kunt u meerdere audio- en video-inzichten extraheren uit een videobestand. De uitvoer bevat een JSON-bestand (met alle inzichten), een VTT-bestand voor de videotranscriptie en een verzameling miniaturen. Deze voorinstelling accepteert ook een BCP47 tekenreeks (die de taal van de video vertegenwoordigt) als eigenschap. De video-inzichten omvatten alle hierboven genoemde audio-inzichten en de volgende extra items:
- gezichtstracking: de tijd waarin gezichten aanwezig zijn in de video. Elk gezicht heeft een gezichts-id en een bijbehorende verzameling miniaturen.
- visuele tekst: de tekst die wordt gedetecteerd via optische tekenherkenning. De tekst is een tijdstempel en wordt ook gebruikt om trefwoorden te extraheren (naast het audiotranscriptie).
- Keyframes: een verzameling sleutelframes die zijn geëxtraheerd uit de video.
- visuele inhoudsbeheer: het gedeelte van de video's dat is gemarkeerd als volwassen of ongepast in de natuur.
- Aantekening: Een resultaat van het toevoegen van aantekeningen aan de video's op basis van een vooraf gedefinieerd objectmodel
insights.json elementen
De uitvoer bevat een JSON-bestand (insights.json) met alle inzichten in de video of audio. De JSON kan de volgende elementen bevatten:
afschrift
Naam | Beschrijving |
---|---|
legitimatiebewijs | De regel-id. |
Sms | Het transcript zelf. |
Taal | De transcripttaal. Bedoeld ter ondersteuning van transcriptie waarbij elke regel een andere taal kan hebben. |
Exemplaren | Een lijst met tijdsbereiken waarin deze regel werd weergegeven. Als het exemplaar transcriptie is, heeft het slechts één exemplaar. |
Voorbeeld:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Naam | Beschrijving |
---|---|
legitimatiebewijs | De OCR-regel-id. |
Sms | De OCR-tekst. |
vertrouwen | Het herkenningsvertrouwen. |
Taal | De OCR-taal. |
Exemplaren | Een lijst met tijdsbereiken waarin deze OCR werd weergegeven (dezelfde OCR kan meerdere keren worden weergegeven). |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
Gezichten
Naam | Beschrijving |
---|---|
legitimatiebewijs | De gezichts-id. |
naam | De naam van het gezicht. Het kan 'Onbekend #0', een geïdentificeerde beroemdheid of een getrainde persoon van een klant zijn. |
vertrouwen | Het vertrouwen van gezichtsidentificatie. |
beschrijving | Een beschrijving van de beroemdheid. |
thumbnailId | De id van de miniatuur van dat gezicht. |
knownPersonId | De interne id (als het een bekende persoon is). |
referenceId | De Bing-id (als het een Bing-beroemdheid is). |
referenceType | Momenteel alleen Bing. |
titel | De titel (als het een beroemdheid is, bijvoorbeeld 'Ceo van Microsoft'). |
imageUrl | De afbeeldings-URL, als het een beroemdheid is. |
Exemplaren | Exemplaren waarin het gezicht in het opgegeven tijdsbereik werd weergegeven. Elk exemplaar heeft ook een thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
Shots
Naam | Beschrijving |
---|---|
legitimatiebewijs | De schot-id. |
keyFrames | Een lijst met sleutelframes binnen de opname (elk heeft een id en een lijst met tijdsbereiken van exemplaren). Sleutelframeexemplaren hebben een thumbnailId-veld met de miniatuur-id van het keyFrame. |
Exemplaren | Een lijst met tijdsbereiken van deze opname (shots hebben slechts één exemplaar). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistiek
Naam | Beschrijving |
---|---|
CorrespondentieAantal | Aantal correspondenties in de video. |
WordCount | Het aantal woorden per spreker. |
SpeakerNumberOfFragments | De hoeveelheid fragmenten die de spreker in een video heeft. |
SpeakerLongestMonolog | De langste monolog van de luidspreker. Als de spreker stiltes in de monolog heeft, wordt deze opgenomen. Stilte aan het begin en het einde van de monolog wordt verwijderd. |
SpeakerTalkToListenRatio | De berekening is gebaseerd op de tijd die is besteed aan de monolog van de spreker (zonder de stilte ertussen) gedeeld door de totale tijd van de video. De tijd wordt afgerond op het derde decimaalteken. |
labels
Naam | Beschrijving |
---|---|
legitimatiebewijs | De label-id. |
naam | De labelnaam (bijvoorbeeld 'Computer', 'TV'). |
Taal | De labelnaamtaal (wanneer vertaald). BCP-47 |
Exemplaren | Een lijst met tijdsbereiken waarin dit label werd weergegeven (een label kan meerdere keren worden weergegeven). Elk exemplaar heeft een betrouwbaarheidsveld. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
Zoekwoorden
Naam | Beschrijving |
---|---|
legitimatiebewijs | De trefwoord-id. |
Sms | De trefwoordtekst. |
vertrouwen | Het vertrouwen van de herkenning van het trefwoord. |
Taal | De trefwoordtaal (wanneer vertaald). |
Exemplaren | Een lijst met tijdsbereiken waarin dit trefwoord wordt weergegeven (een trefwoord kan meerdere keren worden weergegeven). |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Het visualContentModeration-blok bevat tijdsbereiken die Video Indexer heeft gevonden om mogelijk inhoud voor volwassenen te hebben. Als visualContentModeration leeg is, is er geen inhoud voor volwassenen geïdentificeerd.
Video's die inhoud voor volwassenen of ongepaste inhoud bevatten, zijn mogelijk alleen beschikbaar voor privéweergave. Gebruikers kunnen een aanvraag indienen voor een menselijke beoordeling van de inhoud. In dat geval bevat het kenmerk IsAdult
het resultaat van de menselijke beoordeling.
Naam | Beschrijving |
---|---|
legitimatiebewijs | De beheer-id voor visuele inhoud. |
adultScore | De score voor volwassenen (van content moderator). |
racyScore | De ongepaste score (van inhoudsbeheer). |
Exemplaren | Een lijst met tijdsbereiken waarin dit beheer van visuele inhoud werd weergegeven. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Hulp en ondersteuning krijgen
U kunt contact opnemen met Media Services met vragen of onze updates volgen op een van de volgende manieren:
- Q & A-
-
Stack Overflow-. Tag vragen met
azure-media-services
. - @MSFTAzureMedia of @AzureSupport gebruiken om ondersteuning aan te vragen.
- Open een ondersteuningsticket via Azure Portal.