Analýza videosouborů a zvukových souborů pomocí Azure Media Services
logo
Varování
Služba Azure Media Services bude vyřazena 30. června 2024. Další informace naleznete v AMS Retirement Guide.
Důležitý
Vzhledem k tomu, že společnost Microsoft zodpovědné standardy AI, společnost Microsoft se zavázala k nestrannosti, ochraně osobních údajů, zabezpečení a transparentnosti v souvislosti se systémy AI. V souladu s těmito standardy Azure Media Services vyřazuje přednastavení Video Analyzeru 14. září 2023. Tato předvolba v současné době umožňuje extrahovat z videosouboru několik přehledů videa a zvuku. Zákazníci můžou nahradit své aktuální pracovní postupy pomocí pokročilejší sady funkcí, kterou nabízí azure Video Indexer.
Služba Media Services umožňuje extrahovat přehledy z videosouborů a zvukových souborů pomocí předvoleb analyzátoru zvuku a videa. Tento článek popisuje předvolby analyzátoru použité k extrakci přehledů. Pokud chcete získat podrobnější přehledy z videí, použijte službu Azure Video Indexer. Pokud chcete zjistit, kdy použít Video Indexer versus předvolby analyzátoru Media Services, podívejte se na srovnávací dokument.
Pro předvolbu Analyzátoru zvuku existují dva režimy, základní a standardní. Podívejte se na popis rozdílů v následující tabulce.
Pokud chcete analyzovat obsah pomocí předvoleb Media Services v3, vytvoříte transformace
Poznámka
AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.
Dodržování předpisů, ochrana osobních údajů a zabezpečení
Musíte dodržovat všechny platné zákony ve vašem používání Video Indexeru a nesmíte video Indexer ani žádnou jinou službu Azure používat způsobem, který porušuje práva ostatních nebo může být škodlivé pro ostatní. Před nahráním jakýchkoli videí, včetně biometrických údajů, do služby Video Indexer pro zpracování a ukládání musíte mít všechna správná práva, včetně všech příslušných souhlasů, od jednotlivců ve videu. Informace o dodržování předpisů, ochraně osobních údajů a zabezpečení ve službě Video Indexer najdete v podmínkách služby Azure Cognitive Services. Pokud jde o povinnosti společnosti Microsoft v oblasti ochrany osobních údajů a jejich zpracování, přečtěte siprohlášení o zásadách ochrany osobních údajů společnosti
Předdefinované předvolby
Služba Media Services aktuálně podporuje následující předdefinované předvolby analyzátoru:
přednastavený název | scénář / režimu | podrobnosti |
---|---|---|
AudioAnalyzerPreset | Analýza zvukového standardního režimu | Předvolba použije předdefinovanou sadu analytických operací založených na umělé inteligenci, včetně přepisu řeči. V současné době přednastavení podporuje zpracování obsahu s jednou zvukovou stopou, která obsahuje řeč v jednom jazyce. Zadejte jazyk datové části zvuku ve vstupu pomocí formátu BCP-47 "language tag-region". Dostupné jazykové kódy najdete v následujícím seznamu podporovaných jazyků. Automatická detekce jazyka zvolí první zjištěný jazyk a pokračuje ve vybraném jazyce pro celý soubor, pokud není nastavený nebo je nastaven na hodnotu null. Funkce automatického rozpoznávání jazyka aktuálně podporuje: angličtinu, čínštinu, francouzštinu, němčinu, italštinu, japonštinu, španělštinu, ruštinu a brazilskou portugalštinu. Nepodporuje dynamické přepínání mezi jazyky po zjištění prvního jazyka. Funkce automatického rozpoznávání jazyka funguje nejlépe se zvukovými nahrávkami s jasně rozpoznatelnou řečí. Pokud automatické rozpoznávání jazyka nenajde jazyk, přepis se vrátí do angličtiny. |
AudioAnalyzerPreset | Analýza zvukového režimu Basic | Tento přednastavený režim provádí přepis řeči na text a generování souboru titulků a titulků VTT. Výstup tohoto režimu zahrnuje soubor JSON s přehledy, včetně pouze klíčových slov, přepisu a informací o časování. V tomto režimu není zahrnuta automatická detekce jazyka a diarizace mluvčího. Seznam podporovaných jazyků je shodný s výše uvedeným standardním režimem. |
VideoAnalyzerPreset | Analýza zvuku a videa | Extrahuje přehledy (bohaté metadata) ze zvuku i videa a vypíše soubor formátu JSON. Můžete určit, jestli chcete při zpracování videosouboru extrahovat jenom zvukové přehledy. |
FaceDetectorPreset | Rozpoznávání tváří, které jsou přítomné ve videu | Popisuje nastavení, která se mají použít při analýze videa k detekci všech tváří, které jsou přítomné. |
Poznámka
AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.
Podporované jazyky
- Arabština (ar-BH,ar-EG,ar-IQ,ar-JO,ar-KW,ar-LB,ar-OM,ar-QA,ar-SAaar-SY)
- Brazilská portugalština (pt-BR))
- Čínština (zh-CN))
- Dánština('da-DK')
- Angličtina (en-US,en-GBaen-AU)
- Finština (fi-FI)
- Francouzština (fr-FRafr-CA)
- Němčina ('de-DE')
- Hebrejština (he-IL)
- Hindština (hi-IN), korejština (ko-KR)
- Italština ('it-IT')
- Japonština (ja-JP))
- Norština ('nb-NO')
- Perština (fa-IR))
- Portugalština v Portugalsku (pt-PT')
- Ruština (ru-RU))
- Španělština (es-ESaes-MX)
- Švédština (sv-SE))
- Thajština ('th-TH')
- Turečtina (tr-TR))
Poznámka
AudioAnalyzerPreset se nepodporuje, pokud účet úložiště nemá přístup k veřejné síti.
Standardní režim AudioAnalyzerPreset
Tato předvolba umožňuje extrahovat z zvukového souboru nebo videosouboru více zvukových přehledů.
Výstup obsahuje soubor JSON (se všemi přehledy) a soubor VTTT pro zvukový přepis. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězec. Mezi přehledy zvuku patří:
- přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků.
- Klíčová slova: Klíčová slova extrahovaná z přepisu zvuku.
Základní režim AudioAnalyzerPreset
Tato předvolba umožňuje extrahovat z zvukového souboru nebo videosouboru více zvukových přehledů.
Výstup obsahuje soubor JSON a soubor VTT pro přepis zvuku. Tato předvolba přijímá vlastnost, která určuje jazyk vstupního souboru ve formě BCP47 řetězec. Výstup zahrnuje:
- přepis zvuku: Přepis mluvených slov s časovými razítky. Podporuje se více jazyků, ale automatické rozpoznávání jazyka a diarizace mluvčího nejsou zahrnuté.
- Klíčová slova: Klíčová slova extrahovaná z přepisu zvuku.
VideoAnalyzerPreset
Tato předvolba umožňuje extrahovat z videosouboru několik přehledů zvuku a videa. Výstup obsahuje soubor JSON (se všemi přehledy), soubor VTT pro přepis videa a kolekci miniatur. Tato předvolba také přijímá řetězec BCP47 (představující jazyk videa) jako vlastnost. Přehledy videí zahrnují všechny výše uvedené zvukové přehledy a následující dodatečné položky:
- sledování tváře: čas, během kterého se tváře nacházejí ve videu. Každá tvář má ID tváře a odpovídající kolekci miniatur.
- vizuálního textu: Text, který je zjištěn prostřednictvím optického rozpoznávání znaků. Text je časový razítko a používá se také k extrakci klíčových slov (kromě zvukového přepisu).
- keyframes: Kolekce klíčových snímků extrahovaných z videa.
- moderování vizuálního obsahu: Část videí označená jako dospělá nebo nesrácená příroda.
- poznámky: Výsledek přidávání poznámek k videím na základě předem definovaného objektového modelu
insights.json elementy
Výstup obsahuje soubor JSON (insights.json) se všemi přehledy nalezenými ve videu nebo zvuku. Json může obsahovat následující prvky:
přepis
Jméno | Popis |
---|---|
id | ID řádku. |
Text | Samotný přepis. |
Jazyk | Jazyk přepisu. Účelem podpory přepisu, ve kterém může mít každý řádek jiný jazyk. |
instance | Seznam časových rozsahů, ve kterých se tento řádek objevil. Pokud je instance přepisem, bude mít pouze jednu instanci. |
Příklad:
"transcript": [
{
"id": 0,
"text": "Hi I'm Doug from office.",
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
}
]
},
{
"id": 1,
"text": "I have a guest. It's Michelle.",
"language": "en-US",
"instances": [
{
"start": "00:00:02.7200000",
"end": "00:00:03.9600000"
}
]
}
]
Ocr
Jméno | Popis |
---|---|
id | ID řádku OCR. |
Text | Text OCR. |
důvěrnost | Spolehlivost rozpoznávání. |
Jazyk | Jazyk OCR. |
instance | Seznam časovýchrozsahch |
"ocr": [
{
"id": 0,
"text": "LIVE FROM NEW YORK",
"confidence": 0.91,
"language": "en-US",
"instances": [
{
"start": "00:00:26",
"end": "00:00:52"
}
]
},
{
"id": 1,
"text": "NOTICIAS EN VIVO",
"confidence": 0.9,
"language": "es-ES",
"instances": [
{
"start": "00:00:26",
"end": "00:00:28"
},
{
"start": "00:00:32",
"end": "00:00:38"
}
]
}
],
tváře
Jméno | Popis |
---|---|
id | ID tváře. |
Jméno | Jméno tváře. Může to být neznámý #0, identifikovaná celebrita nebo osoba vyškolená zákazníkem. |
důvěrnost | Spolehlivost identifikace tváře. |
popis | Popis celebrity. |
thumbnailId | ID miniatury této tváře. |
polePersonId | Interní ID (pokud je to známá osoba). |
referenceId | ID Bingu (pokud se jedná o celebritu Bingu). |
referenceType | V současné době jen Bing. |
titul | Název (pokud se jedná o celebritu, například "generální ředitel Microsoftu"). |
imageUrl | Adresa URL obrázku, pokud je to celebrita. |
instance | Instance, ve kterých se tvář objevila v daném časovém rozsahu Každá instance má také thumbnailsId. |
"faces": [{
"id": 2002,
"name": "Xam 007",
"confidence": 0.93844,
"description": null,
"thumbnailId": "00000000-aee4-4be2-a4d5-d01817c07955",
"knownPersonId": "8340004b-5cf5-4611-9cc4-3b13cca10634",
"referenceId": null,
"title": null,
"imageUrl": null,
"instances": [{
"thumbnailsIds": ["00000000-9f68-4bb2-ab27-3b4d9f2d998e",
"cef03f24-b0c7-4145-94d4-a84f81bb588c"],
"adjustedStart": "00:00:07.2400000",
"adjustedEnd": "00:00:45.6780000",
"start": "00:00:07.2400000",
"end": "00:00:45.6780000"
},
{
"thumbnailsIds": ["00000000-51e5-4260-91a5-890fa05c68b0"],
"adjustedStart": "00:10:23.9570000",
"adjustedEnd": "00:10:39.2390000",
"start": "00:10:23.9570000",
"end": "00:10:39.2390000"
}]
}]
výstřely
Jméno | Popis |
---|---|
id | ID snímku. |
keyFrames | Seznam klíčových snímků v rámci snímku (každý má ID a seznam časových rozsahů instancí). Instance klíčových snímků mají pole thumbnailId s ID miniatury klíčového rámce. |
instance | Seznam časových rozsahů tohoto snímku (snímky mají pouze jednu instanci). |
"Shots": [
{
"id": 0,
"keyFrames": [
{
"id": 0,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.1670000",
"end": "00: 00: 00.2000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 00.2000000",
"end": "00: 00: 05.0330000"
}
]
},
{
"id": 1,
"keyFrames": [
{
"id": 1,
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 05.3000000"
}
]
}
],
"instances": [
{
"thumbnailId": "00000000-0000-0000-0000-000000000000",
"start": "00: 00: 05.2670000",
"end": "00: 00: 10.3000000"
}
]
}
]
statistika
Jméno | Popis |
---|---|
KorespondenceCount | Počet korespondencí ve videu |
WordCount | Počet slov na mluvčího. |
SpeakerNumberOfFragments | Množství fragmentů, které má mluvčí ve videu. |
Nejdelšímonolog mluvčího | Nejdelší monolog mluvčího. Pokud má mluvčí ticho uvnitř monologa, je součástí. Ticho na začátku a na konci monologu je odstraněno. |
SpeakerTalkToListenRatio | Výpočet vychází z času stráveného na monologu mluvčího (bez mlčení mezi) dělenou celkovým časem videa. Čas se zaokrouhlí na třetí desetinnou čárku. |
popisky
Jméno | Popis |
---|---|
id | ID popisku. |
Jméno | Název popisku (například "Počítač", "TV"). |
Jazyk | Jazyk názvu popisku (při překladu) BCP-47 |
instance | Seznamčasových Každá instance má pole spolehlivosti. |
"labels": [
{
"id": 0,
"name": "person",
"language": "en-US",
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 00.0000000",
"end": "00: 00: 25.6000000"
},
{
"confidence": 1.0,
"start": "00: 01: 33.8670000",
"end": "00: 01: 39.2000000"
}
]
},
{
"name": "indoor",
"language": "en-US",
"id": 1,
"instances": [
{
"confidence": 1.0,
"start": "00: 00: 06.4000000",
"end": "00: 00: 07.4670000"
},
{
"confidence": 1.0,
"start": "00: 00: 09.6000000",
"end": "00: 00: 10.6670000"
},
{
"confidence": 1.0,
"start": "00: 00: 11.7330000",
"end": "00: 00: 20.2670000"
},
{
"confidence": 1.0,
"start": "00: 00: 21.3330000",
"end": "00: 00: 25.6000000"
}
]
}
]
klíčová slova
Jméno | Popis |
---|---|
id | ID klíčového slova. |
Text | Text klíčového slova |
důvěrnost | Spolehlivost rozpoznávání klíčového slova. |
Jazyk | Jazyk klíčových slov (při překladu) |
instance | Seznamčasových |
"keywords": [
{
"id": 0,
"text": "office",
"confidence": 1.6666666666666667,
"language": "en-US",
"instances": [
{
"start": "00:00:00.5100000",
"end": "00:00:02.7200000"
},
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
}
]
},
{
"id": 1,
"text": "icons",
"confidence": 1.4,
"language": "en-US",
"instances": [
{
"start": "00:00:03.9600000",
"end": "00:00:12.2700000"
},
{
"start": "00:00:13.9900000",
"end": "00:00:15.6100000"
}
]
}
]
visualContentModeration
Blok visualContentModeration obsahuje časové rozsahy, které Video Indexer zjistil, že potenciálně obsahuje obsah pro dospělé. Pokud je parametr visualContentModeration prázdný, neexistuje žádný identifikovaný obsah pro dospělé.
Videa, která obsahují obsah pro dospělé nebo nevhodný obsah, můžou být dostupná jenom pro soukromé zobrazení. Uživatelé mohou odeslat žádost o kontrolu obsahu člověkem, v takovém případě bude atribut IsAdult
obsahovat výsledek lidské kontroly.
Jméno | Popis |
---|---|
id | ID moderování vizuálního obsahu. |
adultScore | Skóre pro dospělé (od content moderatoru). |
racyScore | Skóreracy (z moderování obsahu) |
instance | Seznam časových rozsahů, ve kterých se tento vizuální obsah moderoval. |
"VisualContentModeration": [
{
"id": 0,
"adultScore": 0.00069,
"racyScore": 0.91129,
"instances": [
{
"start": "00:00:25.4840000",
"end": "00:00:25.5260000"
}
]
},
{
"id": 1,
"adultScore": 0.99231,
"racyScore": 0.99912,
"instances": [
{
"start": "00:00:35.5360000",
"end": "00:00:35.5780000"
}
]
}
]
Získání nápovědy a podpory
Službu Media Services můžete kontaktovat s otázkami nebo postupovat podle našich aktualizací jedním z následujících způsobů:
- Q & A
-
Stack Overflow . Označte otázky pomocí
azure-media-services
. - @MSFTAzureMedia nebo pomocí @AzureSupport požádat o podporu.
- Otevřete lístek podpory prostřednictvím webu Azure Portal.