Získání přehledů o identifikaci médií, překladu a jazyka
Identifikace přepisu, překladu a jazyka médií
Přepis, překlad a identifikace jazyka rozpozná, přepíše a přeloží řeč v mediálních souborech do více než 50 jazyků.
Azure AI Video Indexer (VI) zpracuje řeč ve zvukovém souboru a extrahuje přepis, který se pak přeloží do mnoha jazyků. Při výběru pro překlad do konkrétního jazyka se přepis i přehledy, jako jsou klíčová slova, témata, popisky nebo OCR, přeloží do zadaného jazyka. Přepis se dá použít tak, jak je, nebo můžete kombinovat s přehledy mluvčího, které mapují a přiřazují přepisy mluvčím. V zvukovém souboru je možné rozpoznat více reproduktorů. Každému mluvčímu se přiřadí ID, které se zobrazí pod přepisem řeči.
Identifikace jazyka (LID) rozpozná podporovaný dominantní mluvený jazyk v videosouboru. Další informace naleznete v tématu Použití VÍKA.
Identifikace více jazyků (MLID) automaticky rozpozná mluvené jazyky v různých segmentech zvukového souboru a odesílá každý segment, který se má přepisovat v identifikovaných jazycích. Na konci tohoto procesu se všechny přepisy zkombinují do stejného souboru. Další informace naleznete v tématu Použití MLID. Výsledné přehledy se generují v seznamu kategorií v souboru JSON, který obsahuje ID, jazyk, přepisovaný text, dobu trvání a skóre spolehlivosti.
Při indexování mediálních souborů s více mluvčími provádí Azure AI Video Indexer diarizaci mluvčího, která identifikuje každého mluvčího ve videu a každý přepisovaný řádek přednášejícího. Přednášející mají jedinečnou identitu, například mluvčí č. 1 a mluvčí č. 2. To umožňuje identifikaci mluvčích během konverzací a může být užitečná v různých scénářích, jako jsou konverzace pacientů s lékařem, interakce agentů a soudní řízení.
Případy použití přepisu médií, překladu a identifikace jazyka
- Zvýšení přístupnosti zpřístupněním obsahu osobám s postižením sluchu pomocí Azure AI Video Indexeru ke generování přepisu řeči na text a překlad do více jazyků.
- Vylepšení distribuce obsahu pro různorodou cílovou skupinu v různých oblastech a jazycích doručováním obsahu ve více jazycích pomocí přepisu a možností překladu ve službě Azure AI Video Indexer.
- Vylepšení a vylepšení ručního generování titulků a titulků pomocí možností přepisu a překladu ve službě Azure AI Video Indexer a používání skrytých titulků generovaných službou Azure AI Video Indexer v jednom z podporovaných formátů.
- Pomocí identifikace jazyka (LID) nebo vícejazyčné identifikace (MLID) k přepisu videí v neznámých jazycích umožníte službě Azure AI Video Indexer automaticky identifikovat jazyky zobrazené ve videu a odpovídajícím způsobem vygenerovat přepis.
Zobrazení kódu JSON přehledu pomocí webového portálu
Po nahrání a indexování videa jsou přehledy k dispozici ve formátu JSON ke stažení pomocí webového portálu.
- Vyberte kartu Knihovna.
- Vyberte multimédia, se kterými chcete pracovat.
- Vyberte Stáhnout a přehledy (JSON). Soubor JSON se otevře na nové kartě prohlížeče.
- Vyhledejte pár klíčů popsaný v ukázkové odpovědi.
Použití rozhraní API
- Použijte požadavek Získat index videa. Doporučujeme předat
&includeSummarizedInsights=false
. - Vyhledejte páry klíčů popsané v ukázkové odpovědi.
Příklad odpovědi
Všechny jazyky zjištěné ve videu jsou ve zdrojiLanauge a každá instance v sectin přepisu zahrnuje přepisovaný jazyk.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Důležité
Je důležité si přečíst přehled poznámek transparentnosti pro všechny funkce VI. Každý přehled má také vlastní poznámky k transparentnosti:
Přepis, překlad a poznámky k identifikaci jazyka
Při zodpovědném a pečlivém používání je Azure AI Video Indexer cenným nástrojem pro mnoho odvětví. Musíte vždy respektovat soukromí a bezpečnost ostatních a dodržovat místní a globální předpisy. Naše doporučení:
- Pečlivě zvažte přesnost výsledků, pokud chcete zvýšit přesnost dat, zkontrolovat kvalitu zvuku, nízká kvalita zvuku může ovlivnit zjištěné přehledy.
- Video Indexer neprovádí rozpoznávání mluvčího, takže reproduktory nemají přiřazený identifikátor napříč více soubory. Nemůžete vyhledat jednotlivého mluvčího ve více souborech nebo přepisech.
- Identifikátory mluvčího se přiřazují náhodně a dají se použít pouze k rozlišení různých mluvčích v jednom souboru.
- Křížová mluvení a překrývání řeči: Když více mluvčích mluví současně nebo se navzájem přeruší, bude obtížné, aby model přesně odlišil a přiřadil odpovídající reproduktorům správný text.
- Mluvčí se překrývají: Někdy můžou mít mluvčí podobné vzory řeči, zvýraznění nebo používat podobnou slovní zásobu, což modelu znesnadňuje rozlišení mezi nimi.
- Hlučný zvuk: Špatná kvalita zvuku, šum na pozadí nebo nahrávky s nízkou kvalitou může bránit schopnosti modelu správně identifikovat a přepisovat reproduktory.
- Emocionální řeč: Emocionální variace řeči, jako je křik, brečení nebo extrémní vzrušení, může ovlivnit schopnost modelu přesně diarizovat reproduktory.
- Předvedení nebo zosobnění mluvčího: Pokud se mluvčí úmyslně pokusí napodobovat nebo zamaskovat svůj hlas, může model chybně identifikovat mluvčího.
- Nejednoznačná identifikace mluvčího: Některé segmenty řeči nemusí mít dostatek jedinečných charakteristik, aby model mohl s jistotou přisuzovat konkrétnímu mluvčímu.
- Zvuk, který obsahuje jiné jazyky než ty, které jste vybrali, způsobí neočekávané výsledky.
- Minimální délka segmentu pro detekci jednotlivých jazyků je 15 sekund.
- Posun detekce jazyka je v průměru 3 sekundy.
- Očekává se, že řeč bude nepřetržitá. Časté alternace mezi jazyky můžou ovlivnit výkon modelu.
- Řeč ne nativních mluvčích může ovlivnit výkon modelu (například když mluvčí používají svůj první jazyk a přepnou do jiného jazyka).
- Model je navržený tak, aby rozpoznal spontánně konverzační řeč s rozumnou zvukovou akustikou (ne hlasovými příkazy, zpíváním atd.).
- Vytváření a úpravy projektů nejsou k dispozici pro vícejazyčná videa.
- Vlastní jazykové modely nejsou při použití detekce ve více jazycích dostupné.
- Přidání klíčových slov se nepodporuje.
- Označení jazyka není součástí exportovaného souboru skrytých titulků.
- Přepis aktualizace v rozhraní API nepodporuje soubory s více jazyky.
- Model je navržený tak, aby rozpoznal spontánně konverzační řeč (ne hlasové příkazy, zpívání atd.).
- Pokud Azure AI Video Indexer nedokáže identifikovat jazyk s vysokou spolehlivostí (větší než 0,6), je záložní jazyk angličtina.
Tady je seznam podporovaných jazyků.
Komponenty pro přepis, překlad a identifikaci jazyka
Během přepisu, postupu překladu a identifikace jazyka se řeč v mediálním souboru zpracuje následujícím způsobem:
Komponenta | Definice |
---|---|
Zdrojový jazyk | Uživatel nahraje zdrojový soubor pro indexování a buď: – Určuje zdrojový jazyk videa. - Vybere automatické rozpoznání jednoho jazyka (LID) k identifikaci jazyka souboru. Výstup se uloží samostatně. – Vybere automatické rozpoznání více jazyků (MLID) a identifikuje více jazyků v souboru. Výstup každého jazyka se ukládá samostatně. |
Rozhraní API pro přepis | Zvukový soubor se odešle do služeb Azure AI, aby získal přepisovaný a přeložený výstup. Pokud je zadaný jazyk, zpracuje se odpovídajícím způsobem. Pokud není zadán žádný jazyk, spustí se proces LID nebo MLID, který identifikuje jazyk, po kterém se soubor zpracuje. |
Sjednocení výstupu | Přepisované a přeložené soubory jsou sjednocené do stejného souboru. Výstupní data zahrnují ID mluvčího každé extrahované věty spolu s úrovní spolehlivosti. |
Hodnota spolehlivosti | Odhadovaná úroveň spolehlivosti každé věty se vypočítá jako rozsah 0 až 1. Skóre spolehlivosti představuje jistotu přesnosti výsledku. Například 82% jistota je reprezentována jako skóre 0,82. |