Získání přehledů o identifikaci médií, překladu a jazyka

Článek
10/09/2024

Identifikace přepisu, překladu a jazyka médií

Přepis, překlad a identifikace jazyka rozpozná, přepíše a přeloží řeč v mediálních souborech do více než 50 jazyků.

Azure AI Video Indexer (VI) zpracuje řeč ve zvukovém souboru a extrahuje přepis, který se pak přeloží do mnoha jazyků. Při výběru pro překlad do konkrétního jazyka se přepis i přehledy, jako jsou klíčová slova, témata, popisky nebo OCR, přeloží do zadaného jazyka. Přepis se dá použít tak, jak je, nebo můžete kombinovat s přehledy mluvčího, které mapují a přiřazují přepisy mluvčím. V zvukovém souboru je možné rozpoznat více reproduktorů. Každému mluvčímu se přiřadí ID, které se zobrazí pod přepisem řeči.

Identifikace jazyka (LID) rozpozná podporovaný dominantní mluvený jazyk v videosouboru. Další informace naleznete v tématu Použití VÍKA.

Identifikace více jazyků (MLID) automaticky rozpozná mluvené jazyky v různých segmentech zvukového souboru a odesílá každý segment, který se má přepisovat v identifikovaných jazycích. Na konci tohoto procesu se všechny přepisy zkombinují do stejného souboru. Další informace naleznete v tématu Použití MLID. Výsledné přehledy se generují v seznamu kategorií v souboru JSON, který obsahuje ID, jazyk, přepisovaný text, dobu trvání a skóre spolehlivosti.

Při indexování mediálních souborů s více mluvčími provádí Azure AI Video Indexer diarizaci mluvčího, která identifikuje každého mluvčího ve videu a každý přepisovaný řádek přednášejícího. Přednášející mají jedinečnou identitu, například mluvčí č. 1 a mluvčí č. 2. To umožňuje identifikaci mluvčích během konverzací a může být užitečná v různých scénářích, jako jsou konverzace pacientů s lékařem, interakce agentů a soudní řízení.

Případy použití přepisu médií, překladu a identifikace jazyka

Zvýšení přístupnosti zpřístupněním obsahu osobám s postižením sluchu pomocí Azure AI Video Indexeru ke generování přepisu řeči na text a překlad do více jazyků.
Vylepšení distribuce obsahu pro různorodou cílovou skupinu v různých oblastech a jazycích doručováním obsahu ve více jazycích pomocí přepisu a možností překladu ve službě Azure AI Video Indexer.
Vylepšení a vylepšení ručního generování titulků a titulků pomocí možností přepisu a překladu ve službě Azure AI Video Indexer a používání skrytých titulků generovaných službou Azure AI Video Indexer v jednom z podporovaných formátů.
Pomocí identifikace jazyka (LID) nebo vícejazyčné identifikace (MLID) k přepisu videí v neznámých jazycích umožníte službě Azure AI Video Indexer automaticky identifikovat jazyky zobrazené ve videu a odpovídajícím způsobem vygenerovat přepis.

Zobrazení kódu JSON přehledu pomocí webového portálu

Po nahrání a indexování videa jsou přehledy k dispozici ve formátu JSON ke stažení pomocí webového portálu.

Vyberte kartu Knihovna.
Vyberte multimédia, se kterými chcete pracovat.
Vyberte Stáhnout a přehledy (JSON). Soubor JSON se otevře na nové kartě prohlížeče.
Vyhledejte pár klíčů popsaný v ukázkové odpovědi.

Použití rozhraní API

Použijte požadavek Získat index videa. Doporučujeme předat &includeSummarizedInsights=false.
Vyhledejte páry klíčů popsané v ukázkové odpovědi.

Příklad odpovědi

Všechny jazyky zjištěné ve videu jsou ve zdrojiLanauge a každá instance v sectin přepisu zahrnuje přepisovaný jazyk.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Důležité

Je důležité si přečíst přehled poznámek transparentnosti pro všechny funkce VI. Každý přehled má také vlastní poznámky k transparentnosti:

Přepis, překlad a poznámky k identifikaci jazyka

Při zodpovědném a pečlivém používání je Azure AI Video Indexer cenným nástrojem pro mnoho odvětví. Musíte vždy respektovat soukromí a bezpečnost ostatních a dodržovat místní a globální předpisy. Naše doporučení:

Pečlivě zvažte přesnost výsledků, pokud chcete zvýšit přesnost dat, zkontrolovat kvalitu zvuku, nízká kvalita zvuku může ovlivnit zjištěné přehledy.
Video Indexer neprovádí rozpoznávání mluvčího, takže reproduktory nemají přiřazený identifikátor napříč více soubory. Nemůžete vyhledat jednotlivého mluvčího ve více souborech nebo přepisech.
Identifikátory mluvčího se přiřazují náhodně a dají se použít pouze k rozlišení různých mluvčích v jednom souboru.
Křížová mluvení a překrývání řeči: Když více mluvčích mluví současně nebo se navzájem přeruší, bude obtížné, aby model přesně odlišil a přiřadil odpovídající reproduktorům správný text.
Mluvčí se překrývají: Někdy můžou mít mluvčí podobné vzory řeči, zvýraznění nebo používat podobnou slovní zásobu, což modelu znesnadňuje rozlišení mezi nimi.
Hlučný zvuk: Špatná kvalita zvuku, šum na pozadí nebo nahrávky s nízkou kvalitou může bránit schopnosti modelu správně identifikovat a přepisovat reproduktory.
Emocionální řeč: Emocionální variace řeči, jako je křik, brečení nebo extrémní vzrušení, může ovlivnit schopnost modelu přesně diarizovat reproduktory.
Předvedení nebo zosobnění mluvčího: Pokud se mluvčí úmyslně pokusí napodobovat nebo zamaskovat svůj hlas, může model chybně identifikovat mluvčího.
Nejednoznačná identifikace mluvčího: Některé segmenty řeči nemusí mít dostatek jedinečných charakteristik, aby model mohl s jistotou přisuzovat konkrétnímu mluvčímu.
Zvuk, který obsahuje jiné jazyky než ty, které jste vybrali, způsobí neočekávané výsledky.
Minimální délka segmentu pro detekci jednotlivých jazyků je 15 sekund.
Posun detekce jazyka je v průměru 3 sekundy.
Očekává se, že řeč bude nepřetržitá. Časté alternace mezi jazyky můžou ovlivnit výkon modelu.
Řeč ne nativních mluvčích může ovlivnit výkon modelu (například když mluvčí používají svůj první jazyk a přepnou do jiného jazyka).
Model je navržený tak, aby rozpoznal spontánně konverzační řeč s rozumnou zvukovou akustikou (ne hlasovými příkazy, zpíváním atd.).
Vytváření a úpravy projektů nejsou k dispozici pro vícejazyčná videa.
Vlastní jazykové modely nejsou při použití detekce ve více jazycích dostupné.
Přidání klíčových slov se nepodporuje.
Označení jazyka není součástí exportovaného souboru skrytých titulků.
Přepis aktualizace v rozhraní API nepodporuje soubory s více jazyky.
Model je navržený tak, aby rozpoznal spontánně konverzační řeč (ne hlasové příkazy, zpívání atd.).
Pokud Azure AI Video Indexer nedokáže identifikovat jazyk s vysokou spolehlivostí (větší než 0,6), je záložní jazyk angličtina.

Tady je seznam podporovaných jazyků.

Komponenty pro přepis, překlad a identifikaci jazyka

Během přepisu, postupu překladu a identifikace jazyka se řeč v mediálním souboru zpracuje následujícím způsobem:

Komponenta	Definice
Zdrojový jazyk	Uživatel nahraje zdrojový soubor pro indexování a buď: – Určuje zdrojový jazyk videa. - Vybere automatické rozpoznání jednoho jazyka (LID) k identifikaci jazyka souboru. Výstup se uloží samostatně. – Vybere automatické rozpoznání více jazyků (MLID) a identifikuje více jazyků v souboru. Výstup každého jazyka se ukládá samostatně.
Rozhraní API pro přepis	Zvukový soubor se odešle do služeb Azure AI, aby získal přepisovaný a přeložený výstup. Pokud je zadaný jazyk, zpracuje se odpovídajícím způsobem. Pokud není zadán žádný jazyk, spustí se proces LID nebo MLID, který identifikuje jazyk, po kterém se soubor zpracuje.
Sjednocení výstupu	Přepisované a přeložené soubory jsou sjednocené do stejného souboru. Výstupní data zahrnují ID mluvčího každé extrahované věty spolu s úrovní spolehlivosti.
Hodnota spolehlivosti	Odhadovaná úroveň spolehlivosti každé věty se vypočítá jako rozsah 0 až 1. Skóre spolehlivosti představuje jistotu přesnosti výsledku. Například 82% jistota je reprezentována jako skóre 0,82.

Ukázkový kód

Zobrazit všechny ukázky pro VI

Sdílet prostřednictvím