Přizpůsobení jazykového modelu pomocí Azure AI Video Indexeru
Azure AI Video Indexer podporuje automatické rozpoznávání řeči prostřednictvím integrace se službou Microsoft Custom Speech Service. Jazykový model můžete přizpůsobit tak, že nahrajete text adaptace. Tento text pochází z domény, jejíž slovník byste chtěli modul použít k přizpůsobení. Jakmile model vytrénujete, rozpozná se nová slova, která se v textu adaptace objeví, za předpokladu výchozí výslovnosti a jazykový model se naučí nové pravděpodobné sekvence slov. Seznam podporovaných jazyků Azure AI Video Indexeru najdete v podporovaných sítích langues.
Například Kubernetes (v kontextu služby Azure Kubernetes) je slovo, které je vysoce specifické. Vzhledem k tomu, že toto slovo je pro Azure AI Video Indexer novinkou, rozpozná se jako komunity. Natrénujte model tak, aby ho rozpoznal jako Kubernetes. V jiných případech existují slova, ale jazykový model neočekává, že se zobrazí v určitém kontextu. Například "container service" není 2slovná sekvence, kterou by nespecializovaný jazykový model rozpoznal jako konkrétní sadu slov.
Jazykový model můžete přizpůsobit dvěma způsoby:
- Možnost 1: Upravte přepis, který vygeneroval Azure AI Video Indexer. Úpravou a opravou přepisu trénujete jazykový model, abyste v budoucnu poskytli lepší výsledky.
- Možnost 2: Nahrání textových souborů pro trénování jazykového modelu Soubor může obsahovat buď seznam slov, jak byste chtěli, aby se zobrazovaly v přepisu Video Indexeru, nebo relevantní slova obsažená přirozeně ve větách a odstavcích. S tím, jak se s druhým přístupem dosáhne lepších výsledků, doporučujeme, aby soubor pro nahrávání obsahoval celé věty nebo odstavce související s vaším obsahem.
Důležité
Nezahrnujte do souboru pro nahrání slova nebo věty jako aktuálně nesprávně napsaná (například "komunity"), protože tím se neguje zamýšlený dopad. Zahrňte jenom slova tak, jak chcete, aby se zobrazovala (například Kubernetes).
Optimalizace vlastního jazykového modelu
Azure AI Video Indexer se učí na základě pravděpodobností kombinací slov, abyste se naučili co nejlépe:
- Dejte dostatek skutečných příkladů vět, jak by se mluvilo.
- Dejte na řádek jenom jednu větu, ne více. V opačném případě se systém naučí pravděpodobnosti napříč větami.
- Je v pořádku dát jedno slovo jako větu, která zvýší slovo proti ostatním, ale systém se učí nejlépe z celých vět.
- Pokud je to možné, při zavádění nových slov nebo zkratek uveďte co nejvíce příkladů použití v celé větě, abyste systému poskytli co nejvíce kontextu.
- Zkuste dát několik možností přizpůsobení a podívat se, jak fungují pro vás.
- Vyhněte se opakování stejné věty několikrát. Může vytvořit předsudky proti zbytku vstupu.
- Vyhněte se zahrnutí neobvyklých symbolů (~, # @ % &), protože se zahodí. Věty, ve kterých se zobrazí, se také zahodí.
- Nepoužívejte příliš velké vstupy, například stovky tisíc vět, protože tím se zředí účinek zvýšení.
Požadavky
- Účet Azure
- Účet Azure AI Video Indexeru
Vytvoření jazykového modelu
- Přejděte na web Azure AI Video Indexer a přihlaste se.
- Pokud chcete přizpůsobit model ve vašem účtu, vyberte tlačítko Pro přizpůsobení Con režim stanu l na levé straně stránky.
- Vyberte kartu Jazyk. Zobrazí se seznam podporovaných jazyků.
- V požadovaném jazyce vyberte Přidat model.
- Zadejte název jazykového modelu a stiskněte enter. Tento krok vytvoří model a dává možnost nahrát textové soubory do modelu.
- Pokud chcete přidat textový soubor, vyberte Přidat soubor. Otevře se Průzkumník souborů.
- Přejděte na textový soubor a vyberte ho. Do jazykového modelu můžete přidat více textových souborů. Textový soubor můžete přidat také tak , že vyberete tlačítko ... na pravé straně jazykového modelu a vyberete Přidat soubor.
- Po nahrání textových souborů vyberte zelenou možnost Train (Trénovat ).
Proces trénování může trvat několik minut. Po dokončení trénování se vedle modelu zobrazí trénování . Můžete zobrazit náhled, stáhnout a odstranit soubor z modelu.
Použití jazykového modelu na novém videu
Pokud chcete použít jazykový model na novém videu, udělejte jednu z následujících akcí:
- Vyberte tlačítko Nahrát v horní části stránky.
- Zahoďte zvukový soubor nebo videosoubor nebo vyhledejte soubor.
- V rozevíracím seznamu zdrojového jazyka videa vyberte jazykový model, který jste vytvořili.
- Vyberte možnost Nahrát v dolní části stránky a vaše nové video se bude indexovat pomocí jazykového modelu.
Použití jazykového modelu k přeindexování
- Přihlaste se na domovskou stránku Azure AI Video Indexeru .
- Klikněte na tlačítko ... na videu a vyberte Znovu indexovat.
- Vyberte rozevírací seznam Zdrojového jazyka videa a vyberte jazykový model, který jste vytvořili ze seznamu.
- Vyberte tlačítko Znovu indexovat a video se přeindexuje pomocí jazykového modelu.
Úprava jazykového modelu
Jazykový model můžete upravit tak, že změníte jeho název, přidáte do něj soubory a odstraníte z něj soubory. Pokud přidáte nebo odstraníte soubory z jazykového modelu, budete muset model znovu vytrénovat výběrem zelené možnosti Trénování .
Přejmenování jazykového modelu
Název jazykového modelu můžete změnit tak, že na pravé straně jazykového modelu vyberete tlačítko se třemi tečkou (...) a vyberete Přejmenovat. Zadejte nový název.
Přidat soubory
- Vyberte Add file (Přidat soubor). Otevře se Průzkumník souborů.
- Přejděte na textový soubor a vyberte ho. Do jazykového modelu můžete přidat více textových souborů.
Textový soubor můžete přidat také tak, že vyberete tlačítko se třemi tečkou (...) na pravé straně jazykového modelu a vyberete Přidat soubor.
Odstranit soubory
Tato akce odebere soubor zcela z jazykového modelu.
- Na pravé straně textového souboru vyberte tlačítko se třemi tečkou (...).
- Vyberte Odstranit. Zobrazí se nové okno s oznámením, že odstranění nejde vrátit zpět.
- V novém okně vyberte možnost Odstranit.
Odstranění jazykového modelu
Tato akce zcela odebere jazykový model z vašeho účtu. Všechna videa, která používala odstraněný modelLanguage, zachová stejný index, dokud video znovu neindexujete. Pokud video přeindexujete, můžete k videu přiřadit nový jazykový model. Jinak Azure AI Video Indexer použije k přeindexování videa výchozí model.
- Na pravé straně jazykového modelu vyberte tlačítko se třemi tečkou (...).
- Vyberte Odstranit. Zobrazí se nové okno s oznámením, že odstranění nejde vrátit zpět.
- V novém okně vyberte možnost Odstranit.
Přizpůsobení jazykových modelů opravou přepisů
Azure AI Video Indexer přizpůsobí jazykové modely na základě skutečných oprav, které uživatelé dělají v přepisech videí. Zachycuje všechny řádky, které jste opravili v přepisu videa, a přidá je do textového souboru s názvem From transcript edits
. Tyto úpravy slouží k opětovnému trénování jazykového modelu použitého k indexování videa.
K dispozici jsou také úpravy provedené na časové ose widgetu.
Pokud jste při indexování tohoto videa nezadali jazykový model, všechny úpravy tohoto videa se uloží do výchozího jazykového modelu volaného Account adaptations
v rozpoznaném jazyce videa.
V případě, že bylo na stejném řádku provedeno více úprav, slouží k aktualizaci jazykového modelu pouze poslední verze opravené čáry.
Poznámka:
Pro přizpůsobení se používají pouze textové opravy. Opravy, které nezahrnují skutečná slova (například interpunkční znaménka nebo mezery), nejsou zahrnuté.
- Vyberte video, které chcete upravit z knihovny.
- Vyberte kartu Časová osa.
- Výběrem ikony tužky upravte přepis přepisu.
- Opravy přepisu se zobrazí na kartě Jazyk na stránce Přizpůsobení con režim stanu l. Pokud se chcete podívat na soubor "Od úprav přepisu" pro každý z vašich jazykových modelů, vyberte ho a otevřete ho.