Přizpůsobení jazykového modelu pomocí Azure AI Video Indexeru

Článek
10/09/2024

Azure AI Video Indexer podporuje automatické rozpoznávání řeči prostřednictvím integrace se službou Microsoft Custom Speech Service. Jazykový model můžete přizpůsobit tak, že nahrajete text adaptace. Tento text pochází z domény, jejíž slovník byste chtěli modul použít k přizpůsobení. Jakmile model vytrénujete, rozpozná se nová slova, která se v textu adaptace objeví, za předpokladu výchozí výslovnosti a jazykový model se naučí nové pravděpodobné sekvence slov. Seznam podporovaných jazyků Azure AI Video Indexeru najdete v podporovaných sítích langues.

Například Kubernetes (v kontextu služby Azure Kubernetes) je slovo, které je vysoce specifické. Vzhledem k tomu, že toto slovo je pro Azure AI Video Indexer novinkou, rozpozná se jako komunity. Natrénujte model tak, aby ho rozpoznal jako Kubernetes. V jiných případech existují slova, ale jazykový model neočekává, že se zobrazí v určitém kontextu. Například "container service" není 2slovná sekvence, kterou by nespecializovaný jazykový model rozpoznal jako konkrétní sadu slov.

Jazykový model můžete přizpůsobit dvěma způsoby:

Možnost 1: Upravte přepis, který vygeneroval Azure AI Video Indexer. Úpravou a opravou přepisu trénujete jazykový model, abyste v budoucnu poskytli lepší výsledky.
Možnost 2: Nahrání textových souborů pro trénování jazykového modelu Soubor může obsahovat buď seznam slov, jak byste chtěli, aby se zobrazovaly v přepisu Video Indexeru, nebo relevantní slova obsažená přirozeně ve větách a odstavcích. S tím, jak se s druhým přístupem dosáhne lepších výsledků, doporučujeme, aby soubor pro nahrávání obsahoval celé věty nebo odstavce související s vaším obsahem.

Důležité

Nezahrnujte do souboru pro nahrání slova nebo věty jako aktuálně nesprávně napsaná (například "komunity"), protože tím se neguje zamýšlený dopad. Zahrňte jenom slova tak, jak chcete, aby se zobrazovala (například Kubernetes).

Optimalizace vlastního jazykového modelu

Azure AI Video Indexer se učí na základě pravděpodobností kombinací slov, abyste se naučili co nejlépe:

Dejte dostatek skutečných příkladů vět, jak by se mluvilo.
Dejte na řádek jenom jednu větu, ne více. V opačném případě se systém naučí pravděpodobnosti napříč větami.
Je v pořádku dát jedno slovo jako větu, která zvýší slovo proti ostatním, ale systém se učí nejlépe z celých vět.
Pokud je to možné, při zavádění nových slov nebo zkratek uveďte co nejvíce příkladů použití v celé větě, abyste systému poskytli co nejvíce kontextu.
Zkuste dát několik možností přizpůsobení a podívat se, jak fungují pro vás.
Vyhněte se opakování stejné věty několikrát. Může vytvořit předsudky proti zbytku vstupu.
Vyhněte se zahrnutí neobvyklých symbolů (~, # @ % &), protože se zahodí. Věty, ve kterých se zobrazí, se také zahodí.
Nepoužívejte příliš velké vstupy, například stovky tisíc vět, protože tím se zředí účinek zvýšení.

Požadavky

Účet Azure
Účet Azure AI Video Indexeru

Webový portál
Rozhraní API

Vytvoření jazykového modelu

Přejděte na web Azure AI Video Indexer a přihlaste se.
Pokud chcete přizpůsobit model ve vašem účtu, vyberte tlačítko Pro přizpůsobení Con režim stanu l na levé straně stránky.
Vyberte kartu Jazyk. Zobrazí se seznam podporovaných jazyků.
V požadovaném jazyce vyberte Přidat model.
Zadejte název jazykového modelu a stiskněte enter. Tento krok vytvoří model a dává možnost nahrát textové soubory do modelu.
Pokud chcete přidat textový soubor, vyberte Přidat soubor. Otevře se Průzkumník souborů.
Přejděte na textový soubor a vyberte ho. Do jazykového modelu můžete přidat více textových souborů. Textový soubor můžete přidat také tak , že vyberete tlačítko ... na pravé straně jazykového modelu a vyberete Přidat soubor.
Po nahrání textových souborů vyberte zelenou možnost Train (Trénovat ).

Proces trénování může trvat několik minut. Po dokončení trénování se vedle modelu zobrazí trénování . Můžete zobrazit náhled, stáhnout a odstranit soubor z modelu.

Použití jazykového modelu na novém videu

Pokud chcete použít jazykový model na novém videu, udělejte jednu z následujících akcí:

Vyberte tlačítko Nahrát v horní části stránky.
Zahoďte zvukový soubor nebo videosoubor nebo vyhledejte soubor.
V rozevíracím seznamu zdrojového jazyka videa vyberte jazykový model, který jste vytvořili.
Vyberte možnost Nahrát v dolní části stránky a vaše nové video se bude indexovat pomocí jazykového modelu.

Použití jazykového modelu k přeindexování

Přihlaste se na domovskou stránku Azure AI Video Indexeru .
Klikněte na tlačítko ... na videu a vyberte Znovu indexovat.
Vyberte rozevírací seznam Zdrojového jazyka videa a vyberte jazykový model, který jste vytvořili ze seznamu.
Vyberte tlačítko Znovu indexovat a video se přeindexuje pomocí jazykového modelu.

Úprava jazykového modelu

Jazykový model můžete upravit tak, že změníte jeho název, přidáte do něj soubory a odstraníte z něj soubory. Pokud přidáte nebo odstraníte soubory z jazykového modelu, budete muset model znovu vytrénovat výběrem zelené možnosti Trénování .

Přejmenování jazykového modelu

Název jazykového modelu můžete změnit tak, že na pravé straně jazykového modelu vyberete tlačítko se třemi tečkou (...) a vyberete Přejmenovat. Zadejte nový název.

Přidat soubory

Vyberte Add file (Přidat soubor). Otevře se Průzkumník souborů.
Přejděte na textový soubor a vyberte ho. Do jazykového modelu můžete přidat více textových souborů.

Textový soubor můžete přidat také tak, že vyberete tlačítko se třemi tečkou (...) na pravé straně jazykového modelu a vyberete Přidat soubor.

Odstranit soubory

Tato akce odebere soubor zcela z jazykového modelu.

Na pravé straně textového souboru vyberte tlačítko se třemi tečkou (...).
Vyberte Odstranit. Zobrazí se nové okno s oznámením, že odstranění nejde vrátit zpět.
V novém okně vyberte možnost Odstranit.

Odstranění jazykového modelu

Tato akce zcela odebere jazykový model z vašeho účtu. Všechna videa, která používala odstraněný modelLanguage, zachová stejný index, dokud video znovu neindexujete. Pokud video přeindexujete, můžete k videu přiřadit nový jazykový model. Jinak Azure AI Video Indexer použije k přeindexování videa výchozí model.

Na pravé straně jazykového modelu vyberte tlačítko se třemi tečkou (...).
Vyberte Odstranit. Zobrazí se nové okno s oznámením, že odstranění nejde vrátit zpět.
V novém okně vyberte možnost Odstranit.

Přizpůsobení jazykových modelů opravou přepisů

Azure AI Video Indexer přizpůsobí jazykové modely na základě skutečných oprav, které uživatelé dělají v přepisech videí. Zachycuje všechny řádky, které jste opravili v přepisu videa, a přidá je do textového souboru s názvem From transcript edits. Tyto úpravy slouží k opětovnému trénování jazykového modelu použitého k indexování videa.

K dispozici jsou také úpravy provedené na časové ose widgetu.

Pokud jste při indexování tohoto videa nezadali jazykový model, všechny úpravy tohoto videa se uloží do výchozího jazykového modelu volaného Account adaptations v rozpoznaném jazyce videa.

V případě, že bylo na stejném řádku provedeno více úprav, slouží k aktualizaci jazykového modelu pouze poslední verze opravené čáry.

Poznámka:

Pro přizpůsobení se používají pouze textové opravy. Opravy, které nezahrnují skutečná slova (například interpunkční znaménka nebo mezery), nejsou zahrnuté.

Vyberte video, které chcete upravit z knihovny.
Vyberte kartu Časová osa.
Výběrem ikony tužky upravte přepis přepisu.
Opravy přepisu se zobrazí na kartě Jazyk na stránce Přizpůsobení con režim stanu l. Pokud se chcete podívat na soubor "Od úprav přepisu" pro každý z vašich jazykových modelů, vyberte ho a otevřete ho.

Vytvoření jazykového modelu

Požadavek Vytvořit jazykový model vytvoří nový vlastní jazykový model pro zadaný účet. Pomocí tohoto požadavku můžete nahrát soubory pro jazykový model. Případně můžete zde vytvořit jazykový model a později nahrát soubory pro model aktualizací jazykového modelu.

Kromě zadání hodnot požadovaných parametrů je nutné nahrát soubory v těle pomocí FormData. Pár klíčů pro tento úkol lze definovat dvěma způsoby:

Klíč je název souboru a hodnota je soubor txt.
Klíč je název souboru a hodnota je adresa URL souboru txt.

Poznámka:

Abyste mohli zjistit obsah jeho souborů, musíte model stále trénovat s povolenými soubory.

Příklad odpovědi

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Trénování jazykového modelu

Požadavek trénování jazykového modelu trénuje vlastní jazykový model pro zadaný účet s obsahem nahraných a povolených souborů v jazykovém modelu.

Poznámka:

Nejprve musíte vytvořit jazykový model a nahrát jeho soubory. Soubory můžete nahrát při vytváření jazykového modelu nebo aktualizací jazykového modelu.

Příklad odpovědi

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": false,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

Jedná se id o jedinečné ID používané k rozlišení mezi jazykovými modely, zatímco languageModelId se používá k nahrání videa k indexování a opětovnému indexování požadavků na videa (označovaných také jako linguisticModelId v žádostech o nahrání nebo přeindexování videa v Azure AI Video Indexeru).

Odstranění jazykového modelu

Požadavek Odstranit jazykový model odstraní z zadaného účtu vlastní jazykový model. Všechna videa, která používala odstraněný jazykový model, zachová stejný index, dokud video nepřeindexujete. Pokud video přeindexujete, můžete k videu přiřadit nový jazykový model. V opačném případě Azure AI Video Indexer použije k přeindexování videa výchozí model.

Příklad odpovědi

Po úspěšném odstranění jazykového modelu neexistuje žádný vrácený obsah.

Aktualizace jazykového modelu

Žádost o aktualizaci jazykového modelu aktualizuje vlastní model osoby jazyka v zadaném účtu.

Poznámka:

Jazykový model už musíte vytvořit. Pomocí tohoto volání můžete povolit nebo zakázat všechny soubory v modelu, aktualizovat název jazykového modelu a nahrát soubory, které se mají přidat do jazykového modelu.

Pokud chcete nahrát soubory, které se mají přidat do jazykového modelu, musíte kromě zadání hodnot požadovaných parametrů výše nahrát soubory do textu pomocí FormData. Tento úkol můžete provést dvěma způsoby:

Klíč je název souboru a hodnota je soubor txt.
Klíč je název souboru a hodnota je adresa URL souboru txt.

Příklad odpovědi

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

id Pomocí souborů vrácených v odpovědi stáhněte obsah souboru.

Aktualizace souboru z jazykového modelu

Žádost o soubor aktualizačního jazykového modelu umožňuje aktualizovat název a enable stav souboru ve vlastním jazykovém modelu v zadaném účtu.

Příklad odpovědi

{
  "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
  "name": "RenamedFile",
  "enable": false,
  "creator": "John Doe",
  "creationTime": "2018-04-27T20:10:10.5233333"
}

id Pomocí souboru vráceného v odpovědi stáhněte obsah souboru.

Získání konkrétního jazykového modelu

Požadavek Get Language Model vrátí informace o zadaném jazykovém modelu v zadaném účtu, jako je jazyk a soubory, které jsou v jazykovém modelu.

Příklad odpovědi

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

id Pomocí souboru vráceného v odpovědi stáhněte obsah souboru.

Získání všech jazykových modelů

Požadavek Get Language Models vrátí všechny vlastní jazykové modely v zadaném účtu v seznamu.

Příklad odpovědi

[
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
        "name": "TestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000000",
        "files": [
        {
            "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
            "name": "hellofile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.6733333"
        },
        {
            "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
            "name": "worldfile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.86"
        }
        ]
    },
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a892",
        "name": "AnotherTestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000001",
        "files": []
    }
]

Odstranění souboru z jazykového modelu

Požadavek Odstranit soubor jazykového modelu odstraní zadaný soubor ze zadaného jazykového modelu v zadaném účtu.

Příklad odpovědi

Po úspěšném odstranění souboru z jazykového modelu neexistuje žádný vrácený obsah.

Získání metadat souboru z jazykového modelu

Požadavek na získání dat souboru jazykového modelu vrátí obsah a metadata zadaného souboru ze zvoleného jazykového modelu ve vašem účtu.

Příklad odpovědi

{
    "content": "hello\r\nworld",
    "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
    "name": "Hello",
    "enable": true,
    "creator": "John Doe",
    "creationTime": "2018-04-27T20:10:10.5233333"
}

Poznámka:

Obsah tohoto ukázkového souboru jsou slova "hello" a "world" ve dvou samostatných řádcích.

Stažení souboru z jazykového modelu

Žádost o stažení souboru jazykového modelu stáhne textový soubor obsahující obsah zadaného souboru ze zadaného jazykového modelu v zadaném účtu. Tento textový soubor by se měl shodovat s obsahem textového souboru, který byl původně nahraný.

Příklad odpovědi

Odpověď je stažení textového souboru s obsahem souboru ve formátu JSON.

Sdílet prostřednictvím

Přizpůsobení jazykového modelu pomocí Azure AI Video Indexeru

Optimalizace vlastního jazykového modelu

Požadavky

Vytvoření jazykového modelu

Použití jazykového modelu na novém videu

Použití jazykového modelu k přeindexování

Úprava jazykového modelu

Přejmenování jazykového modelu

Přidat soubory

Odstranit soubory

Odstranění jazykového modelu

Přizpůsobení jazykových modelů opravou přepisů

Vytvoření jazykového modelu

Příklad odpovědi

Trénování jazykového modelu

Příklad odpovědi

Odstranění jazykového modelu

Příklad odpovědi

Aktualizace jazykového modelu

Příklad odpovědi

Aktualizace souboru z jazykového modelu

Příklad odpovědi

Získání konkrétního jazykového modelu

Příklad odpovědi

Získání všech jazykových modelů

Příklad odpovědi

Odstranění souboru z jazykového modelu

Příklad odpovědi

Získání metadat souboru z jazykového modelu

Příklad odpovědi

Stažení souboru z jazykového modelu

Příklad odpovědi

Váš názor

Další materiály