Sdílet prostřednictvím


Trénování vlastního pojmenovaného modelu rozpoznávání entit

Trénování je proces, při kterém se model učí z označených dat. Po dokončení trénování budete moct zobrazit výkon modelu a zjistit, jestli potřebujete model vylepšit.

Pokud chcete vytrénovat model, spustíte trénovací úlohu a vytvoříte model pouze úspěšně dokončené úlohy. Platnost trénovacích úloh vyprší po sedmi dnech, což znamená, že po této době nebudete moct načíst podrobnosti o úloze. Pokud se vaše trénovací úloha úspěšně dokončila a vytvořil se model, nebude to mít vliv na model. Najednou můžete mít spuštěnou jenom jednu trénovací úlohu a nemůžete spustit jiné úlohy ve stejném projektu.

Časy trénování můžou být během několika minut při práci s několika dokumenty až několik hodin v závislosti na velikosti datové sady a složitosti schématu.

Požadavky

Další informace najdete v životním cyklu vývoje projektu.

Rozdělování dat

Než začnete s procesem trénování, budou označené dokumenty v projektu rozdělené do trénovací sady a testovací sady. Každý z nich slouží jiné funkci. Trénovací sada se používá při trénování modelu, jedná se o sadu, ze které se model učí označené entity a jaké rozsahy textu se mají extrahovat jako entity. Testovací sada je nevidomá sada , která není součástí modelu během trénování, ale pouze během vyhodnocení. Po úspěšném dokončení trénování modelu se model použije k předpovědím z dokumentů v testování a na základě těchto metrik vyhodnocení předpovědí. Doporučuje se zajistit, aby všechny entity byly v trénovací i testovací sadě dostatečně reprezentované.

Vlastní NER podporuje dvě metody rozdělení dat:

  • Automatické rozdělení testovací sady z trénovacích dat: Systém rozdělí označená data mezi trénovací a testovací sady podle zvolených procent. Doporučené procento rozdělení je 80 % pro trénování a 20 % pro testování.

Poznámka:

Pokud zvolíte možnost Automatické rozdělení testovací sady z trénovacích dat , rozdělí se pouze data přiřazená k trénovací sadě podle zadaných procent.

  • Použijte ruční rozdělení trénovacích a testovacích dat: Tato metoda umožňuje uživatelům definovat, které označené dokumenty mají patřit do které sady. Tento krok je povolený jenom v případě, že jste do testovací sady přidali dokumenty během označování dat.

Trénování modelu

Zahájení trénování modelu v sadě Language Studio:

  1. V nabídce na levé straně vyberte Úlohy trénování .

  2. V horní nabídce vyberte Spustit trénovací úlohu .

  3. Vyberte Vytrénovat nový model a do textového pole zadejte název modelu. Existující model můžete také přepsat tak, že vyberete tuto možnost a zvolíte model, který chcete přepsat z rozevírací nabídky. Přepsání natrénovaného modelu je nevratné, ale nebude mít vliv na nasazené modely, dokud nový model nenasadíte.

    Vytvoření nové trénovací úlohy

  4. Vyberte metodu rozdělení dat. Můžete zvolit automatické rozdělení testovací sady z trénovacích dat , kde systém rozdělí označená data mezi trénovací a testovací sady podle zadaných procent. Nebo můžete použít ruční rozdělení trénovacích a testovacích dat, tato možnost je povolená jenom v případě, že jste do testovací sady přidali dokumenty během označování dat. Informace o rozdělení dat najdete v tématu Jak vytrénovat model .

  5. Vyberte tlačítko Trénovat.

  6. Pokud v seznamu vyberete ID trénovací úlohy, zobrazí se boční podokno, kde můžete zkontrolovat průběh trénování, stav úlohy a další podrobnosti o této úloze.

    Poznámka:

    • Pouze úspěšně dokončené trénovací úlohy vygenerují modely.
    • Trénování může trvat několik minut až několik hodin na základě velikosti označených dat.
    • Najednou můžete mít spuštěnou pouze jednu úlohu trénování. V rámci stejného projektu nemůžete spustit další úlohu trénování, dokud se nedokončí spuštěná úloha.

Zrušení trénovací úlohy

Pokud chcete zrušit trénovací úlohu ze sady Language Studio, přejděte na stránku Školicí úlohy . Vyberte trénovací úlohu, kterou chcete zrušit, a v horní nabídce vyberte Zrušit .

Další kroky

Po dokončení trénování budete moct zobrazit výkon modelu a volitelně ho v případě potřeby vylepšit. Jakmile budete s modelem spokojeni, můžete ho nasadit a zpřístupnit ho k extrakci entit z textu.