Trénování vlastního pojmenovaného modelu rozpoznávání entit
Trénování je proces, při kterém se model učí z označených dat. Po dokončení trénování budete moct zobrazit výkon modelu a zjistit, jestli potřebujete model vylepšit.
Pokud chcete vytrénovat model, spustíte trénovací úlohu a vytvoříte model pouze úspěšně dokončené úlohy. Platnost trénovacích úloh vyprší po sedmi dnech, což znamená, že po této době nebudete moct načíst podrobnosti o úloze. Pokud se vaše trénovací úloha úspěšně dokončila a vytvořil se model, nebude to mít vliv na model. Najednou můžete mít spuštěnou jenom jednu trénovací úlohu a nemůžete spustit jiné úlohy ve stejném projektu.
Časy trénování můžou být během několika minut při práci s několika dokumenty až několik hodin v závislosti na velikosti datové sady a složitosti schématu.
Požadavky
- Úspěšně vytvořený projekt s nakonfigurovaným účtem služby Azure Blob Storage
- Textová data, která se nahrála do vašeho účtu úložiště
- Označená data
Další informace najdete v životním cyklu vývoje projektu.
Rozdělování dat
Než začnete s procesem trénování, budou označené dokumenty v projektu rozdělené do trénovací sady a testovací sady. Každý z nich slouží jiné funkci. Trénovací sada se používá při trénování modelu, jedná se o sadu, ze které se model učí označené entity a jaké rozsahy textu se mají extrahovat jako entity. Testovací sada je nevidomá sada , která není součástí modelu během trénování, ale pouze během vyhodnocení. Po úspěšném dokončení trénování modelu se model použije k předpovědím z dokumentů v testování a na základě těchto metrik vyhodnocení předpovědí. Doporučuje se zajistit, aby všechny entity byly v trénovací i testovací sadě dostatečně reprezentované.
Vlastní NER podporuje dvě metody rozdělení dat:
- Automatické rozdělení testovací sady z trénovacích dat: Systém rozdělí označená data mezi trénovací a testovací sady podle zvolených procent. Doporučené procento rozdělení je 80 % pro trénování a 20 % pro testování.
Poznámka:
Pokud zvolíte možnost Automatické rozdělení testovací sady z trénovacích dat , rozdělí se pouze data přiřazená k trénovací sadě podle zadaných procent.
- Použijte ruční rozdělení trénovacích a testovacích dat: Tato metoda umožňuje uživatelům definovat, které označené dokumenty mají patřit do které sady. Tento krok je povolený jenom v případě, že jste do testovací sady přidali dokumenty během označování dat.
Trénování modelu
Zahájení trénování modelu v sadě Language Studio:
V nabídce na levé straně vyberte Úlohy trénování .
V horní nabídce vyberte Spustit trénovací úlohu .
Vyberte Vytrénovat nový model a do textového pole zadejte název modelu. Existující model můžete také přepsat tak, že vyberete tuto možnost a zvolíte model, který chcete přepsat z rozevírací nabídky. Přepsání natrénovaného modelu je nevratné, ale nebude mít vliv na nasazené modely, dokud nový model nenasadíte.
Vyberte metodu rozdělení dat. Můžete zvolit automatické rozdělení testovací sady z trénovacích dat , kde systém rozdělí označená data mezi trénovací a testovací sady podle zadaných procent. Nebo můžete použít ruční rozdělení trénovacích a testovacích dat, tato možnost je povolená jenom v případě, že jste do testovací sady přidali dokumenty během označování dat. Informace o rozdělení dat najdete v tématu Jak vytrénovat model .
Vyberte tlačítko Trénovat.
Pokud v seznamu vyberete ID trénovací úlohy, zobrazí se boční podokno, kde můžete zkontrolovat průběh trénování, stav úlohy a další podrobnosti o této úloze.
Poznámka:
- Pouze úspěšně dokončené trénovací úlohy vygenerují modely.
- Trénování může trvat několik minut až několik hodin na základě velikosti označených dat.
- Najednou můžete mít spuštěnou pouze jednu úlohu trénování. V rámci stejného projektu nemůžete spustit další úlohu trénování, dokud se nedokončí spuštěná úloha.
Zrušení trénovací úlohy
Pokud chcete zrušit trénovací úlohu ze sady Language Studio, přejděte na stránku Školicí úlohy . Vyberte trénovací úlohu, kterou chcete zrušit, a v horní nabídce vyberte Zrušit .
Další kroky
Po dokončení trénování budete moct zobrazit výkon modelu a volitelně ho v případě potřeby vylepšit. Jakmile budete s modelem spokojeni, můžete ho nasadit a zpřístupnit ho k extrakci entit z textu.