Označení textových dat pro trénování modelu
Před trénováním modelu potřebujete dokumenty označovat třídami, do které je chcete zařadit do kategorií. Popisování dat je zásadním krokem v životním cyklu vývoje; v tomto kroku můžete vytvořit třídy, které chcete kategorizovat do svých dat, a označovat dokumenty těmito třídami. Tato data se použijí v dalším kroku při trénování modelu, aby se váš model mohl učit z označených dat. Pokud už máte data označená jako označená, můžete je přímo naimportovat do projektu, ale musíte se ujistit, že vaše data mají stejný formát.
Před vytvořením vlastního modelu klasifikace textu musíte nejprve mít označená data. Pokud vaše data ještě nejsou označená, můžete je označit v sadě Language Studio. Označená data informují model o tom, jak interpretovat text, a slouží k trénování a vyhodnocení.
Požadavky
Než budete moct označovat data, potřebujete:
- Úspěšně vytvořený projekt s nakonfigurovaným účtem úložiště objektů blob v Azure
- Dokumenty obsahující textová data, která se nahrála do vašeho účtu úložiště
Další informace najdete v životním cyklu vývoje projektu.
Pokyny k označování dat
Po přípravě dat budete muset data označovat tak, že navrhnete schéma a vytvoříte projekt. Označení dat je důležité, aby model věděl, které dokumenty budou přidružené ke třídám, které potřebujete. Když označíte data v sadě Language Studio (nebo importujete označená data), budou tyto popisky uloženy v souboru JSON v kontejneru úložiště, který jste připojili k tomuto projektu.
Při označování dat mějte na paměti:
Obecně platí, že více označená data vedou k lepším výsledkům za předpokladu, že jsou data označená přesně.
Neexistuje žádný pevný počet popisků, které by mohly zaručit, že váš model bude fungovat co nejlépe. Modelujte výkon s možnou nejednoznačností ve schématu a kvalitou označených dat. Nicméně doporučujeme 50 označených dokumentů na každou třídu.
Označení dat
K označení dat použijte následující postup:
Přejděte na stránku projektu v sadě Language Studio.
V nabídce na levé straně vyberte Popisky dat. Seznam všech dokumentů najdete v kontejneru úložiště. Podívejte se na následující obrázek.
Tip
Filtry v horní nabídce můžete použít k zobrazení neoznačené soubory, abyste je mohli začít popisovat. Filtry můžete také použít k zobrazení dokumentů, které jsou označené konkrétní třídou.
V horní nabídce přejděte na jedno zobrazení souborů nebo vyberte konkrétní soubor, který chcete začít popisovat. Seznam všech
.txt
souborů dostupných v projektech najdete vlevo. K procházení dokumentů můžete použít tlačítko Zpět a Další v dolní části stránky.Poznámka:
Pokud jste pro svůj projekt povolili více jazyků, najdete v horní nabídce rozevírací seznam Jazyk , který umožňuje vybrat jazyk každého dokumentu.
V pravém bočním podokně přidejte do projektu třídu, abyste mohli začít popisovat data pomocí nich.
Začněte popisovat soubory.
Vícenásobná klasifikace štítků: Soubor lze označit více třídami. Můžete to udělat tak, že zaškrtnete všechna příslušná políčka vedle tříd, kterými chcete tento dokument označovat.
Pomocí funkce automatického popisování můžete také zajistit úplné popisování.
V pravém bočním podokně v pivotu Popisky najdete všechny třídy v projektu a počet označených instancí na každý z nich.
V dolní části pravého bočního podokna můžete přidat aktuální soubor, který si prohlížíte, do trénovací sady nebo testovací sady. Ve výchozím nastavení se do trénovací sady přidají všechny dokumenty. Přečtěte si další informace o trénovacích a testovacích sadách a o tom, jak se používají k trénování a vyhodnocování modelů.
Tip
Pokud plánujete použít automatické rozdělení dat, použijte výchozí možnost přiřazení všech dokumentů do trénovací sady.
V pivotu Distribuce můžete zobrazit distribuci napříč trénovacími a testovacími sadami. Máte dvě možnosti zobrazení:
- Celkový počet instancí , kde můžete zobrazit počet všech označených instancí konkrétní třídy.
- dokumenty s alespoň jedním popiskem , kde se každý dokument počítá, pokud obsahuje alespoň jednu označenou instanci této třídy.
Při označování štítků se změny budou pravidelně synchronizovat, pokud jste je ještě neuložili, v horní části stránky najdete upozornění. Pokud chcete uložit ručně, vyberte tlačítko Uložit štítky v dolní části stránky.
Odebrání popisků
Pokud chcete odebrat popisek, zrušte zaškrtnutí tlačítka vedle třídy.
Odstranění nebo třídy
Pokud chcete odstranit třídu, vyberte ikonu odstranění vedle třídy, kterou chcete odebrat. Odstraněním třídy odeberete všechny její označené instance z vaší datové sady.
Další kroky
Po označení dat můžete začít trénovat model , který se naučí na základě vašich dat.