Příprava dat a definování schématu klasifikace textu
K vytvoření vlastního modelu klasifikace textu budete potřebovat kvalitní data pro trénování. Tento článek popisuje, jak vybrat a připravit data spolu s definováním schématu. Definování schématu je prvním krokem v životním cyklu vývoje projektu a definuje třídy, které potřebujete k klasifikaci textu za běhu.
Návrh schématu
Schéma definuje třídy, které potřebujete k klasifikaci textu za běhu.
Kontrola a identifikace: Zkontrolujte dokumenty v datové sadě a seznamte se s jejich strukturou a obsahem a zjistěte, jak chcete data klasifikovat.
Pokud například klasifikujete lístky podpory, možná budete potřebovat následující třídy: problém s přihlášením, problém s hardwarem, problém s připojením a žádost o nové vybavení.
Vyhněte se nejednoznačnosti ve třídách: Nejednoznačnost nastane, když třídy, které určíte, mají podobný význam vzájemně. Čím nejednoznačnější je vaše schéma, tím více označených dat možná budete muset rozlišovat mezi různými třídami.
Pokud například klasifikujete recepty na potraviny, můžou se podobat rozsahu. Pokud chcete rozlišovat recept na dezerty a recept na hlavní jídlo, možná budete muset označovat více příkladů, abyste mohli model odlišit mezi těmito dvěma třídami. Zabránění nejednoznačnosti šetří čas a přináší lepší výsledky.
Mimo rozsah dat: Při použití modelu v produkčním prostředí zvažte přidání třídy mimo rozsah do schématu, pokud očekáváte, že dokumenty, které nepatří do žádné z vašich tříd. Pak do datové sady přidejte několik dokumentů, které se mají označovat jako mimo rozsah. Model se může naučit rozpoznávat irelevantní dokumenty a předpovídat jejich popisky odpovídajícím způsobem.
Výběr dat
Kvalita dat, se kterými model vytrénujete, má velký vliv na výkon modelu.
K efektivnímu trénování modelu použijte data z reálného života, která odrážejí problémový prostor vaší domény. Syntetická data můžete použít k urychlení počátečního procesu trénování modelu, ale pravděpodobně se liší od dat v reálném životě a při použití bude váš model méně efektivní.
Vyrovnejte distribuci dat co nejvíce, aniž byste se v reálném životě odchýlili od distribuce.
Pokud je to možné, používejte různá data, abyste se vyhnuli přeurčení modelu. Méně rozmanitosti v trénovacích datech může vést k tomu, že se model učí spurné korelace, které nemusí existovat v datech reálného života.
Vyhněte se duplicitním dokumentům v datech. Duplicitní data mají negativní vliv na trénovací proces, metriky modelu a výkon modelu.
Zvažte, odkud data pocházejí. Pokud shromažďujete data z jedné osoby, oddělení nebo části vašeho scénáře, pravděpodobně chybí rozmanitost, o které se váš model může dozvědět víc.
Poznámka:
Pokud máte dokumenty ve více jazycích, vyberte během vytváření projektu možnost více jazyků a nastavte jazykovou možnost na jazyk většiny dokumentů.
Příprava dat
Předpokladem pro vytvoření vlastního projektu klasifikace textu musí být vaše trénovací data nahraná do kontejneru objektů blob v účtu úložiště. Trénovací dokumenty můžete vytvářet a nahrávat přímo z Azure nebo pomocí nástroje Průzkumník služby Azure Storage. Pomocí nástroje Průzkumník služby Azure Storage můžete rychle nahrát další data.
- Vytváření a nahrávání dokumentů z Azure
- Vytváření a nahrávání dokumentů pomocí Průzkumník služby Azure Storage
Můžete použít .txt
pouze . dokumenty pro vlastní text. Pokud jsou data v jiném formátu, můžete pomocí příkazu CLUtils parse změnit formát souboru.
Můžete nahrát datovou sadu s poznámkami nebo můžete nahrát neoznačené datové sady a označovat je v sadě Language Studio.
Testovací sada
Při definování testovací sady nezapomeňte zahrnout ukázkové dokumenty, které nejsou k dispozici v trénovací sadě. Definování testovací sady je důležitým krokem k výpočtu výkonu modelu. Také se ujistěte, že testovací sada obsahuje dokumenty, které představují všechny třídy používané v projektu.
Další kroky
Pokud jste to ještě neudělali, vytvořte vlastní projekt klasifikace textu. Pokud používáte vlastní klasifikaci textu poprvé, zvažte vytvoření ukázkového projektu podle rychlého startu . Další podrobnosti o tom, co potřebujete k vytvoření projektu, najdete také v požadavcích na projekt.