Jak przygotować dane i zdefiniować schemat klasyfikacji tekstu
Aby utworzyć niestandardowy model klasyfikacji tekstu, potrzebne będą dane dotyczące jakości, aby je wytrenować. W tym artykule opisano sposób wybierania i przygotowywania danych oraz definiowania schematu. Definiowanie schematu jest pierwszym krokiem w cyklu projektowania projektu i definiuje klasy potrzebne modelowi do klasyfikowania tekstu w czasie wykonywania.
Projekt schematu
Schemat definiuje klasy, które są potrzebne modelowi do klasyfikowania tekstu w czasie wykonywania.
Przejrzyj i zidentyfikuj: Przejrzyj dokumenty w zestawie danych, aby zapoznać się ze strukturą i zawartością, a następnie zidentyfikuj sposób klasyfikowania danych.
Na przykład w przypadku klasyfikowania biletów pomocy technicznej mogą być potrzebne następujące klasy: problem z logowaniem, problem ze sprzętem, problem z łącznością i nowe żądanie sprzętu.
Unikaj niejednoznaczności w klasach: niejednoznaczność pojawia się, gdy klasy, które określisz, mają podobne znaczenie. Tym bardziej niejednoznaczne jest schemat, tym bardziej oznaczone dane mogą wymagać rozróżnienia między różnymi klasami.
Jeśli na przykład klasyfikujesz przepisy kulinarne, mogą one być podobne do pewnego stopnia. Aby odróżnić przepis na deser i przepis na danie główne, może być konieczne oznaczenie większej liczby przykładów, aby ułatwić modelowi rozróżnienie między dwiema klasami. Unikanie niejednoznaczności pozwala zaoszczędzić czas i uzyskać lepsze wyniki.
Dane poza zakresem: w przypadku korzystania z modelu w środowisku produkcyjnym rozważ dodanie klasy poza zakresem do schematu, jeśli spodziewasz się dokumentów, które nie należą do żadnej z klas. Następnie dodaj kilka dokumentów do zestawu danych, które mają być oznaczone jako poza zakresem. Model może nauczyć się rozpoznawać nieistotne dokumenty i odpowiednio przewidywać etykiety.
Wybór danych
Jakość danych, z których trenujesz model, wpływa znacznie na wydajność modelu.
Użyj rzeczywistych danych, które odzwierciedlają przestrzeń problemową domeny, aby skutecznie wytrenować model. Możesz użyć danych syntetycznych, aby przyspieszyć początkowy proces trenowania modelu, ale prawdopodobnie różni się on od danych rzeczywistych i sprawi, że model będzie mniej skuteczny w przypadku użycia.
Zrównoważ dystrybucję danych tak bardzo, jak to możliwe, bez odbiegania od rozkładu w czasie rzeczywistym.
Używaj różnorodnych danych, jeśli to możliwe, aby uniknąć nadmiernego dopasowania modelu. Mniejsza różnorodność danych treningowych może prowadzić do fałszywych korelacji uczenia modelu, które mogą nie istnieć w rzeczywistych danych.
Unikaj duplikowania dokumentów w danych. Zduplikowane dane mają negatywny wpływ na proces trenowania, metryki modelu i wydajność modelu.
Zastanów się, skąd pochodzą twoje dane. Jeśli zbierasz dane z jednej osoby, działu lub części scenariusza, prawdopodobnie brakuje różnorodności, która może być ważna dla modelu, aby dowiedzieć się więcej.
Uwaga
Jeśli dokumenty znajdują się w wielu językach, wybierz opcję wiele języków podczas tworzenia projektu i ustaw opcję języka na język większości dokumentów.
Przygotowywanie danych
W ramach wymagań wstępnych dotyczących tworzenia niestandardowego projektu klasyfikacji tekstu dane szkoleniowe muszą zostać przekazane do kontenera obiektów blob na koncie magazynu. Dokumenty szkoleniowe można tworzyć i przekazywać bezpośrednio z platformy Azure lub za pomocą narzędzia Eksplorator usługi Azure Storage. Użycie narzędzia Eksplorator usługi Azure Storage umożliwia szybkie przekazywanie większej ilości danych.
- Tworzenie i przekazywanie dokumentów z platformy Azure
- Tworzenie i przekazywanie dokumentów przy użyciu Eksplorator usługi Azure Storage
Można użyć tylko ..txt
dokumenty dla tekstu niestandardowego. Jeśli dane są w innym formacie, możesz użyć polecenia analizy CLUtils, aby zmienić format pliku.
Możesz przekazać zestaw danych z adnotacjami lub przekazać nieoznaczone dane i oznaczyć je etykietą w narzędziu Language Studio.
Zestaw testów
Podczas definiowania zestawu testów należy uwzględnić przykładowe dokumenty, które nie są obecne w zestawie treningowym. Definiowanie zestawu testów jest ważnym krokiem do obliczenia wydajności modelu. Upewnij się również, że zestaw testów zawiera dokumenty reprezentujące wszystkie klasy używane w projekcie.
Następne kroki
Jeśli jeszcze tego nie zrobiono, utwórz projekt niestandardowej klasyfikacji tekstu. Jeśli po raz pierwszy używasz niestandardowej klasyfikacji tekstu, rozważ skorzystanie z przewodnika Szybki start, aby utworzyć przykładowy projekt. Możesz również zapoznać się z wymaganiami dotyczącymi projektu, aby uzyskać więcej informacji na temat tego, co należy utworzyć projekt.