Jak przygotować dane do niestandardowej analizy tonacji
Aby utworzyć niestandardowy model analizy tonacji, potrzebne będą dane dotyczące jakości, aby je wytrenować. W tym artykule opisano sposób wybierania i przygotowywania danych oraz definiowania schematu. Definiowanie schematu jest pierwszym krokiem w cyklu projektowania projektu i definiuje klasy potrzebne modelowi do klasyfikowania tekstu w czasie wykonywania.
Wybór danych
Jakość danych, z których trenujesz model, wpływa znacznie na wydajność modelu.
Użyj rzeczywistych danych, które odzwierciedlają przestrzeń problemową domeny, aby skutecznie wytrenować model. Możesz użyć danych syntetycznych, aby przyspieszyć początkowy proces trenowania modelu, ale prawdopodobnie różni się on od danych rzeczywistych i sprawi, że model będzie mniej skuteczny w przypadku użycia.
Zrównoważ dystrybucję danych tak bardzo, jak to możliwe, bez odbiegania od rozkładu w czasie rzeczywistym.
Używaj różnorodnych danych, jeśli to możliwe, aby uniknąć nadmiernego dopasowania modelu. Mniejsza różnorodność danych treningowych może prowadzić do fałszywych korelacji uczenia modelu, które mogą nie istnieć w rzeczywistych danych.
Unikaj duplikowania dokumentów w danych. Zduplikowane dane mają negatywny wpływ na proces trenowania, metryki modelu i wydajność modelu.
Zastanów się, skąd pochodzą twoje dane. Jeśli zbierasz dane z jednej osoby, działu lub części scenariusza, prawdopodobnie brakuje różnorodności, która może być ważna dla modelu, aby dowiedzieć się więcej.
Uwaga
Jeśli dokumenty znajdują się w wielu językach, wybierz opcję wiele języków podczas tworzenia projektu i ustaw opcję języka na język większości dokumentów.
Przygotowywanie danych
W ramach wymagań wstępnych dotyczących tworzenia projektu analizy tonacji niestandardowej dane szkoleniowe muszą zostać przekazane do kontenera obiektów blob na koncie magazynu. Dokumenty szkoleniowe można tworzyć i przekazywać bezpośrednio z platformy Azure lub za pomocą narzędzia Eksplorator usługi Azure Storage. Użycie narzędzia Eksplorator usługi Azure Storage umożliwia szybkie przekazywanie większej ilości danych.
- Tworzenie i przekazywanie dokumentów z platformy Azure
- Tworzenie i przekazywanie dokumentów przy użyciu Eksplorator usługi Azure Storage
Można użyć tylko ..txt
dokumenty dla tekstu niestandardowego. Jeśli dane są w innym formacie, możesz użyć polecenia analizy CLUtils, aby zmienić format pliku.
Zestaw testów
Podczas definiowania zestawu testów należy uwzględnić przykładowe dokumenty, które nie są obecne w zestawie treningowym. Definiowanie zestawu testów jest ważnym krokiem do obliczenia wydajności modelu. Upewnij się również, że zestaw testów zawiera dokumenty reprezentujące wszystkie klasy używane w projekcie.
Następne kroki
Jeśli jeszcze tego nie zrobiono, utwórz projekt analizy tonacji niestandardowej. Jeśli używasz analizy tonacji niestandardowej po raz pierwszy, rozważ skorzystanie z przewodnika Szybki start, aby utworzyć przykładowy projekt. Możesz również zapoznać się z wymaganiami dotyczącymi projektu, aby uzyskać więcej informacji na temat tego, co należy utworzyć projekt.