Jak wytrenować niestandardowy model analizy tonacji
Aby wytrenować model, uruchom zadanie szkoleniowe. Tylko pomyślnie ukończone zadania tworzą model nadający się do użycia. Zadania szkoleniowe wygasają po siedmiu dniach. Po upływie tego okresu nie będzie można pobrać szczegółów zadania. Jeśli zadanie szkoleniowe zostało ukończone pomyślnie i model został utworzony, nie będzie to miało wpływu na wygaśnięcie zadania. Jednocześnie można uruchomić tylko jedno zadanie szkoleniowe i nie można uruchomić innych zadań w tym samym projekcie.
Czas trenowania może trwać od kilku minut, gdy zajmuje się kilkoma dokumentami, do kilku godzin w zależności od rozmiaru zestawu danych i złożoności schematu.
Wymagania wstępne
Przed wytrenem modelu potrzebne są następujące elementy:
- Pomyślnie utworzono projekt ze skonfigurowanym kontem usługi Azure Blob Storage.
Dzielenie danych
Przed rozpoczęciem procesu trenowania dokumenty oznaczone etykietą w projekcie są podzielone na zestaw szkoleniowy i zestaw testów. Każdy z nich pełni inną funkcję. Zestaw trenowania jest używany w trenowaniu modelu. Jest to zestaw , z którego model uczy się klas/klas przypisanych do każdego dokumentu. Zestaw testów to zestaw ślepy, który nie jest wprowadzany do modelu podczas trenowania, ale tylko podczas oceny. Po pomyślnym wytrenowanym modelu jest on używany do przewidywania z dokumentów w zestawie testowym. Na podstawie tych przewidywań zostaną obliczone metryki oceny modelu. Zaleca się upewnienie się, że wszystkie klasy są odpowiednio reprezentowane zarówno w zestawie treningowym, jak i testowym.
Analiza tonacji niestandardowej obsługuje dwie metody dzielenia danych:
- Automatyczne dzielenie zestawu testów na podstawie danych treningowych: system podzieli dane oznaczone etykietami między zestawy treningowe i testowe, zgodnie z wybranymi wartościami procentowymi. System próbuje mieć reprezentację wszystkich klas w zestawie treningowym. Zalecany podział procentowy wynosi 80% na potrzeby trenowania i 20% na potrzeby testowania.
Uwaga
Jeśli wybierzesz opcję Automatycznie dzieląc zestaw testów z danych treningowych, tylko dane przypisane do zestawu treningowego zostaną podzielone zgodnie z podanymi wartościami procentowymi.
- Użyj ręcznego podziału danych treningowych i testowych: ta metoda umożliwia użytkownikom zdefiniowanie, które dokumenty z etykietami powinny należeć do tego zestawu.
Trenowanie modelu
Aby rozpocząć trenowanie modelu z poziomu programu Language Studio:
Wybierz pozycję Zadania trenowania z menu po lewej stronie.
Wybierz pozycję Start a training job (Rozpocznij zadanie szkoleniowe) z górnego menu.
Wybierz pozycję Train a new model (Trenowanie nowego modelu ) i wpisz nazwę modelu w polu tekstowym. Możesz również zastąpić istniejący model , wybierając tę opcję i wybierając model, który chcesz zastąpić z menu rozwijanego. Zastępowanie wytrenowanego modelu jest nieodwracalne, ale nie wpłynie to na wdrożone modele do momentu wdrożenia nowego modelu.
Domyślnie system podzieli dane oznaczone etykietami między zestawy treningowe i testowe, zgodnie z określonymi wartościami procentowymi. Jeśli masz dokumenty w zestawie testów, możesz ręcznie podzielić dane trenowania i testowania.
Wybierz przycisk Train (Trenuj).
Jeśli wybierzesz identyfikator zadania trenowania z listy, zostanie wyświetlone okienko boczne, w którym można sprawdzić postęp trenowania, stan zadania i inne szczegóły dotyczące tego zadania.
Uwaga
- Tylko pomyślnie ukończone zadania szkoleniowe będą generować modele.
- Trenowanie może potrwać od kilku minut do kilku godzin na podstawie rozmiaru oznaczonych danych.
- Jednocześnie może być uruchomione tylko jedno zadanie trenowania. Nie można uruchomić innego zadania trenowania w tym samym projekcie, dopóki uruchomione zadanie nie zostanie ukończone.
Anulowanie zadania trenowania
Aby anulować zadanie szkoleniowe z poziomu programu Language Studio, przejdź do strony Zadania trenowania . Wybierz zadanie szkoleniowe, które chcesz anulować, a następnie wybierz pozycję Anuluj w górnym menu.
Następne kroki
Po zakończeniu trenowania będzie można wyświetlić wydajność modelu, aby opcjonalnie poprawić model w razie potrzeby. Gdy model jest zadowalający, możesz go wdrożyć, udostępniając go do użycia.