Jak używać automatycznego etykietowania do niestandardowej klasyfikacji tekstu
Proces etykietowania jest ważną częścią przygotowywania zestawu danych. Ponieważ ten proces wymaga dużo czasu i nakładu pracy, możesz użyć funkcji automatycznego etykietowania dokumentów przy użyciu klas, do których chcesz je podzielić. Obecnie można uruchamiać zadania automatycznego etykietowania na podstawie modelu przy użyciu modeli GPT, w których można natychmiast wyzwolić zadanie automatycznego etykietowania bez wcześniejszego trenowania modelu. Ta funkcja pozwala zaoszczędzić czas i nakład pracy ręcznego etykietowania dokumentów.
Wymagania wstępne
Aby można było używać automatycznego etykietowania za pomocą biblioteki GPT, potrzebne są następujące elementy:
- Pomyślnie utworzono projekt ze skonfigurowanym kontem usługi Azure Blob Storage.
- Dane tekstowe przekazane na konto magazynu.
- Nazwy klas, które mają znaczenie. Modele GPT etykietuje dokumenty na podstawie nazw podanych klas.
- Dane oznaczone etykietami nie są wymagane.
- Zasób i wdrożenie usługi Azure OpenAI.
Wyzwalanie zadania automatycznego etykietowania
Po wyzwoleniu zadania automatycznego etykietowania za pomocą biblioteki GPT są naliczane opłaty za zasób usługi Azure OpenAI zgodnie z użyciem. Opłaty są naliczane według szacowanej liczby tokenów w każdym dokumencie, który jest automatycznie pod etykietą. Zapoznaj się ze stroną cennika usługi Azure OpenAI, aby uzyskać szczegółowy podział cen na token różnych modeli.
W menu nawigacji po lewej stronie wybierz pozycję Etykietowanie danych.
Wybierz przycisk Autolabel w okienku Działanie po prawej stronie.
Wybierz pozycję Autolabel with GPT (Autolabel with GPT), a następnie wybierz przycisk Next (Dalej).
Wybierz zasób i wdrożenie usługi Azure OpenAI. Aby kontynuować, musisz utworzyć zasób usługi Azure OpenAI i wdrożyć model .
Wybierz klasy, które chcesz uwzględnić w zadaniu automatycznego etykietowania. Domyślnie wszystkie klasy są zaznaczone. Zaleca się posiadanie opisowych nazw klas i uwzględnienie przykładów dla każdej klasy w celu uzyskania dobrej jakości etykietowania za pomocą biblioteki GPT.
Wybierz dokumenty, które mają być automatycznie oznaczone etykietą. Zaleca się wybranie niezaznaczonego dokumentu z filtru.
Uwaga
- Jeśli dokument został automatycznie oznaczony etykietą, ale ta etykieta została już zdefiniowana przez użytkownika, używana jest tylko etykieta zdefiniowana przez użytkownika.
- Dokumenty można wyświetlić, klikając nazwę dokumentu.
Wybierz pozycję Uruchom zadanie , aby wyzwolić zadanie automatycznego etykietowania. Powinno nastąpić przekierowanie do strony automatycznego etykietowania zawierającej zainicjowane zadania automatycznego etykietowania. Zadania automatycznego etykietowania mogą potrwać od kilku sekund do kilku minut, w zależności od liczby uwzględnionych dokumentów.
Przeglądanie dokumentów z etykietami automatycznymi
Po zakończeniu zadania automatycznego etykietowania można wyświetlić dokumenty wyjściowe na stronie Etykietowanie danych w programie Language Studio. Wybierz pozycję Przejrzyj dokumenty z autolabelami , aby wyświetlić dokumenty z zastosowanym filtrem z etykietą Automatyczna .
Dokumenty, które zostały sklasyfikowane automatycznie, sugerowały etykiety w okienku działania wyróżnionym purpurowo. Każda sugerowana etykieta ma dwie selektory (znacznik wyboru i ikonę anulowania), które umożliwiają akceptowanie lub odrzucanie etykiety automatycznej.
Po zaakceptowaniu etykiety kolor fioletowy zmieni się na domyślny niebieski, a etykieta zostanie uwzględniona w każdym kolejnym trenowaniu modelu, który staje się etykietą zdefiniowaną przez użytkownika.
Po zaakceptowaniu lub odrzuceniu etykiet dla dokumentów z etykietami automatycznymi wybierz pozycję Zapisz etykiety , aby zastosować zmiany.
Uwaga
- Zalecamy automatyczne weryfikowanie dokumentów oznaczonych etykietami przed ich zaakceptowaniem.
- Wszystkie etykiety, które nie zostały zaakceptowane, są usuwane podczas trenowania modelu.
Następne kroki
- Dowiedz się więcej na temat etykietowania danych.