Porady dotyczące tworzenia oznaczonych zestawów danych
Ta zawartość dotyczy: wersja 4.0 (wersja zapoznawcza) | Poprzednie wersje: v3.1 (GA) v3.0 (GA)
Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja: v4.0 (wersja zapoznawcza) | | Poprzednie wersje: v3.0
Ta zawartość dotyczy: wersja 3.0 (GA) | Najnowsze wersje: wersja 4.0 (wersja zapoznawcza) 3.1
Ważne
Najlepsze rozwiązania dotyczące generowania oznaczonych zestawów danych dotyczą tylko niestandardowych szablonów i niestandardowych modeli neuronowych, w przypadku generowania niestandardowego, zapoznaj się z tematem Generowanie niestandardowe
W tym artykule przedstawiono najlepsze metody etykietowania niestandardowych zestawów danych modelu w narzędziu Document Intelligence Studio. Dokumenty etykietowania mogą być czasochłonne, gdy masz dużą liczbę etykiet, długich dokumentów lub dokumentów o różnej strukturze. Te porady powinny ułatwić wydajniejsze etykietowanie dokumentów.
Wideo: Najlepsze rozwiązania dotyczące etykiet niestandardowych
Poniższy film wideo to druga z dwóch prezentacji, które ułatwiają tworzenie modeli niestandardowych o wyższej dokładności (pierwsza prezentacja przedstawia sposób tworzenia zrównoważonego zestawu danych).
Sprawdzamy najlepsze rozwiązania dotyczące etykietowania wybranych dokumentów. W przypadku semantycznie istotnego i spójnego etykietowania powinna zostać wyświetlona poprawa wydajności modelu.
Search
Program Studio zawiera teraz pole wyszukiwania dla wystąpień, gdy wiesz, że musisz znaleźć określone wyrazy do etykiety, ale po prostu nie wiem, gdzie je zlokalizować w dokumencie. Po prostu wyszukaj wyraz lub frazę i przejdź do określonej sekcji w dokumencie, aby oznaczyć wystąpienie.
Tabele automatycznej etykiety
Tabele mogą być trudne do etykietowania, jeśli mają wiele wierszy lub gęstego tekstu. Jeśli tabela układów wyodrębnia potrzebny wynik, należy po prostu użyć tego wyniku i pominąć proces etykietowania. W przypadkach, w których tabela układów nie jest dokładnie tym, czego potrzebujesz, możesz rozpocząć od wygenerowania pola tabeli z wyodrębnień układu wartości. Zacznij od wybrania ikony tabeli na stronie i wybrania przycisku etykiety automatycznej. Następnie możesz edytować wartości zgodnie z potrzebami. Etykieta automatyczna obsługuje obecnie tylko tabele jednostronicowe.
Shift select (Wybieranie przesunięcia)
Podczas etykietowania dużego zakresu tekstu, a nie oznaczania każdego wyrazu w zakresie, przytrzymaj wciśnięty shift, wybierając wyrazy, aby przyspieszyć etykietowanie i upewnić się, że nie przegapisz żadnych wyrazów w zakresie tekstu.
Etykietowanie regionów
Drugą opcją etykietowania większych zakresów tekstu jest użycie etykietowania regionów. Gdy jest używane etykietowanie regionów, OCR
wyniki są wypełniane w wartości w czasie trenowania. Różnica między wybieraniem zmian i etykietowaniem regionu dotyczy tylko wizualizacji, które zapewnia podejście do etykietowania shift.
Etykiety nakładające się pola
Nakładające się pola są obsługiwane w przypadku pól i komórek tabeli. Jeśli oczekujesz, że wyniki analizy będą zawierać nakładające się pola, należy dodać co najmniej jeden przykład do zestawu danych trenowania z określonym polem nakładającymi się na siebie etykietami. Aby oznaczyć nakładające się pole, użyj funkcji etykietowania regionu, aby wybrać regiony dla każdego pola. Obsługiwane są zarówno całkowite, jak i częściowe nakładające się. Każdy pojedynczy wyraz w dokumencie może być oznaczony tylko dla dwóch pól.
Podtypy pól
Podczas tworzenia pola wybierz odpowiedni podtyp, aby zminimalizować przetwarzanie po zakończeniu przetwarzania, na przykład wybierz dmy
opcję daty wyodrębnienia wartości w dd-mm-yyyy
formacie.
Następne kroki
Dowiedz się więcej na temat etykietowania niestandardowego:
Dowiedz się więcej o niestandardowych modelach szablonów: