Porady dotyczące tworzenia oznaczonych zestawów danych

Artykuł
10/16/2024

Ta zawartość dotyczy: wersja 4.0 (wersja zapoznawcza) | Poprzednie wersje: v3.1 (GA) v3.0 (GA)

Ta zawartość dotyczy: wersja 3.1 (GA)Najnowsza wersja: v4.0 (wersja zapoznawcza) | | Poprzednie wersje: v3.0

Ta zawartość dotyczy: wersja 3.0 (GA) | Najnowsze wersje: wersja 4.0 (wersja zapoznawcza) 3.1

Ważne

Najlepsze rozwiązania dotyczące generowania oznaczonych zestawów danych dotyczą tylko niestandardowych szablonów i niestandardowych modeli neuronowych, w przypadku generowania niestandardowego, zapoznaj się z tematem Generowanie niestandardowe

W tym artykule przedstawiono najlepsze metody etykietowania niestandardowych zestawów danych modelu w narzędziu Document Intelligence Studio. Dokumenty etykietowania mogą być czasochłonne, gdy masz dużą liczbę etykiet, długich dokumentów lub dokumentów o różnej strukturze. Te porady powinny ułatwić wydajniejsze etykietowanie dokumentów.

Wideo: Najlepsze rozwiązania dotyczące etykiet niestandardowych

Poniższy film wideo to druga z dwóch prezentacji, które ułatwiają tworzenie modeli niestandardowych o wyższej dokładności (pierwsza prezentacja przedstawia sposób tworzenia zrównoważonego zestawu danych).
Sprawdzamy najlepsze rozwiązania dotyczące etykietowania wybranych dokumentów. W przypadku semantycznie istotnego i spójnego etykietowania powinna zostać wyświetlona poprawa wydajności modelu.

Search

Program Studio zawiera teraz pole wyszukiwania dla wystąpień, gdy wiesz, że musisz znaleźć określone wyrazy do etykiety, ale po prostu nie wiem, gdzie je zlokalizować w dokumencie. Po prostu wyszukaj wyraz lub frazę i przejdź do określonej sekcji w dokumencie, aby oznaczyć wystąpienie.

Tabele automatycznej etykiety

Tabele mogą być trudne do etykietowania, jeśli mają wiele wierszy lub gęstego tekstu. Jeśli tabela układów wyodrębnia potrzebny wynik, należy po prostu użyć tego wyniku i pominąć proces etykietowania. W przypadkach, w których tabela układów nie jest dokładnie tym, czego potrzebujesz, możesz rozpocząć od wygenerowania pola tabeli z wyodrębnień układu wartości. Zacznij od wybrania ikony tabeli na stronie i wybrania przycisku etykiety automatycznej. Następnie możesz edytować wartości zgodnie z potrzebami. Etykieta automatyczna obsługuje obecnie tylko tabele jednostronicowe.

Shift select (Wybieranie przesunięcia)

Podczas etykietowania dużego zakresu tekstu, a nie oznaczania każdego wyrazu w zakresie, przytrzymaj wciśnięty shift, wybierając wyrazy, aby przyspieszyć etykietowanie i upewnić się, że nie przegapisz żadnych wyrazów w zakresie tekstu.

Etykietowanie regionów

Drugą opcją etykietowania większych zakresów tekstu jest użycie etykietowania regionów. Gdy jest używane etykietowanie regionów, OCR wyniki są wypełniane w wartości w czasie trenowania. Różnica między wybieraniem zmian i etykietowaniem regionu dotyczy tylko wizualizacji, które zapewnia podejście do etykietowania shift.

Etykiety nakładające się pola

Nakładające się pola są obsługiwane w przypadku pól i komórek tabeli. Jeśli oczekujesz, że wyniki analizy będą zawierać nakładające się pola, należy dodać co najmniej jeden przykład do zestawu danych trenowania z określonym polem nakładającymi się na siebie etykietami. Aby oznaczyć nakładające się pole, użyj funkcji etykietowania regionu, aby wybrać regiony dla każdego pola. Obsługiwane są zarówno całkowite, jak i częściowe nakładające się. Każdy pojedynczy wyraz w dokumencie może być oznaczony tylko dla dwóch pól.

Podtypy pól

Podczas tworzenia pola wybierz odpowiedni podtyp, aby zminimalizować przetwarzanie po zakończeniu przetwarzania, na przykład wybierz dmy opcję daty wyodrębnienia wartości w dd-mm-yyyy formacie.

Następne kroki

Dowiedz się więcej na temat etykietowania niestandardowego:

Etykiety niestandardowe
Dowiedz się więcej o niestandardowych modelach szablonów:

Modele niestandardowe

Udostępnij za pośrednictwem