Udostępnij za pośrednictwem


Najlepsze rozwiązania: generowanie oznaczonych zestawów danych

Ta zawartość dotyczy:Znacznik wersja 4.0 (wersja zapoznawcza) | Poprzednie wersje: niebieski znacznik wyboru v3.1 (GA) v3.0 (GA) niebieski znacznik wyboru

Ważne

Najlepsze rozwiązania dotyczące generowania oznaczonych zestawów danych dotyczą tylko niestandardowych szablonów i niestandardowych modeli neuronowych, w przypadku generowania niestandardowego, zapoznaj się z tematem Generowanie niestandardowe

Modele niestandardowe (szablon i neuronowy) wymagają zestawu danych oznaczonego etykietą co najmniej pięciu dokumentów w celu wytrenowania modelu. Jakość oznaczonego zestawu danych wpływa na dokładność wytrenowanego modelu. Ten przewodnik pomaga dowiedzieć się więcej na temat generowania modelu z wysoką dokładnością przez zebranie zróżnicowanego zestawu danych i zawiera najlepsze rozwiązania dotyczące etykietowania dokumentów.

Omówienie składników oznaczonego zestawu danych

Zestaw danych z etykietą składa się z kilku plików:

  • Udostępniasz zestaw przykładowych dokumentów (zazwyczaj plików PDF lub obrazów). Do wytrenowania modelu potrzebnych jest co najmniej pięć dokumentów.

  • Ponadto proces etykietowania generuje następujące pliki:

    • Plik fields.json jest tworzony po dodaniu pierwszego pola. Istnieje jeden fields.json plik dla całego zestawu danych trenowania, lista pól zawiera nazwę pola i skojarzone pola podrzędne i typy.

    • Program Studio uruchamia każdy z dokumentów za pośrednictwem interfejsu API układu. Odpowiedź układu dla każdego z przykładowych plików w zestawie danych jest dodawana jako {file}.ocr.json. Odpowiedź układu służy do generowania etykiet pól po oznaczeniu określonego zakresu tekstu.

    • Plik {file}.labels.json jest tworzony lub aktualizowany, gdy pole jest oznaczone etykietą w dokumencie. Plik etykiety zawiera zakresy tekstu i skojarzone wielokąty z danych wyjściowych układu dla każdego zakresu tekstu, które użytkownik dodaje jako wartość dla określonego pola.

Wideo: Porady i wskaźniki etykiet niestandardowych

  • Poniższy film wideo to pierwsza z dwóch prezentacji, które ułatwiają tworzenie modeli niestandardowych z większą dokładnością (druga prezentacja analizuje najlepsze rozwiązania dotyczące etykietowania dokumentów).

  • Dowiesz się, jak utworzyć zrównoważony zestaw danych i wybrać odpowiednie dokumenty do etykiety. Ten proces ustawia cię na ścieżce do modeli o wyższej jakości.

Tworzenie zrównoważonego zestawu danych

Przed rozpoczęciem etykietowania warto zapoznać się z kilkoma różnymi przykładami dokumentu w celu zidentyfikowania przykładów, których chcesz użyć w oznaczonym zestawie danych. Zrównoważony zestaw danych reprezentuje wszystkie typowe odmiany, które powinny być widoczne dla dokumentu. Utworzenie zrównoważonego zestawu danych powoduje utworzenie modelu z największą możliwą dokładnością. Oto kilka przykładów, które należy wziąć pod uwagę:

  • Formaty dokumentów: jeśli oczekujesz, że przeanalizujesz zarówno dokumenty cyfrowe, jak i zeskanowane, dodaj kilka przykładów każdego typu do zestawu danych trenowania.

  • Odmiany (model szablonu): rozważ podzielenie zestawu danych na foldery i wytrenowanie modelu dla każdej odmiany. Wszelkie odmiany, które obejmują strukturę lub układ, powinny być podzielone na różne modele. Następnie można utworzyć poszczególne modele w jednym skomponowanym modelu.

  • Odmiany (modele neuronowe): jeśli zestaw danych ma zarządzany zestaw odmian, około 15 lub mniej, utwórz pojedynczy zestaw danych z kilkoma próbkami każdego z różnych odmian w celu wytrenowania pojedynczego modelu. Jeśli liczba odmian szablonu jest większa niż 15, należy wytrenować wiele modeli i utworzyć je razem.

  • Tabele: w przypadku dokumentów zawierających tabele ze zmienną liczbą wierszy upewnij się, że zestaw danych trenowania reprezentuje również dokumenty z różnymi liczbami wierszy.

  • Tabele wielostronicowe: gdy tabele obejmują wiele stron, oznacz etykietą pojedynczą tabelę. Dodaj dokumenty do zestawu danych trenowania z reprezentowanymi oczekiwanymi odmianami — dokumenty z tabelą tylko na jednej stronie i dokumenty z tabelą obejmującą co najmniej dwie strony ze wszystkimi wierszami oznaczonymi etykietami.

  • Pola opcjonalne: jeśli zestaw danych zawiera dokumenty z opcjonalnymi polami, sprawdź, czy zestaw danych szkoleniowych zawiera kilka dokumentów z reprezentowanymi opcjami.

Zacznij od zidentyfikowania pól

Pośmiń czas na zidentyfikowanie każdego pola, które mają być oznaczone etykietą w zestawie danych. Zwróć uwagę na pola opcjonalne. Zdefiniuj pola z etykietami, które najlepiej pasują do obsługiwanych typów.

Użyj poniższych wskazówek, aby zdefiniować pola:

  • W przypadku niestandardowych modeli neuronowych użyj semantycznie odpowiednich nazw dla pól. Jeśli na przykład wyodrębniona wartość to Effective Date, nadaj jej effective_date EffectiveDate nazwę ogólną, taką jak date1.

  • Najlepiej nazwać pola literami Pascal lub camel.

  • Jeśli wartość jest częścią wizualnej powtarzanej struktury i potrzebujesz tylko jednej wartości, oznacz ją jako tabelę i wyodrębnij wymaganą wartość podczas przetwarzania końcowego.

  • W przypadku pól tabelarycznych obejmujących wiele stron zdefiniuj i oznacz pola jako jedną tabelę.

Uwaga

Niestandardowe modele neuronowe mają ten sam format i strategię etykietowania co niestandardowe modele szablonów. Obecnie niestandardowe modele neuronowe obsługują tylko podzestaw typów pól obsługiwanych przez niestandardowe modele szablonów.

Możliwości modelu

Niestandardowe modele neuronowe obsługują obecnie tylko pary klucz-wartość, pola strukturalne (tabele) i znaczniki wyboru.

Typ modelu Pola formularza Znaczniki zaznaczenia Pola tabelaryczne Podpis Region (Region) Nakładające się pola
Niestandardowe neuronowe ✔️Obsługiwane ✔️Obsługiwane ✔️Obsługiwane Nieobsługiwane ✔️Obsługiwane1 ✔️Obsługiwane2
Szablon niestandardowy ✔️Obsługiwane ✔️Obsługiwane ✔️Obsługiwane ✔️Obsługiwane ✔️Obsługiwane Nieobsługiwane

1 Implementacja etykietowania regionów różni się między modelami szablonów i neuronowymi. W przypadku modeli szablonów proces trenowania wprowadza syntetyczne dane w czasie trenowania, jeśli w regionie oznaczonym etykietą nie zostanie znaleziony żaden tekst. W przypadku modeli neuronowych nie jest wstrzykiwany syntetyczny tekst, a rozpoznany tekst jest używany w następujący sposób.
2 Nakładające się pola są obsługiwane począwszy od wersji 2024-02-29-preview interfejsu API i nowszych. Nakładające się pola mają pewne limity. Aby uzyskać więcej informacji, zobacz nakładające się pola.

Pola tabelaryczne

Pola tabelaryczne (tabele) są obsługiwane w przypadku niestandardowych modeli neuronowych rozpoczynających się od wersji 2022-06-30-previewinterfejsu API . Modele wytrenowane przy użyciu interfejsu API w wersji 2022-06-30-preview lub nowszej będą akceptować etykiety pól tabelarycznych i dokumenty analizowane przy użyciu modelu z interfejsem API w wersji 2022-06-30-preview lub nowszym będą tworzyć pola tabelaryczne w danych wyjściowych w documents sekcji wyniku analyzeResult obiektu.

Pola tabelaryczne domyślnie obsługują tabele krzyżowe . Aby oznaczyć tabelę obejmującą wiele stron, należy oznaczyć każdy wiersz tabeli na różnych stronach w pojedynczej tabeli. Najlepszym rozwiązaniem jest upewnienie się, że zestaw danych zawiera kilka przykładów oczekiwanych odmian. Na przykład uwzględnij oba przykłady, w których cała tabela znajduje się na jednej stronie, oraz przykłady tabeli obejmującej co najmniej dwie strony.

Pola tabelaryczne są również przydatne podczas wyodrębniania powtarzających się informacji w dokumencie, który nie jest rozpoznawany jako tabela. Na przykład powtarzające się sekcje środowisk roboczych w wznowieniu można oznaczyć i wyodrębnić jako pole tabelaryczne.

Uwaga

Pole tabeli po oznaczeniu etykietą jest wyodrębniane jako część documents sekcji odpowiedzi. Odpowiedź zawiera również sekcję zawierającą tables tabele wyodrębnione z dokumentu przez model układu. Jeśli pole zostało oznaczone jako tabela, poszukaj pola w sekcji dokumenty odpowiedzi.

Wytyczne dotyczące etykietowania

  • Wymagane jest etykietowanie wartości. Nie dołączaj otaczającego tekstu. Na przykład podczas etykietowania pola wyboru nazwij pole wyboru, aby wskazać zaznaczenie pola wyboru, na przykład selectionYes i selectionNo zamiast oznaczać tekst tak lub bez tekstu w dokumencie.

  • Nie udostępniaj wartości pól przeplatania. Wartość wyrazów i/lub regionów jednego pola musi być kolejną sekwencją w kolejności odczytu naturalnego.

  • Spójne etykietowanie. Jeśli wartość jest wyświetlana w wielu kontekstach w dokumencie, konsekwentnie wybieraj ten sam kontekst między dokumentami, aby oznaczyć wartość.

  • Wizualnie powtarzające się dane. Tabele obsługują wizualne powtarzanie grup informacji nie tylko jawnych tabel. Jawne tabele są identyfikowane w sekcji tabel analizowanych dokumentów w ramach danych wyjściowych układu i nie muszą być oznaczone jako tabele. Etykieta pola tabeli tylko wtedy, gdy informacje są powtarzane wizualnie i nie są identyfikowane jako tabela w ramach odpowiedzi układu. Przykładem może być sekcja powtarzającego się środowiska pracy w wznowieniu.

  • Etykietowanie regionów (szablon niestandardowy). Etykietowanie określonych regionów umożliwia zdefiniowanie wartości, jeśli żadna z nich nie istnieje. Jeśli wartość jest opcjonalna, upewnij się, że pozostawisz kilka przykładowych dokumentów z regionem, który nie jest oznaczony etykietą. W przypadku etykietowania regionów nie dołączaj otaczającego tekstu do etykiety.

  • Nakładające się pola (niestandardowe neuronowe). Etykieta pola nakłada się przy użyciu etykietowania regionów. Upewnij się, że masz co najmniej przykład, który opisuje, jak pola mogą nakładać się na zestaw danych trenowania.

Następne kroki