Sdílet prostřednictvím


Osvědčené postupy: Generování datových sad označených popiskem

Tento obsah se vztahuje na:Zaškrtnutí v4.0 (GA) | Předchozí verze:modrá značka zaškrtnutí v3.1 (GA)modrá značka zaškrtnutí v3.0 (GA)

Vlastní modely (šablona a neurální) vyžadují pro trénování modelu datovou sadu s popiskem nejméně pěti dokumentů. Kvalita označené datové sady ovlivňuje přesnost natrénovaného modelu. Tato příručka vám pomůže získat další informace o generování modelu s vysokou přesností sestavením různorodé datové sady a poskytuje osvědčené postupy pro označování dokumentů.

Vysvětlení komponent datové sady s popiskem

Datová sada s popiskem se skládá z několika souborů:

  • Zadáte sadu ukázkových dokumentů (obvykle PDF nebo obrázky). K trénování modelu je potřeba minimálně pět dokumentů.

  • Proces popisování navíc vygeneruje následující soubory:

    • Soubor fields.json se vytvoří při přidání prvního pole. Pro celou trénovací datovou sadu existuje jeden fields.json soubor, seznam polí obsahuje název pole a přidružená dílčí pole a typy.

    • Studio spouští jednotlivé dokumenty prostřednictvím rozhraní API rozložení. Odpověď rozložení pro každý z ukázkových souborů v datové sadě se přidá jako {file}.ocr.json. Odpověď rozložení se používá k vygenerování popisků polí při označení konkrétního rozsahu textu.

    • Soubor {file}.labels.json se vytvoří nebo aktualizuje, když je pole označené v dokumentu. Soubor popisku obsahuje rozsahy textu a přidružené mnohoúhelníky z výstupu rozložení pro každé rozpětí textu, který uživatel přidá jako hodnotu pro konkrétní pole.

Video: Vlastní popisky a ukazatele

  • Následující video je první ze dvou prezentací, které vám pomůžou vytvářet vlastní modely s vyšší přesností (druhá prezentace zkoumá osvědčené postupy pro označování dokumentů).

  • Prozkoumáme, jak vytvořit vyváženou datovou sadu a vybrat správné dokumenty, které chcete označit. Tento proces vás nastaví na cestu k modelům s vyšší kvalitou.

Vytvoření vyvážené datové sady

Než začnete popisovat, je vhodné se podívat na několik různých ukázek dokumentu a zjistit, které ukázky chcete použít ve své datové sadě s popiskem. Vyvážená datová sada představuje všechny typické varianty, které byste očekávali pro dokument. Vytvoření vyvážené datové sady vede k vytvoření modelu s nejvyšší možnou přesností. Několik příkladů, které je potřeba vzít v úvahu, jsou:

  • Formáty dokumentů: Pokud očekáváte, že budete analyzovat digitální i naskenované dokumenty, přidejte do trénovací datové sady několik příkladů každého typu.

  • Varianty (model šablony):: Zvažte rozdělení datové sady do složek a trénování modelu pro každou variantu. Všechny varianty, které zahrnují strukturu nebo rozložení, by se měly rozdělit do různých modelů. Jednotlivé modely pak můžete vytvořit do jednoho složeného modelu.

  • Varianty (neurální modely): Pokud vaše datová sada obsahuje spravovatelnou sadu variant, přibližně 15 nebo méně, vytvořte jednu datovou sadu s několika ukázkami každé z různých variant pro trénování jednoho modelu. Pokud je počet variant šablon větší než 15, vytrénujete více modelů a vytvoříte je společně.

  • Tabulky: Pro dokumenty obsahující tabulky s proměnlivým počtem řádků zajistěte, aby trénovací datová sada také představovala dokumenty s různými čísly řádků.

  • Vícestrákové tabulky: Když tabulky pokrývají více stránek, označte jednu tabulku. Přidejte dokumenty do trénovací datové sady se znázorněnými očekávanými variantami – dokumenty s tabulkou jenom na jedné stránce a dokumenty s tabulkou, která obsahuje dvě nebo více stránek se všemi řádky označenými.

  • Nepovinná pole: Pokud datová sada obsahuje dokumenty s volitelnými poli, ověřte, že trénovací datová sada obsahuje několik dokumentů s možnostmi, které jsou reprezentované.

Začněte tím, že identifikujete pole.

Najděte si čas, abyste identifikovali jednotlivá pole, která chcete v datové sadě označovat. Věnujte pozornost volitelným polím. Definujte pole s popisky, které nejlépe odpovídají podporovaným typům.

K definování polí použijte následující pokyny:

  • Pro vlastní neurální modely použijte pro pole sémanticky relevantní názvy. Pokud je například extrahovaná hodnota , pojmenujte ji effective_date nebo ne obecný název, jako je Effective Datedatum1EffectiveDate.

  • V ideálním případě pojmenujte pole pomocí Pascalu nebo velbloudího případu.

  • Pokud je hodnota součástí vizuálně opakující se struktury a potřebujete jen jednu hodnotu, označte ji jako tabulku a extrahujte požadovanou hodnotu během následného zpracování.

  • Pro tabulková pole, která pokrývají více stránek, definujte a označte pole jako jednu tabulku.

Poznámka:

Vlastní neurální modely sdílejí stejný formát a strategii popisování jako vlastní modely šablon. Vlastní neurální modely v současné době podporují pouze podmnožinu typů polí podporovaných vlastními modely šablon.

Možnosti modelu

Vlastní neurální modely v současné době podporují pouze páry klíč-hodnota, strukturovaná pole (tabulky) a značky výběru.

Typ modelu Pole formuláře Značky výběru Tabulková pole Podpis Oblast Překrývající se pole
Vlastní neurální ✔️Podporovaný ✔️Podporovaný ✔️Podporovaný Nepodporované ✔️Podporováno1 ✔️Podporováno2
Vlastní šablona ✔️Podporovaný ✔️Podporovaný ✔️Podporovaný ✔️Podporovaný ✔️Podporovaný Nepodporované

1 Implementace popisování oblastí se liší mezi šablonami a neurálními modely. V případě modelů šablon proces trénování vloží syntetická data v době trénování, pokud se v dané oblasti nenajde žádný text. U neurálních modelů se nevkážou žádný syntetický text a rozpoznaný text se použije tak, jak je.
2 Překrývající se pole jsou podporována počínaje verzí v4.0 2024-11-30 (GA)rozhraní API . Překrývající se pole mají určitá omezení. Další informace najdete v překrývajících se polích.

Tabulková pole

Tabulková pole (tabulky) se podporují u vlastních neurálních modelů s verzí v4.0 2024-11-30 (GA)rozhraní API. Modely natrénované pomocí rozhraní API verze 2022-06-30-preview nebo novější přijímají popisky tabulkových polí a dokumenty analyzované pomocí modelu s rozhraním API verze 2022-06-30-preview nebo novějším, vytvoří ve výstupu tabulková pole v documents rámci oddílu výsledku v objektu analyzeResult .

Tabulková pole ve výchozím nastavení podporují tabulky křížových stránek . Pokud chcete označit tabulku, která zahrnuje více stránek, označte každý řádek tabulky napříč různými stránkami v jedné tabulce. Osvědčeným postupem je zajistit, aby vaše datová sada obsahovala několik ukázek očekávaných variant. Zahrnout například obě ukázky, kde je celá tabulka na jedné stránce, a ukázky tabulky, které pokrývají dvě nebo více stránek.

Tabulková pole jsou užitečná také při extrahování opakujících se informací v dokumentu, který není rozpoznán jako tabulka. Například opakující se část pracovních zkušeností v životopisu může být označena a extrahována jako tabulkové pole.

Poznámka:

Pole tabulky při označení se extrahuje jako součást documents oddílu odpovědi. Odpověď obsahuje tables také oddíl, který obsahuje tabulky extrahované z dokumentu modelem rozložení. Pokud jste označili pole jako tabulku, vyhledejte pole v části dokumenty odpovědi.

Pokyny pro označování

  • Hodnoty popisků jsou povinné. Nezahrnujte okolní text. Například při označování zaškrtávacího políčka pojmenujte pole, které označuje výběr zaškrtávacího políčka, například selectionYes místo selectionNo označení ano nebo ne textu v dokumentu.

  • Nezadávejte hodnoty prokládání polí. Hodnota slov a/nebo oblastí jednoho pole musí být po sobě jdoucí sekvence v přirozeném pořadí čtení.

  • Konzistentní označování. Pokud se hodnota zobrazí v několika kontextech v dokumentu, konzistentně vyberte stejný kontext v dokumentech a označte hodnotu.

  • Vizuálně se opakující data. Tabulky podporují vizuálně opakující se skupiny informací, nejen explicitní tabulky. Explicitní tabulky jsou identifikovány v oddílu tabulek analyzovaných dokumentů jako součást výstupu rozložení a nemusí být označeny jako tabulky. Označte pole tabulky pouze v případě, že se informace vizuálně opakují a nejsou identifikované jako tabulka jako součást odpovědi rozložení. Příkladem je část opakujícího se pracovního prostředí životopisu.

  • Popisování oblastí (vlastní šablona) Popisování konkrétních oblastí umožňuje definovat hodnotu, pokud neexistuje. Pokud je hodnota nepovinná, ujistěte se, že necháte několik ukázkových dokumentů s oblastí, která není označená. Při označování oblastí nezahrnujte okolní text do popisku.

  • Překrývající se pole (vlastní neurální) Označte pole překrývající se pomocí popisků oblastí. Ujistěte se, že máte alespoň ukázku, která popisuje, jak se pole můžou překrývat v trénovací datové sadě.

Další kroky