Sdílet prostřednictvím


Extrahování dat a čísel z dokumentů

Zatímco mnoho polí, která mají být extrahována, jsou jednoduché texty, existují případy, kdy informace k extrakci je datum nebo číslo včetně částek.

Import těchto dat do cílového systému může být těžkopádný a vyžaduje značnou vlastní konverzní logiku. Většina importních konektorů a rozhraní API přijímá pouze normalizovaná data ve formátu ISO 8601 jako YYYY-MM-DD. Přijímají také pouze čísla používající tečku (.)jako oddělovač desetinných míst bez oddělovače tisíců JAKO NNN.DD.

Chcete-li se dozvědět více o formátu data, přejděte na Formát data a času ISO 8601.

Přidali jsme možnost deklarovat tento typ během kroku průvodce vytvořením pole a zvolit datum nebo číselnou konvenci (ekvivalentní k národnímu prostředí).

Konvence data

Následující příklad ukazuje výpis hypotéky s datem.

Snímek obrazovky „Pole Datum“ v „Přehledu“.

Následující příklad ukazuje formáty polí data.

Snímek obrazovky formátu 'Pole data'.

Podporované formáty data

Při definování pole vyberte mezi Rok, měsíc, den; Měsíc, den, rok a Den, měsíc, rok.

Jako oddělovače data lze použít následující znaky: ,-/.\. Mezery nelze použít jako oddělovač. Příklad:

  • 01,01,2020
  • 01-01-2020
  • 01/01/2020

Den a měsíc mohou být zapsány jako jedna nebo dvě číslice a rok může být dvou nebo čtyř číslic:

  • 1-1-2020
  • 1-01-20

Pokud má řetězec data osm číslic, je oddělovač volitelný:

  • 01012020
  • 01 01 2020

Měsíc lze také napsat jako celý nebo krátký název. Pokud je použit název, jsou oddělovací znaky volitelné. Tento formát však může být rozpoznán méně přesně než ostatní.

  • 01/Jan/2020
  • 01Jan2020
  • 01 Jan 2020

Číselné konvence

Následující příklad ukazuje výpis hypotéky s číselnými poli.

Snímek obrazovky „Číselné pole

Následující příklad ukazuje formáty polí čísla.

Snímek obrazovky formátu 'Číselné pole'.

Poznámka:

Pro každé pole je povolena pouze jedna konvence pro dané pole pro všechny kolekce tohoto modelu. Pokud například vyjmete hodnotu pole výběrem Použít čárku (,) jako oddělovač desetinných míst, následující text 1234,56 nebo 1 234,56 se převede na 1234.56. Částky ve formátu 12 34 576.78 nebo 1 234.56 se nepřevádějí.

Během extrakce se text automaticky převede podle poskytnuté konvence. Tuto převedenou hodnotu lze získat pomocí výsledku YOURFIELDNAME value. Tato hodnota je prázdná, pokud převod není možný. Původní text lze získat pomocí výsledku YOURFIELDNAME text.

Podporované formáty čísel

Při definování pole zvolte buď Použít tečku (.) jako oddělovač desetinných míst nebo Použít jako oddělovač desetinných míst čárku (,).

Když je oddělovač desetin tečka (.), lze oddělovače tisíců vynechat a lze použít čárku (,) nebo mezery. Příklad:

  • 1234.56
  • 1,234.56
  • 1 234.56

Pokud je oddělovač desetinných míst čárka (,), lze oddělovače tisíců nebo mezeru vynechat. Příklad:

  • 1234,56
  • 1 234.56

Další krok

Trénování a publikování modelu pro zpracování dokumentů

Školení: Zpracování vlastních dokumentů pomocí nástroje AI Builder (modul)