Sdílet prostřednictvím


Možnosti doplňku Document Intelligence

Tento obsah se vztahuje na: Zaškrtnutí v4.0 (GA) | Předchozí verze: modrá značka zaškrtnutív3.1 (GA) :::moniker-end

Tento obsah se vztahuje na:Zaškrtnutí v3.1 (GA) | Nejnovější verze: nachová značka zaškrtnutí v4.0 (GA)

Poznámka:

Možnosti doplňků jsou dostupné ve všech modelech s výjimkou modelu vizitky.

Možnosti

Funkce Document Intelligence podporuje sofistikovanější a modulární možnosti analýzy. Pomocí funkcí doplňku můžete výsledky rozšířit tak, aby zahrnovaly další funkce extrahované z dokumentů. Za některé funkce doplňku se účtují další náklady. Tyto volitelné funkce je možné povolit a zakázat v závislosti na scénáři extrakce dokumentů. Pokud chcete funkci povolit, přidejte název přidružené funkce do features vlastnosti řetězce dotazu. V požadavku můžete povolit více než jednu funkci doplňku tak, že poskytnete seznam funkcí oddělených čárkami. Následující možnosti doplňku jsou k dispozici pro 2023-07-31 (GA) a novější verze.

Poznámka:

  • Všechny funkce doplňku nejsou podporovány všemi modely. Další informace najdete v tématu extrakce dat modelu.

  • Možnosti doplňků se v současné době nepodporují pro typy souborů systém Microsoft Office.

Dostupnost verzí

Funkce doplňku Doplněk nebo zdarma 2024-11-30 (GA) 2023-07-31 (GA) 2022-08-31 (GA) v2.1 (GA)
Extrakce vlastností písma Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce vzorců Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce s vysokým rozlišením Doplněk ✔️ ✔️ Není k dispozici Není k dispozici
Extrakce čárových kódů Bezplatný ✔️ ✔️ Není k dispozici Není k dispozici
Rozpoznávání jazyka Bezplatný ✔️ ✔️ Není k dispozici Není k dispozici
Páry klíč-hodnota Bezplatný ✔️ Není k dispozici Není k dispozici
Pole dotazu Doplněk* ✔️ Není k dispozici Není k dispozici
Searhable pdf Doplněk** ✔️ Není k dispozici Není k dispozici

✱ Doplňky – Pole dotazu se za ceny liší od ostatních funkcí doplňku. Podrobnosti najdete na stránce s cenami .
** Doplněk – Prohledávatelný soubor PDF je k dispozici pouze s modelem pro čtení jako doplňkovou funkcí.

Podporované formáty souborů

  • PDF

  • Obrázky: JPEG/JPG, PNG, BMP, TIFFHEIF

✱ systém Microsoft Office soubory se v současné době nepodporují.

Extrakce s vysokým rozlišením

Úkolem rozpoznání malého textu z rozsáhlých dokumentů, jako jsou technické výkresy, je výzva. Text je často smíšený s jinými grafickými prvky a má různá písma, velikosti a orientace. Kromě toho lze text rozdělit do samostatných částí nebo spojit s jinými symboly. Funkce Document Intelligence teď podporuje extrakci obsahu z těchto typů dokumentů s ocr.highResolution možností. Díky povolení této možnosti doplňku získáte lepší kvalitu extrakce obsahu z dokumentů A1/A2/A3.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

Extrakce vzorců

Funkce ocr.formula extrahuje všechny identifikované vzorce, jako jsou matematické rovnice, v formulas kolekci jako objekt nejvyšší úrovně v části content. Uvnitř content, zjištěné vzorce jsou reprezentovány jako :formula:. Každá položka v této kolekci představuje vzorec, který obsahuje typ vzorce jako inline nebo displaya jeho reprezentaci LaTeX stejně jako value souřadnice polygon . Na začátku se vzorce zobrazí na konci každé stránky.

Poznámka:

Skóre confidence je pevně zakódované.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

Extrakce vlastností písma

Funkce ocr.font extrahuje všechny vlastnosti písma textu extrahovaného v kolekci jako objekt nejvyšší úrovně v styles části content. Každý objekt stylu určuje jednu vlastnost písma, rozsah textu, na který se vztahuje, a odpovídající skóre spolehlivosti. Existující vlastnost stylu je rozšířena o další vlastnosti písma, například similarFontFamily pro písmo textu, pro styly, fontStyle jako je kurzíva a normální, pro tučné nebo normální, color fontWeight pro barvu textu a backgroundColor barvu ohraničujícího pole textu.

  {your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
  {your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

Extrakce vlastností čárového kódu

Funkce ocr.barcode extrahuje všechny identifikované čárové kódy v kolekci jako objekt nejvyšší úrovně v barcodes části content. contentUvnitř , zjištěné čárové kódy jsou reprezentovány jako :barcode:. Každá položka v této kolekci představuje čárový kód a zahrnuje typ čárového kódu jako kind a vložený obsah čárového kódu spolu value s jeho polygon souřadnicemi. Na začátku se na konci každé stránky zobrazí čárové kódy. Kód confidence je pevně zakódován jako 1.

Podporované typy čárových kódů

Typ čárového kódu Příklad
QR Code Snímek obrazovky s kódem QR
Code 39 Snímek obrazovky s kódem 39
Code 93 Snímek obrazovky s kódem 93
Code 128 Snímek obrazovky s kódem 128
UPC (UPC-A & UPC-E) Snímek obrazovky upC
PDF417 Snímek obrazovky s PDF417
EAN-8 Snímek obrazovky s čárovým kódem číslo evropského článku ean-8
EAN-13 Snímek obrazovky s čárovým kódem evropského článku ean-13
Codabar Snímek obrazovky s panelem Codabar
Databar Snímek obrazovky s datovým pruhem
Databar Rozšířený Snímek obrazovky s rozbaleným datovým pruhem
ITF Snímek obrazovky s prokládáním dvou z pěti čárových kódů (ITF).
Data Matrix Snímek obrazovky s datovou maticí
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

Rozpoznávání jazyka

languages Přidání funkce do analyzeResult požadavku předpovídá rozpoznaný primární jazyk pro každý řádek textu spolu s textem confidence v kolekci languages v části analyzeResult.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

Prohledávatelný SOUBOR PDF

Funkce prohledávatelného PDF umožňuje převést analogové SOUBORY PDF, jako jsou naskenované soubory PDF, do PDF s vloženým textem. Vložený text umožňuje hloubkové vyhledávání textu v extrahovaném obsahu PDF tak, že překryjí zjištěné textové entity nad soubory obrázků.

Důležité

  • V současné době je prohledávatelná funkce PDF podporována pouze pro čtení modelu prebuilt-readOCR . Při použití této funkce zadejte modelId jako prebuilt-read.
  • Prohledávatelné PDF je součástí modelu GA (2024-11-30) prebuilt-read bez nákladů na využití pro obecnou spotřebu PDF.

Použití prohledávatelného PDF

Pokud chcete použít prohledávatelný SOUBOR PDF, vytvořte POST požadavek pomocí Analyze operace a zadejte výstupní formát takto pdf:


POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202

Analyze Po dokončení operace vytvořte GET požadavek na načtení Analyze výsledků operace.

Po úspěšném dokončení lze soubor PDF načíst a stáhnout jako application/pdf. Tato operace umožňuje přímé stažení vloženého textového formátu PDF místo formátu JSON s kódováním Base64.


// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}

// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf

Páry klíč-hodnota

V dřívějších verzích prebuilt-document rozhraní API model extrahovali páry klíč-hodnota z formulářů a dokumentů. S přidáním keyValuePairs funkce k předem sestaveným rozložením teď model rozložení vytvoří stejné výsledky.

Páry klíč-hodnota jsou specifické rozsahy v dokumentu, které identifikují popisek nebo klíč a jeho přidruženou odpověď nebo hodnotu. Ve strukturovaném formuláři můžou být tyto páry popiskem a hodnotou, kterou uživatel zadal pro toto pole. V nestrukturovaném dokumentu můžou být datum, kdy byla smlouva provedena na základě textu v odstavci. Model AI se vytrénuje tak, aby extrahovala identifikovatelné klíče a hodnoty na základě široké škály typů dokumentů, formátů a struktur.

Klíče mohou existovat také izolovaně, když model zjistí, že klíč existuje, bez přidružené hodnoty nebo při zpracování volitelných polí. Například pole s prostředním názvem může být v některých případech prázdné ve formuláři. Páry klíč-hodnota jsou rozsahy textu obsaženého v dokumentu. U dokumentů, ve kterých je stejná hodnota popsaná různými způsoby, například zákazník/uživatel, je přidruženým klíčem zákazník nebo uživatel (na základě kontextu).

REST API

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs

Pole dotazu

Pole dotazů jsou doplňkovou funkcí pro rozšíření schématu extrahovaného z libovolného předem vytvořeného modelu nebo definování konkrétního názvu klíče, pokud je název klíče proměnný. Pokud chcete použít pole dotazu, nastavte funkce tak, aby queryFields ve vlastnosti poskytovaly čárkami oddělený seznam názvů queryFields polí.

  • Funkce Document Intelligence teď podporuje extrakce polí dotazu. Pomocí extrakce polí dotazu můžete do procesu extrakce přidat pole pomocí požadavku na dotaz, aniž by bylo potřeba přidat trénování.

  • Pole dotazu použijte v případě, že potřebujete rozšířit schéma předem vytvořeného nebo vlastního modelu nebo potřebujete extrahovat několik polí s výstupem rozložení.

  • Pole dotazů jsou funkce doplňku Premium. Nejlepších výsledků dosáhnete tak, že definujete pole, která chcete extrahovat pomocí názvů polí velbloudí nebo Pascal pro názvy polí s více slovy.

  • Pole dotazu podporují maximálně 20 polí na požadavek. Pokud dokument obsahuje hodnotu pole, vrátí se pole a hodnota.

  • Tato verze obsahuje novou implementaci schopností polí dotazů, která má nižší cenu než předchozí implementace, a měla by být ověřena.

Poznámka:

Extrakce polí dotazů v sadě Document Intelligence Studio je aktuálně k dispozici s modely rozložení a předem připravených modelů 2024-11-30 (GA) API with the exception of the daně z USA (W2, 1098s a 1099s).

Extrakce polí dotazu

Pro extrakci polí dotazu zadejte pole, která chcete extrahovat, a funkce Document Intelligence dokument odpovídajícím způsobem analyzuje. Tady je příklad:

  • Pokud zpracováváte kontrakt v sadě Document Intelligence Studio, použijte verzi ga ( 2024-11-30):

    Snímek obrazovky s tlačítkem pole dotazu v nástroji Document Intelligence Studio

  • Můžete předat seznam popisků polí, jako Party1je , Party2, TermsOfUsePaymentTerms, PaymentDate, a TermEndDate jako součást analyze document požadavku.

    Snímek obrazovky s oknem výběru polí dotazu v nástroji Document Intelligence Studio

  • Funkce Document Intelligence dokáže analyzovat a extrahovat data polí a vracet hodnoty ve strukturovaném výstupu JSON.

  • Kromě polí dotazu odpověď zahrnuje text, tabulky, značky výběru a další relevantní data.

{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS

Další kroky

Ukázky sady SDK: Python

Najít další ukázky: Možnosti doplňku

Najít další ukázky: Možnosti doplňku