Model vlastních šablon Document Intelligence
Tento obsah se vztahuje na: v2.1 | Nejnovější verze: v4.0 (GA)
Vlastní šablona (dříve vlastní formulář) je snadno natrénovaný model dokumentu, který z dokumentů přesně extrahuje páry klíč-hodnota s popiskem, značky výběru, tabulky, oblasti a podpisy. Modely šablon používají k extrakci hodnot z dokumentů pomůcky rozložení a jsou vhodné k extrakci polí z vysoce strukturovaných dokumentů s definovanými vizuálními šablonami.
Vlastní modely šablon sdílejí stejný formát a strategii popisování jako vlastní neurální modely s podporou více typů polí a jazyků.
Možnosti modelu
Vlastní modely šablon podporují páry klíč-hodnota, značky výběru, tabulky, pole podpisu a vybrané oblasti.
Pole formuláře | Značky výběru | Tabulková pole (tabulky) | Podpis | Vybrané oblasti | Překrývající se pole |
---|---|---|---|---|---|
Podporováno | Podporováno | Podporováno | Podporováno | Podporováno | Nepodporováno |
Tabulková pole
S verzí rozhraní API verze 3.0 a novějšími modely vlastních šablon přidávají podporu pro tabulková pole napříč stránkami (tabulky):
- Pokud chcete označit tabulku, která zahrnuje více stránek, označte každý řádek tabulky napříč různými stránkami v jedné tabulce.
- Osvědčeným postupem je zajistit, aby vaše datová sada obsahovala několik ukázek očekávaných variant. Můžete například zahrnout ukázky, kde je celá tabulka na jedné stránce a kde tabulky pokrývají dvě nebo více stránek, pokud očekáváte, že se tyto varianty zobrazí v dokumentech.
Tabulková pole jsou užitečná také při extrahování opakujících se informací v dokumentu, který není rozpoznán jako tabulka. Například opakující se část pracovních zkušeností v životopisu může být označena a extrahována jako tabulkové pole.
Práce s variantami
Modely šablon spoléhají na definovanou vizuální šablonu, změny šablony mají za následek nižší přesnost. V těchto případech rozdělte trénovací datovou sadu tak, aby obsahovala aspoň pět ukázek každé šablony a vytrénuje model pro každou variantu. Modely pak můžete vytvořit do jednoho koncového bodu. U drobných variant, jako jsou digitální dokumenty PDF a obrázky, je nejlepší zahrnout alespoň pět příkladů každého typu do stejné trénovací datové sady.
Požadavky na vstup
Nejlepšíchvýsledkůch
Podporované formáty souborů:
Model PDF Obrázek:
JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
systém Microsoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) a HTMLČteno ✔ ✔ ✔ Rozložení ✔ ✔ ✔ Obecný dokument ✔ ✔ Předpřipravený ✔ ✔ Vlastní ✔ ✔ ✱ systém Microsoft Office soubory nejsou v současné době podporovány pro jiné modely nebo verze.
U SOUBORŮ PDF a TIFF je možné zpracovat až 2 000 stránek (s předplatným úrovně Free se zpracuje pouze první dvě stránky).
Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).
Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.
Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.
Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá
8
bodě v 150 bodech na paleč (DPI
).Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.
Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.
Pro trénování modelu vlastní klasifikace je
1GB
celková velikost trénovacích dat s maximálně 10 000 stránkami.
Trénování modelu
Vlastní modely šablon jsou obecně dostupné od rozhraní API verze 2.0 a novějších verzí. Pokud začínáte s novým projektem nebo máte existující datovou sadu označenou jako datovou sadu, použijte rozhraní API v3.1 nebo v3.0 se sadou Document Intelligence Studio k trénování vlastního modelu šablony.
Model | REST API | Sada SDK | Popisky a testovací modely |
---|---|---|---|
Vlastní šablona | Rozhraní API v3.1 | Document Intelligence SDK | Document Intelligence Studio |
S rozhraními API verze 3.0 a novějšími rozhraními API podporuje operace sestavení pro trénování modelu novou buildMode
vlastnost, pro trénování vlastního modelu šablony buildMode
nastavte na template
hodnotu .
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Vlastní modely šablon jsou obecně dostupné s rozhraním API verze 3.1. Pokud začínáte s novým projektem nebo máte existující datovou sadu označenou jako datovou sadu, použijte rozhraní API v3.1 nebo v3.0 se sadou Document Intelligence Studio k trénování vlastního modelu šablony.
Model | REST API | Sada SDK | Popisky a testovací modely |
---|---|---|---|
Vlastní šablona | Rozhraní API v3.1 | Document Intelligence SDK | Document Intelligence Studio |
S rozhraními API verze 3.0 a novějšími rozhraními API podporuje operace sestavení pro trénování modelu novou buildMode
vlastnost, pro trénování vlastního modelu šablony buildMode
nastavte na template
hodnotu .
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Podporované jazyky a národní prostředí
Úplný seznam podporovaných jazyků najdete na naší stránce podpory jazyků – vlastní modely .
Vlastní modely (šablony) jsou obecně dostupné s rozhraním API verze 2.1.
Model | REST API | Sada SDK | Popisky a testovací modely |
---|---|---|---|
Vlastní model (šablona) | Document Intelligence 2.1 | Document Intelligence SDK | Nástroj pro popisování ukázka funkce Document Intelligence |
Další kroky
Naučte se vytvářet a vytvářet vlastní modely: