Vytváření vlastních modelů
styl zvýrazněníTento obsah se vztahuje na: v2.1 | Nejnovější verze: v4.0 (GA)
Důležité
Chování při vytváření modelů se změní pro api-version=2024-11-30 (GA). Další informace najdete ve složených vlastních modelech. Následující chování platí pouze pro verze 3.1 a předchozí verze.
Složený model se vytvoří tak, že vezme kolekci vlastních modelů a přiřadí je k jednomu ID modelu. K jednomu složeným ID modelu můžete přiřadit až 200 trénovaných vlastních modelů. Když je dokument odeslán do složeného modelu, služba provede krok klasifikace a rozhodne, který vlastní model přesně představuje formulář prezentovaný pro analýzu. Složené modely jsou užitečné při trénování několika modelů a chcete je seskupit za účelem analýzy podobných typů formulářů. Složený model může například zahrnovat vlastní modely natrénované k analýze dodávek, vybavení a nákupních objednávek nábytku. Místo ručního výběru vhodného modelu můžete použít složený model k určení vhodného vlastního modelu pro každou analýzu a extrakci.
Další informace najdete v tématu Složené vlastní modely.
V tomto článku se dozvíte, jak vytvářet a používat složené vlastní modely k analýze formulářů a dokumentů.
Požadavky
Abyste mohli začít, potřebujete následující zdroje informací:
Předplatné Azure. Můžete vytvořit bezplatné předplatné Azure.
Instance funkce Document Intelligence. Jakmile budete mít předplatné Azure, vytvořte na webu Azure Portal prostředek Document Intelligence, abyste získali klíč a koncový bod. Pokud máte existující prostředek Document Intelligence, přejděte přímo na stránku prostředku. Službu můžete vyzkoušet pomocí cenové úrovně Free (F0) a později upgradovat na placenou úroveň pro produkční prostředí.
Po nasazení prostředku vyberte Přejít k prostředku.
Zkopírujte hodnoty klíčů a koncových bodů z webu Azure Portal a vložte je do vhodného umístění, jako je Microsoft Notepad. K připojení aplikace k rozhraní DOCUMENT Intelligence API potřebujete hodnoty klíče a koncového bodu.
Tip
Další informace najdete v tématu vytvoření prostředku Document Intelligence.
- Účet úložiště Azure. Pokud nevíte, jak vytvořit účet úložiště Azure, postupujte podle rychlého startu pro Azure Storage pro Azure Portal. Službu můžete vyzkoušet pomocí cenové úrovně Free (F0) a později upgradovat na placenou úroveň pro produkční prostředí.
Vytvoření vlastních modelů
Nejprve potřebujete sadu vlastních modelů k vytvoření. Můžete použít sadu Document Intelligence Studio, rozhraní REST API nebo klientské knihovny. Kroky jsou následující:
- Sestavení trénovací datové sady
- Nahrání trénovací sady do úložiště objektů blob v Azure
- Trénování vlastních modelů
Sestavení trénovací datové sady
Vytvoření vlastního modelu začíná vytvořením trénovací datové sady. Pro ukázkovou datovou sadu potřebujete minimálně pět dokončených formulářů stejného typu. Můžou mít různé typy souborů (jpg, png, pdf, tiff) a obsahují text i rukopis. Formuláře musí splňovat vstupní požadavky pro funkci Document Intelligence.
Tip
Pokud chcete optimalizovat sadu dat pro trénování, postupujte podle těchto tipů:
- Pokud je to možné, místo obrázkových dokumentů používejte textové dokumenty PDF. Naskenované dokumenty PDF se zpracovávají jako obrázky.
- U vyplněných formulářů použijte příklady, které mají vyplněna všechna pole.
- Používejte formuláře s různými hodnotami v každém poli.
- Pokud jsou obrázky formuláře méně kvalitní, použijte větší datovou sadu (např. 10 až 15 obrázků).
Tipy ke shromažďování trénovacích dokumentů najdete v tématu Vytvoření trénovací sady dat.
Nahrání trénovací datové sady
Jakmile shromáždíte sadu trénovacích dokumentů, musíte nahrávat trénovací data do kontejneru úložiště objektů blob v Azure.
Pokud chcete použít ručně označená data, musíte nahrát .labels.json a .ocr.json soubory, které odpovídají vašim trénovacím dokumentům.
Trénování vlastního modelu
Při trénování modelu s označenými daty model pomocí učení pod dohledem extrahuje hodnoty zájmu pomocí vámi zadaných formulářů s popisky. Označená data mají za následek výkonnější modely a můžou vytvářet modely, které pracují se složitými formuláři nebo formuláři obsahujícími hodnoty bez klíčů.
Funkce Document Intelligence používá předem připravené rozhraní API modelu rozložení k získání informací o očekávaných velikostech a pozicích písma a ručně psaných textových prvků a extrahování tabulek. Potom pomocí popisků určených uživatelem zjistí přidružení klíč/hodnota a tabulky v dokumentech. K zahájení trénování nového modelu doporučujeme použít pět ručně označených formulářů stejného typu (stejné struktury). Potom podle potřeby přidejte další označená data, aby se zlepšila přesnost modelu. Funkce Document Intelligence umožňuje trénování modelu k extrakci párů klíč-hodnota a tabulek pomocí funkcí učení pod dohledem.
Pokud chcete vytvořit vlastní modely, začněte konfigurací projektu:
Na domovské stránce studia vyberte Vytvořit nový na kartě Vlastní model.
➕ Pomocí příkazu Vytvořit projekt spusťte průvodce konfigurací nového projektu.
Zadejte podrobnosti o projektu, vyberte předplatné a prostředek Azure a kontejner úložiště objektů blob Azure, který obsahuje vaše data.
Zkontrolujte, odešlete nastavení a vytvořte projekt.
Při vytváření vlastních modelů možná budete muset extrahovat kolekce dat z dokumentů. Kolekce můžou mít jeden ze dvou formátů. Použití tabulek jako vizuálního vzoru:
Dynamický nebo proměnný počet hodnot (řádků) pro danou sadu polí (sloupců)
Konkrétní kolekce hodnot pro danou sadu polí (sloupce nebo řádky)
Vytvoření složeného modelu
Poznámka:
create compose model
operace je k dispozici pouze pro vlastní modely natrénované pomocí popisků. Při pokusu o vytvoření neoznačeného modelu dojde k chybě.
Pomocí operace vytvoření vytvoření modelu můžete přiřadit až 100 trénovaných vlastních modelů k jednomu ID modelu. Při analýze dokumentů s složeným modelem funkce Document Intelligence nejprve klasifikuje odeslaný formulář, pak zvolí nejlepší přiřazený model a vrátí výsledky pro daný model. Tato operace je užitečná, když příchozí formuláře můžou patřit do jedné z několika šablon.
Po úspěšném dokončení trénovacího procesu můžete začít sestavovat složený model. Tady jsou kroky pro vytváření a používání složených modelů:
- Shromáždění ID vlastních modelů
- Vytvoření vlastních modelů
- Analýza dokumentů
- Správa složených modelů
Shromáždění ID modelů
Při trénování modelů pomocí nástroje Document Intelligence Studio se ID modelu nachází v nabídce modelů pod projektem:
Vytvoření vlastních modelů
Vyberte projekt vlastních modelů.
V projektu vyberte
Models
položku nabídky.Ve výsledném seznamu modelů vyberte modely, které chcete vytvořit.
V levém horním rohu zvolte tlačítko Vytvořit.
V automaticky otevíraných otevíraných oknech pojmenujte nově složený model a vyberte Vytvořit.
Po dokončení operace se v seznamu zobrazí nově složený model.
Jakmile je model připravený, pomocí příkazu Test ho ověřte pomocí testovacích dokumentů a prohlédněte si výsledky.
Analýza dokumentů
Operace Analýza vlastního modelu vyžaduje, abyste zadali modelID
volání funkce Document Intelligence. Pro parametr v aplikacích byste měli zadat složené ID modelID
modelu.
Správa složených modelů
Vlastní modely můžete spravovat v průběhu životního cyklu:
- Otestujte a ověřte nové dokumenty.
- Stáhněte si model, který chcete použít ve svých aplikacích.
- Po dokončení životního cyklu odstraňte model.
Výborně! Naučili jste se, jak vytvářet vlastní a složené modely a používat je v projektech a aplikacích Document Intelligence.
Další kroky
Vyzkoušejte jeden z našich rychlých zprovoznění funkce Document Intelligence:
Funkce Document Intelligence používá pokročilou technologii strojového učení k detekci a extrakci informací z obrázků dokumentů a vrácení extrahovaných dat ve strukturovaném výstupu JSON. Pomocí funkce Document Intelligence můžete trénovat samostatné vlastní modely nebo kombinovat vlastní modely a vytvářet složené modely.
Vlastní modely. Vlastní modely Document Intelligence umožňují analyzovat a extrahovat data z formulářů a dokumentů specifických pro vaši firmu. Vlastní modely se trénují pro různá data a případy použití.
Složené modely. Složený model se vytvoří tak, že vezme kolekci vlastních modelů a přiřadí je jednomu modelu, který zahrnuje vaše typy formulářů. Když je dokument odeslán do složeného modelu, služba provede krok klasifikace a rozhodne, který vlastní model přesně představuje formulář prezentovaný pro analýzu.
V tomto článku se dozvíte, jak vytvářet vlastní a složené modely document intelligence pomocí našeho nástroje pro popisování ukázek document intelligence, rozhraní REST API nebo klientských knihoven.
Ukázkový nástroj popisování
Zkuste extrahovat data z vlastních formulářů pomocí našeho nástroje Pro označování ukázek. Potřebujete následující zdroje informací:
Předplatné Azure – můžete si ho zdarma vytvořit.
Instance Document Intelligence na webu Azure Portal K vyzkoušení služby můžete použít cenovou úroveň Free (
F0
). Po nasazení prostředku vyberte Přejít k prostředku a získejte klíč a koncový bod.
V uživatelském rozhraní funkce Document Intelligence:
- Vyberte Použít vlastní k trénování modelu s popisky a získání párů klíč-hodnota.
- V dalším okně vyberte Nový projekt:
Vytvoření modelů
Postup vytváření, trénování a používání vlastních a složených modelů je následující:
- Sestavení trénovací datové sady
- Nahrání trénovací sady do úložiště objektů blob v Azure
- Trénování vlastního modelu
- Vytváření vlastních modelů
- Analýza dokumentů
- Správa vlastních modelů
Sestavení trénovací datové sady
Vytvoření vlastního modelu začíná vytvořením trénovací datové sady. Pro ukázkovou datovou sadu potřebujete minimálně pět dokončených formulářů stejného typu. Můžou mít různé typy souborů (jpg, png, pdf, tiff) a obsahují text i rukopis. Formuláře musí splňovat vstupní požadavky pro funkci Document Intelligence.
Nahrání trénovací datové sady
Trénovací data musíte nahrát do kontejneru úložiště objektů blob v Azure. Pokud nevíte, jak vytvořit účet úložiště Azure s kontejnerem, přečtěte si rychlý start pro Azure Storage pro Azure Portal. Službu můžete vyzkoušet pomocí cenové úrovně Free (F0) a později upgradovat na placenou úroveň pro produkční prostředí.
Trénování vlastního modelu
Model vytrénujete pomocí označených datových sad. Datové sady s popisky spoléhají na předem připravené rozhraní API pro rozložení, ale další lidské vstupy jsou zahrnuté, například vaše konkrétní popisky a umístění polí. Začněte alespoň s pěti vyplněnými formuláři stejného typu pro trénovací data s popiskem.
Při trénování s označenými daty model pomocí učení pod dohledem extrahuje hodnoty zájmu pomocí vámi zadaných formulářů s popiskem. Označená data mají za následek výkonnější modely a můžou vytvářet modely, které pracují se složitými formuláři nebo formuláři obsahujícími hodnoty bez klíčů.
Funkce Document Intelligence používá rozhraní API rozložení k získání informací o očekávaných velikostech a pozicích písma a ručně psaných textových prvků a extrakci tabulek. Potom pomocí popisků určených uživatelem zjistí přidružení klíč/hodnota a tabulky v dokumentech. K zahájení trénování nového modelu doporučujeme použít pět ručně označených formulářů stejného typu (stejné struktury). Podle potřeby přidejte další označená data, aby se zlepšila přesnost modelu. Funkce Document Intelligence umožňuje trénování modelu k extrakci párů klíčových hodnot a tabulek s využitím schopností učení pod dohledem.
[! VIDEO https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]
Vytvoření složeného modelu
Poznámka:
Vytváření modelů je k dispozici pouze pro vlastní modely natrénované pomocí popisků. Při pokusu o vytvoření neoznačeného modelu dojde k chybě.
Pomocí operace Vytváření modelů můžete přiřadit až 200 trénovaných vlastních modelů k jednomu ID modelu. Když zavoláte analyzovat s složeným ID modelu, funkce Document Intelligence klasifikuje formulář, který jste odeslali jako první, zvolí nejlepší přiřazený model a pak vrátí výsledky pro daný model. Tato operace je užitečná, když příchozí formuláře můžou patřit do jedné z několika šablon.
Pomocí nástroje Popisování vzorových funkcí Document Intelligence, rozhraní REST API nebo klientských knihoven nastavte složený model:
Shromáždění ID vlastních modelů
Po úspěšném dokončení trénovacího procesu je vašemu vlastnímu modelu přiřazeno ID modelu. ID modelu můžete načíst následujícím způsobem:
Při trénování modelů pomocí nástroje Popisování ukázek funkce Document Intelligence se ID modelu nachází v okně Výsledek trénování:
Vytvoření vlastních modelů
Jakmile shromáždíte vlastní modely, které odpovídají jednomu typu formuláře, můžete je vytvořit do jednoho modelu.
Nástroj Sample Labeling umožňuje rychle začít s trénováním modelů a jejich vytvářením do jednoho ID modelu.
Po dokončení trénování vytvořte modely následujícím způsobem:
V nabídce vlevo vyberte ikonu Pro vytvoření modelu (slučovací šipka).
V hlavním okně vyberte modely, které chcete přiřadit k jednomu ID modelu. Modely s ikonou šipek už jsou složené modely.
V levém horním rohu zvolte tlačítko Vytvořit.
V automaticky otevíraných otevíraných oknech pojmenujte nově složený model a vyberte Vytvořit.
Po dokončení operace se v seznamu zobrazí nově složený model.
Analýza dokumentů pomocí vlastního nebo složeného modelu
Operace Analýza vlastního formuláře vyžaduje, abyste zadali modelID
volání funkce Document Intelligence. Pro parametr můžete zadat jedno VLASTNÍ ID modelu nebo složené ID modelID
modelu.
V nabídce levého podokna nástroje vyberte
Analyze
ikonu (žárovka).Zvolte adresu URL místního souboru nebo obrázku, který chcete analyzovat.
Vyberte tlačítko Spustit analýzu.
Nástroj použije značky v ohraničujících polích a hlásí procento spolehlivosti pro každou značku.
Otestujte nově natrénované modely analýzou formulářů , které nebyly součástí trénovací datové sady. V závislosti na hlášené přesnosti můžete chtít provést další trénování, aby se model zlepšil. Můžete pokračovat v dalším trénování, abyste zlepšili výsledky.
Správa vlastních modelů
Vlastní modely můžete spravovat po celý jejich životní cyklus zobrazením seznamu všech vlastních modelů v rámci předplatného, načtením informací o konkrétním vlastním modelu a odstraněním vlastních modelů z vašeho účtu.
Výborně! Naučili jste se, jak vytvářet vlastní a složené modely a používat je v projektech a aplikacích Document Intelligence.
Další kroky
Další informace o klientské knihovně Document Intelligence najdete v referenční dokumentaci k rozhraní API.