Vlastní klasifikační model Document Intelligence
Tento obsah se vztahuje na: v4.0 (GA) | Předchozí verze: v3.1 (GA)
Tento obsah se vztahuje na: v3.1 (GA) | Nejnovější verze: v4.0 (GA)
Důležité
- Rozhraní
v4.0 2024-11-30 (GA)
API, vlastní klasifikační model ve výchozím nastavení nedělí dokumenty během procesu analýzy. - Abyste zachovali chování z předchozích verzí, musíte vlastnost explicitně nastavit
splitMode
na automatické. Výchozí hodnota jesplitMode
none
. - Pokud vstupní soubor obsahuje více dokumentů, musíte povolit rozdělení nastavením na
splitMode
auto
hodnotu .
Azure AI Document Intelligence je cloudová služba Azure AI, která umožňuje vytvářet inteligentní řešení pro zpracování dokumentů. Rozhraní API funkce Document Intelligence analyzují obrázky, soubory PDF a další soubory dokumentů, aby extrahovali a rozpoznali různé obsahy, rozložení, styl a sémantické prvky.
Vlastní klasifikační modely jsou typy modelů hlubokého učení, které kombinují funkce rozložení a jazyka, abyste přesně rozpoznali a identifikovali dokumenty, které v aplikaci zpracováváte. Vlastní klasifikační modely provádějí klasifikaci vstupního souboru po jedné stránce, aby identifikovaly dokumenty v rámci a mohou také identifikovat více dokumentů nebo více instancí jednoho dokumentu ve vstupním souboru.
Možnosti modelu
Poznámka:
- Vlastní klasifikace v4.0 2024-11-30 (GA) modely podporují přírůstkové trénování. Do existujících tříd můžete přidat nové ukázky nebo přidat nové třídy odkazováním na existující klasifikátor.
- Vlastní klasifikace v3.1 2023-07-31 (GA) model nepodporuje kopírování modelu. Pokud chcete použít funkci kopírování modelu, natrénujte model pomocí nejnovějšího modelu ga verze 4.0.
Vlastní klasifikační modely můžou analyzovat dokumenty s jedním nebo více soubory a zjistit, jestli jsou některé z natrénovaných typů dokumentů obsaženy ve vstupním souboru. Tady jsou aktuálně podporované scénáře:
Jeden soubor obsahující jeden typ dokumentu, například formulář žádosti o půjčku.
Jeden soubor obsahující více typů dokumentů. Například balíček žádosti o půjčku, který obsahuje formulář žádosti o půjčku, výplatu a bankovní výpis.
Jeden soubor obsahující více instancí stejného dokumentu. Například kolekce naskenovaných faktur.
✔️ Trénování vlastního klasifikátoru vyžaduje alespoň two
odlišné třídy a minimálně five
ukázky dokumentů na třídu. Odpověď modelu obsahuje rozsahy stránek pro každou z identifikovaných tříd dokumentů.
✔️ Maximální povolený počet tříd je 1,000
. Maximální povolený počet vzorků dokumentů na třídu je 100
.
Model klasifikuje každou stránku vstupního dokumentu, pokud není zadána, do jedné z tříd v označené datové sadě. Můžete také zadat čísla stránek, která se mají analyzovat ve vstupním dokumentu. Pokud chcete nastavit prahovou hodnotu pro vaši aplikaci, použijte skóre spolehlivosti z odpovědi.
Přírůstkové trénování
U vlastních modelů potřebujete zachovat přístup k trénovací datové sadě, abyste mohli klasifikátor aktualizovat novými ukázkami pro existující třídu nebo přidat nové třídy. Modely klasifikátoru teď podporují přírůstkové trénování, kde můžete odkazovat na existující klasifikátor a přidávat nové ukázky pro existující třídu nebo přidávat nové třídy s ukázkami. Přírůstkové trénování umožňuje scénáře, kdy je uchovávání dat výzvou a klasifikátor je potřeba aktualizovat tak, aby odpovídal měnícím se obchodním potřebám. Přírůstkové trénování se podporuje u modelů natrénovaných pomocí verze v4.0 2024-11-30 (GA)
rozhraní API .
Důležité
Přírůstkové trénování se podporuje jenom u modelů natrénovaných se stejnou verzí rozhraní API. Pokud se pokoušíte model rozšířit, použijte k rozšíření modelu verzi rozhraní API, pomocí které byl původní model natrénován. Přírůstkové trénování se podporuje jenom u rozhraní API verze 4.0 2024-11-30 (GA) nebo novější.
Přírůstkové trénování vyžaduje, abyste zadali původní ID modelu jako baseClassifierId
. Další informace o tom, jak používat přírůstkové trénování, najdete v tématu přírůstkové trénování.
Podpora typů dokumentů Office
Klasifikátory teď můžete trénovat tak, aby rozpoznaly typy dokumentů v různých formátech, včetně PDF, obrázků, Wordu, PowerPointu a Excelu. Při sestavování trénovací datové sady můžete přidat dokumenty libovolného z podporovaných typů. Klasifikátor nevyžaduje explicitní označení konkrétních typů. Osvědčeným postupem je zajistit, aby vaše trénovací datová sada získala alespoň jeden vzorek každého formátu, aby se zlepšila celková přesnost modelu.
Porovnání vlastních klasifikací a složených modelů
Vlastní klasifikační model může v některých scénářích nahradit složený model , ale je potřeba si uvědomit několik rozdílů:
Schopnost | Vlastní proces klasifikátoru | Složený proces modelu |
---|---|---|
Analyzujte jeden dokument neznámého typu, který patří jednomu z typů trénovaných pro zpracování modelu extrakce. | ● Vyžaduje více volání. ● Volejte klasifikační model na základě třídy dokumentu. Tento krok umožňuje kontrolu založenou na spolehlivosti před vyvoláním analýzy modelu extrakce. ● Vyvolání modelu extrakce. |
● Vyžaduje jedno volání složeného modelu obsahujícího model odpovídající typu vstupního dokumentu. |
Analyzujte jeden dokument neznámého typu patřícího k několika typům trénovaným pro zpracování modelu extrakce. | ●Vyžaduje více volání. ● Volání klasifikátoru, který ignoruje dokumenty, které neodpovídají určenému typu pro extrakci. ● Vyvolání modelu extrakce. |
● Vyžaduje jedno volání složeného modelu. Služba vybere vlastní model v rámci složeného modelu s nejvyšší shodou. ● Složený model nemůže ignorovat dokumenty. |
Analyzujte soubor obsahující více dokumentů známého nebo neznámého typu, které patří k jednomu z typů trénovaných pro zpracování modelu extrakce. | ● Vyžaduje více volání. ● Zavolejte model extrakce pro každý identifikovaný dokument ve vstupním souboru. ● Vyvolání modelu extrakce. |
● Vyžaduje jedno volání složeného modelu. ● Složený model vyvolá model komponenty jednou v první instanci dokumentu. ●Zbývající dokumenty se ignorují. |
Podpora jazyků
Klasifikační modely aktuálně podporují pouze dokumenty anglického jazyka.
Klasifikační modely se teď dají trénovat na dokumentech různých jazyků. Úplný seznam najdete v podporovaných jazycích .
Požadavky na vstup
Podporované formáty souborů:
Model | Obrázek:jpeg/jpg , png , bmp , , tiff heif |
systém Microsoft Office: Word (docx), Excel (xlxs), PowerPoint (pptx) |
|
---|---|---|---|
Čteno | ✔ | ✔ | ✔ |
Rozložení | ✔ | ✔ | ✔ |
Obecný dokument | ✔ | ✔ | |
Předpřipravený | ✔ | ✔ | |
Vlastní extrakce | ✔ | ✔ | |
Vlastní klasifikace | ✔ | ✔ | ✔ (není podporováno v sadě Studio) |
Nejlepších výsledků dosáhnete tak, že poskytnete pět jasných fotek nebo vysoce kvalitní skenování na každý typ dokumentu.
U SOUBORŮ PDF a TIFF je možné zpracovat až 2 000 stránek (s předplatným úrovně Free se zpracuje pouze první dvě stránky).
Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).
Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.
Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.
Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá
8
bodě v 150 bodech na paleč (DPI
).Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.
Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.
Pro trénování modelu vlastní klasifikace je celková velikost trénovacích dat 2 GB s maximálně 25 000 stránkami.
Rozdělení dokumentu
Pokud máte v souboru více než jeden dokument, klasifikátor dokáže identifikovat různé typy dokumentů obsažené ve vstupním souboru. Odpověď klasifikátoru obsahuje rozsahy stránek pro každý z identifikovaných typů dokumentů obsažených v souboru. Tato odpověď může obsahovat více instancí stejného typu dokumentu.
Operace analyze
teď obsahuje vlastnost, která poskytuje podrobnou splitMode
kontrolu nad chováním rozdělení.
- Chcete-li zacházet s celým vstupním souborem jako s jedním dokumentem pro klasifikaci, nastavte splitMode na
none
. Když to uděláte, vrátí služba pouze jednu třídu pro celý vstupní soubor. - Chcete-li klasifikovat každou stránku vstupního souboru, nastavte splitMode na
perPage
hodnotu . Služba se pokusí klasifikovat každou stránku jako jednotlivý dokument. - Nastavte splitMode a
auto
služba identifikuje dokumenty a přidružené rozsahy stránek.
Osvědčené postupy
Vlastní klasifikační modely vyžadují k trénování minimálně pět vzorků na třídu. Pokud jsou třídy podobné, přidání dalších trénovacích ukázek zvyšuje přesnost modelu.
Klasifikátor se pokusí přiřadit každý dokument k jedné z tříd, pokud očekáváte, že model uvidí typy dokumentů, které nejsou součástí trénovací datové sady, měli byste naplánovat nastavení prahové hodnoty pro skóre klasifikace nebo přidat několik reprezentativních vzorků typů dokumentů do "other"
třídy. "other"
Přidáním třídy zajistíte, že nepotřebné dokumenty nebudou mít vliv na kvalitu klasifikátoru.
Trénování modelu
Vlastní klasifikační modely jsou podporovány rozhraním API verze 4.0 2024-11-30 (GA). Document Intelligence Studio poskytuje uživatelské rozhraní bez kódu pro interaktivní trénování vlastního klasifikátoru. Postupujte podle návodu, jak začít.
Při použití rozhraní REST API, pokud dokumenty uspořádáte podle složek, můžete k trénování klasifikačního modelu použít azureBlobSource
vlastnost požadavku.
https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "sample1/deed-of-trust/"
}
}
}
}
https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31
{
"classifierId": "demo2.1",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/car-maint/"
}
},
"cc-auth": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/cc-auth/"
}
},
"deed-of-trust": {
"azureBlobSource": {
"containerUrl": "SAS URL to container",
"prefix": "{path to dataset root}/deed-of-trust/"
}
}
}
}
Pokud máte také plochý seznam souborů nebo plánujete použít jen několik vybraných souborů v rámci každé složky k trénování modelu, můžete k trénování modelu použít azureBlobFileListSource
vlastnost. Tento krok vyžaduje file list
formát řádků JSON. Pro každou třídu přidejte nový soubor se seznamem souborů, které se mají odeslat pro trénování.
{
"classifierId": "demo2",
"description": "",
"docTypes": {
"car-maint": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/car-maint.jsonl"
}
},
"cc-auth": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/cc-auth.jsonl"
}
},
"deed-of-trust": {
"azureBlobFileListSource": {
"containerUrl": "SAS URL to container",
"fileList": "{path to dataset root}/deed-of-trust.jsonl"
}
}
}
}
Seznam souborů car-maint.jsonl
například obsahuje následující soubory.
{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}
Přepsání modelu
Poznámka:
Vlastní klasifikační model verze 4.0 2024-11-30 (GA) podporuje přepis místního modelu.
Teď můžete aktualizovat vlastní klasifikaci na místě. Přímé přepsání modelu by ztratilo možnost porovnat kvalitu modelu předtím, než se rozhodnete nahradit stávající model. Přepsání modelu je povoleno, pokud allowOverwrite
je vlastnost explicitně zadána v textu požadavku. Po provedení této akce není možné obnovit přepsání původního modelu.
{
"classifierId": "existingClassifierName",
"allowOverwrite": true, // Default=false
...
}
Kopírování modelu
Poznámka:
Vlastní klasifikační model verze 4.0 2024-11-30 (GA) podporuje kopírování modelu do a z některé z následujících oblastí:
- USA – východ
- USA – západ 2
- Západní Evropa
Ke zkopírování modelu do jiné oblasti použijte rozhraní REST API nebo Document Intelligence Studio.
Generování žádosti o autorizaci kopírování
Následující požadavek HTTP získá autorizaci kopírování z cílového prostředku. Jako hlavičky musíte zadat koncový bod a klíč cílového prostředku.
POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
Text požadavku
{
"classifierId": "targetClassifier",
"description": "Target classifier description"
}
Obdržíte 200
kód odpovědi s textem odpovědi, který obsahuje datovou část JSON potřebnou k zahájení kopírování.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Spuštění operace kopírování
Následující požadavek HTTP spustí operaci kopírování zdrojového prostředku. Jako adresu URL a hlavičku musíte zadat koncový bod a klíč zdrojového prostředku. Všimněte si, že adresa URL požadavku obsahuje ID klasifikátoru zdrojového klasifikátoru, který chcete zkopírovat.
POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}
Text vaší žádosti je odpověď z předchozího kroku.
{
"targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
"targetResourceRegion": "targetResourceRegion",
"targetClassifierId": "targetClassifier",
"targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
"accessToken": "accessToken",
"expirationDateTime": "timestamp"
}
Odpověď modelu
Analyzujte vstupní soubor pomocí modelu klasifikace dokumentů.
https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview
Rozhraní v4.0 2024-11-30 (GA)
API umožňuje zadat stránky, které se mají analyzovat ze vstupního dokumentu pomocí parametru pages
dotazu v požadavku.
https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31
Odpověď obsahuje identifikované dokumenty s přidruženými rozsahy stránek v části dokumenty odpovědi.
{
...
"documents": [
{
"docType": "formA",
"boundingRegions": [
{ "pageNumber": 1, "polygon": [...] },
{ "pageNumber": 2, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
},
{
"docType": "formB",
"boundingRegions": [
{ "pageNumber": 3, "polygon": [...] }
],
"confidence": 0.97,
"spans": []
}, ...
]
}
Další kroky
Naučte se vytvářet vlastní klasifikační modely: