Použití přírůstkových klasifikátorů funkce Document Intelligence
Tento obsah se vztahuje na: v4.0 (GA)
Azure AI Document Intelligence je cloudová služba Azure AI, která umožňuje vytvářet inteligentní řešení pro zpracování dokumentů. Rozhraní API funkce Document Intelligence analyzují obrázky, soubory PDF a další soubory dokumentů, aby extrahovali a rozpoznali různé obsahy, rozložení, styl a sémantické prvky.
Vlastní klasifikační modely Document Intelligence jsou typy modelů hlubokého učení, které kombinují funkce rozložení a jazyka, abyste přesně rozpoznali a identifikovali dokumenty, které zpracováváte ve svých aplikacích. Vlastní klasifikační modely provádějí klasifikaci vstupních souborů po jedné stránce, aby identifikovaly dokumenty v rámci a mohou také identifikovat více dokumentů nebo více instancí jednoho dokumentu ve vstupním souboru.
Klasifikátory dokumentů Document Intelligence identifikují známé typy dokumentů v souborech. Při zpracování vstupního souboru s více typy dokumentů nebo pokud neznáte typ dokumentu, identifikujte dokument pomocí klasifikátoru. Klasifikátory by se měly pravidelně aktualizovat vždy, když dojde k následujícím změnám:
- Přidáte nové šablony pro existující třídu.
- Pro rozpoznávání přidáte nové typy dokumentů.
- Spolehlivost klasifikátoru je nízká.
V některých scénářích už nemůžete mít původní sadu dokumentů sloužících k trénování klasifikátoru. Pomocí přírůstkového trénování můžete klasifikátor aktualizovat pouze novými označenými ukázkami.
Poznámka:
Přírůstkové trénování platí jenom pro modely klasifikátoru dokumentů a ne vlastní modely.
Přírůstkové trénování je užitečné, když chcete zlepšit kvalitu vlastního klasifikátoru. Přidání nových trénovacích ukázek pro existující třídy zlepšuje spolehlivost modelu pro existující typy dokumentů. Pokud je například přidána nová verze existujícího formuláře nebo existuje nový typ dokumentu. Příkladem může být, když vaše aplikace začne podporovat nový typ dokumentu jako platný vstup.
Začínáme s přírůstkovým trénováním
Přírůstkové trénování nezavádí žádné nové koncové body rozhraní API.
Datová
documentClassifiers:build
část požadavku se upraví tak, aby podporovala přírůstkové trénování.Přírůstkové trénování vede k vytvoření nového modelu klasifikátoru s existujícím klasifikátorem, který zůstal nedotčený.
Nový klasifikátor obsahuje všechny ukázky dokumentů a typy starého klasifikátoru spolu s nově poskytnutými ukázkami. Potřebujete zajistit, aby vaše aplikace byla aktualizována, aby fungovala s nově natrénovaným klasifikátorem.
Poznámka:
Operace kopírování pro klasifikátory je momentálně nedostupná.
Vytvoření žádosti o přírůstkové sestavení klasifikátoru
Přírůstkový požadavek sestavení klasifikátoru classify document
je podobný požadavku sestavení, ale obsahuje novou baseClassifierId
vlastnost. Nastaví baseClassifierId
se na existující klasifikátor, který chcete rozšířit. Musíte také zadat docTypes
různé typy dokumentů v ukázkové sadě. Poskytnutím docType
objektu baseClassifier se vzorky zadané v požadavku při trénu základního klasifikátoru přidají do ukázek. Nové docType
hodnoty přidané do přírůstkového trénování se přidají pouze do nového klasifikátoru. Proces určení vzorků zůstává beze změny. Další informace najdete v tématu trénování modelu klasifikátoru.
Ukázkový požadavek POST
Ukázkový POST
požadavek na sestavení klasifikátoru přírůstkového dokumentu
POST
{your-endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer?mySasToken",
"fileList": "formB.jsonl"
}
}
}
}
Odpověď POST
Všechna rozhraní API funkce Document Intelligence jsou asynchronní a dotazování vráceného umístění operace poskytuje stav operace sestavení. Klasifikátory jsou rychlé k trénování a klasifikátor může být připravený k použití za minutu nebo dvě.
Po úspěšném dokončení:
- Úspěšná
POST
metoda vrátí202 OK
kód odpovědi označující, že služba vytvořila požadavek. - Přeložené dokumenty se nacházejí v cílovém kontejneru.
- Požadavek
POST
také vrátí hlavičky odpovědi včetněOperation-Location
. Hodnota této hlavičky obsahujeresultId
dotaz, který umožňuje získat stav asynchronní operace a načíst výsledky pomocíGET
požadavku se stejným klíčem předplatného prostředku.
Ukázkový požadavek GET
Ukázkový GET
požadavek na načtení výsledku klasifikátoru přírůstkového dokumentu
GET
{your-endpoint}/documentintelligence/documentClassifiers/{classifierId}/analyzeResults/{resultId}?api-version=2024-02-29-preview
{
"classifierId": "myAdaptedClassifier",
"description": "Classifier description",
"createdDateTime": "2022-07-30T00:00:00Z",
"expirationDateTime": "2023-01-01T00:00:00Z",
"apiVersion": "2024-02-29-preview",
"baseClassifierId": "myOriginalClassifier",
"docTypes": {
"formA": {
"azureBlobSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"prefix": "formADocs/"
}
},
"formB": {
"azureBlobFileListSource": {
"containerUrl": "https://myStorageAccount.blob.core.windows.net/myContainer",
"fileList": "formB.jsonl"
}
}
}
}
Odpověď GET
Odpověď GET
z přírůstkově natrénovaného klasifikátoru se liší od standardní odpovědi klasifikátoru GET
. Inkrementálně natrénovaný klasifikátor nevrací všechny podporované typy dokumentů. Vrátí typy dokumentů přidané nebo aktualizované v kroku přírůstkového trénování a rozšířený základní klasifikátor. Chcete-li získat úplný seznam typů dokumentů, musí být uveden základní klasifikátor. Odstranění základního klasifikátoru nemá vliv na použití inkrementálně natrénovaného klasifikátoru.
Omezení
Přírůstkové trénování funguje jenom v případech, kdy se základní klasifikátor a inkrementálně natrénovaný klasifikátor natrénují na stejné verzi rozhraní API. V důsledku toho má přírůstkově natrénovaný klasifikátor stejný životní cyklus modelu jako základní klasifikátor.
Omezení velikosti trénovací datové sady pro inkrementální klasifikátor jsou stejná jako u jiného klasifikátoru modelu. Úplný seznam použitelných limitů najdete v omezeních služeb.
Další kroky
- Další informace o klasifikaci dokumentů