Sdílet prostřednictvím


Vlastní klasifikační model Document Intelligence

Tento obsah se vztahuje na:Zaškrtnutí v4.0 (GA) | Předchozí verze: modrá značka zaškrtnutí v3.1 (GA)

Tento obsah se vztahuje na:Zaškrtnutí v3.1 (GA) | Nejnovější verze: nachová značka zaškrtnutí v4.0 (GA)

Důležité

  • Rozhraní v4.0 2024-11-30 (GA) API, vlastní klasifikační model ve výchozím nastavení nedělí dokumenty během procesu analýzy.
  • Abyste zachovali chování z předchozích verzí, musíte vlastnost explicitně nastavit splitMode na automatické. Výchozí hodnota je splitMode none.
  • Pokud vstupní soubor obsahuje více dokumentů, musíte povolit rozdělení nastavením na splitMode autohodnotu .

Azure AI Document Intelligence je cloudová služba Azure AI, která umožňuje vytvářet inteligentní řešení pro zpracování dokumentů. Rozhraní API funkce Document Intelligence analyzují obrázky, soubory PDF a další soubory dokumentů, aby extrahovali a rozpoznali různé obsahy, rozložení, styl a sémantické prvky.

Vlastní klasifikační modely jsou typy modelů hlubokého učení, které kombinují funkce rozložení a jazyka, abyste přesně rozpoznali a identifikovali dokumenty, které v aplikaci zpracováváte. Vlastní klasifikační modely provádějí klasifikaci vstupního souboru po jedné stránce, aby identifikovaly dokumenty v rámci a mohou také identifikovat více dokumentů nebo více instancí jednoho dokumentu ve vstupním souboru.

Možnosti modelu

Poznámka:

  • Vlastní klasifikace v4.0 2024-11-30 (GA) modely podporují přírůstkové trénování. Do existujících tříd můžete přidat nové ukázky nebo přidat nové třídy odkazováním na existující klasifikátor.
  • Vlastní klasifikace v3.1 2023-07-31 (GA) model nepodporuje kopírování modelu. Pokud chcete použít funkci kopírování modelu, natrénujte model pomocí nejnovějšího modelu ga verze 4.0.

Vlastní klasifikační modely můžou analyzovat dokumenty s jedním nebo více soubory a zjistit, jestli jsou některé z natrénovaných typů dokumentů obsaženy ve vstupním souboru. Tady jsou aktuálně podporované scénáře:

  • Jeden soubor obsahující jeden typ dokumentu, například formulář žádosti o půjčku.

  • Jeden soubor obsahující více typů dokumentů. Například balíček žádosti o půjčku, který obsahuje formulář žádosti o půjčku, výplatu a bankovní výpis.

  • Jeden soubor obsahující více instancí stejného dokumentu. Například kolekce naskenovaných faktur.

✔️ Trénování vlastního klasifikátoru vyžaduje alespoň two odlišné třídy a minimálně five ukázky dokumentů na třídu. Odpověď modelu obsahuje rozsahy stránek pro každou z identifikovaných tříd dokumentů.

✔️ Maximální povolený počet tříd je 1,000. Maximální povolený počet vzorků dokumentů na třídu je 100.

Model klasifikuje každou stránku vstupního dokumentu, pokud není zadána, do jedné z tříd v označené datové sadě. Můžete také zadat čísla stránek, která se mají analyzovat ve vstupním dokumentu. Pokud chcete nastavit prahovou hodnotu pro vaši aplikaci, použijte skóre spolehlivosti z odpovědi.

Přírůstkové trénování

U vlastních modelů potřebujete zachovat přístup k trénovací datové sadě, abyste mohli klasifikátor aktualizovat novými ukázkami pro existující třídu nebo přidat nové třídy. Modely klasifikátoru teď podporují přírůstkové trénování, kde můžete odkazovat na existující klasifikátor a přidávat nové ukázky pro existující třídu nebo přidávat nové třídy s ukázkami. Přírůstkové trénování umožňuje scénáře, kdy je uchovávání dat výzvou a klasifikátor je potřeba aktualizovat tak, aby odpovídal měnícím se obchodním potřebám. Přírůstkové trénování se podporuje u modelů natrénovaných pomocí verze v4.0 2024-11-30 (GA)rozhraní API .

Důležité

Přírůstkové trénování se podporuje jenom u modelů natrénovaných se stejnou verzí rozhraní API. Pokud se pokoušíte model rozšířit, použijte k rozšíření modelu verzi rozhraní API, pomocí které byl původní model natrénován. Přírůstkové trénování se podporuje jenom u rozhraní API verze 4.0 2024-11-30 (GA) nebo novější.

Přírůstkové trénování vyžaduje, abyste zadali původní ID modelu jako baseClassifierId. Další informace o tom, jak používat přírůstkové trénování, najdete v tématu přírůstkové trénování.

Podpora typů dokumentů Office

Klasifikátory teď můžete trénovat tak, aby rozpoznaly typy dokumentů v různých formátech, včetně PDF, obrázků, Wordu, PowerPointu a Excelu. Při sestavování trénovací datové sady můžete přidat dokumenty libovolného z podporovaných typů. Klasifikátor nevyžaduje explicitní označení konkrétních typů. Osvědčeným postupem je zajistit, aby vaše trénovací datová sada získala alespoň jeden vzorek každého formátu, aby se zlepšila celková přesnost modelu.

Porovnání vlastních klasifikací a složených modelů

Vlastní klasifikační model může v některých scénářích nahradit složený model , ale je potřeba si uvědomit několik rozdílů:

Schopnost Vlastní proces klasifikátoru Složený proces modelu
Analyzujte jeden dokument neznámého typu, který patří jednomu z typů trénovaných pro zpracování modelu extrakce. ● Vyžaduje více volání.
● Volejte klasifikační model na základě třídy dokumentu. Tento krok umožňuje kontrolu založenou na spolehlivosti před vyvoláním analýzy modelu extrakce.
● Vyvolání modelu extrakce.
● Vyžaduje jedno volání složeného modelu obsahujícího model odpovídající typu vstupního dokumentu.
Analyzujte jeden dokument neznámého typu patřícího k několika typům trénovaným pro zpracování modelu extrakce. ●Vyžaduje více volání.
● Volání klasifikátoru, který ignoruje dokumenty, které neodpovídají určenému typu pro extrakci.
● Vyvolání modelu extrakce.
● Vyžaduje jedno volání složeného modelu. Služba vybere vlastní model v rámci složeného modelu s nejvyšší shodou.
● Složený model nemůže ignorovat dokumenty.
Analyzujte soubor obsahující více dokumentů známého nebo neznámého typu, které patří k jednomu z typů trénovaných pro zpracování modelu extrakce. ● Vyžaduje více volání.
● Zavolejte model extrakce pro každý identifikovaný dokument ve vstupním souboru.
● Vyvolání modelu extrakce.
● Vyžaduje jedno volání složeného modelu.
● Složený model vyvolá model komponenty jednou v první instanci dokumentu.
●Zbývající dokumenty se ignorují.

Podpora jazyků

Klasifikační modely aktuálně podporují pouze dokumenty anglického jazyka.

Klasifikační modely se teď dají trénovat na dokumentech různých jazyků. Úplný seznam najdete v podporovaných jazycích .

Požadavky na vstup

Podporované formáty souborů:

Model PDF Obrázek:
jpeg/jpg, png, bmp, , tiffheif
systém Microsoft Office:
Word (docx), Excel (xlxs), PowerPoint (pptx)
Čteno
Rozložení
Obecný dokument
Předpřipravený
Vlastní extrakce
Vlastní klasifikace ✔ (není podporováno v sadě Studio)
  • Nejlepších výsledků dosáhnete tak, že poskytnete pět jasných fotek nebo vysoce kvalitní skenování na každý typ dokumentu.

  • U SOUBORŮ PDF a TIFF je možné zpracovat až 2 000 stránek (s předplatným úrovně Free se zpracuje pouze první dvě stránky).

  • Velikost souboru pro analýzu dokumentů je 500 MB pro placenou úroveň (S0) a 4 MB pro bezplatnou úroveň (F0).

  • Rozměry obrázku musí být mezi 50 x 50 pixelů a 10 000 px x 10 000 pixelů.

  • Pokud jsou soubory PDF uzamčené heslem, musíte před odesláním toto uzamčení odebrat.

  • Minimální výška extrahovaného textu je 12 pixelů pro obrázek o velikosti 1024 x 768 pixelů. Tato dimenze odpovídá 8bodě v 150 bodech na paleč (DPI).

  • Pro trénování vlastního modelu je maximální počet stránek pro trénovací data 500 pro vlastní model šablony a 50 000 pro vlastní neurální model.

  • Pro trénování vlastního modelu extrakce je celková velikost trénovacích dat 50 MB pro model šablony a 1G MB pro neurální model.

  • Pro trénování modelu vlastní klasifikace je celková velikost trénovacích dat 2 GB s maximálně 25 000 stránkami.

Rozdělení dokumentu

Pokud máte v souboru více než jeden dokument, klasifikátor dokáže identifikovat různé typy dokumentů obsažené ve vstupním souboru. Odpověď klasifikátoru obsahuje rozsahy stránek pro každý z identifikovaných typů dokumentů obsažených v souboru. Tato odpověď může obsahovat více instancí stejného typu dokumentu.

Operace analyze teď obsahuje vlastnost, která poskytuje podrobnou splitMode kontrolu nad chováním rozdělení.

  • Chcete-li zacházet s celým vstupním souborem jako s jedním dokumentem pro klasifikaci, nastavte splitMode na none. Když to uděláte, vrátí služba pouze jednu třídu pro celý vstupní soubor.
  • Chcete-li klasifikovat každou stránku vstupního souboru, nastavte splitMode na perPagehodnotu . Služba se pokusí klasifikovat každou stránku jako jednotlivý dokument.
  • Nastavte splitMode a auto služba identifikuje dokumenty a přidružené rozsahy stránek.

Osvědčené postupy

Vlastní klasifikační modely vyžadují k trénování minimálně pět vzorků na třídu. Pokud jsou třídy podobné, přidání dalších trénovacích ukázek zvyšuje přesnost modelu.

Klasifikátor se pokusí přiřadit každý dokument k jedné z tříd, pokud očekáváte, že model uvidí typy dokumentů, které nejsou součástí trénovací datové sady, měli byste naplánovat nastavení prahové hodnoty pro skóre klasifikace nebo přidat několik reprezentativních vzorků typů dokumentů do "other" třídy. "other" Přidáním třídy zajistíte, že nepotřebné dokumenty nebudou mít vliv na kvalitu klasifikátoru.

Trénování modelu

Vlastní klasifikační modely jsou podporovány rozhraním API verze 4.0 2024-11-30 (GA). Document Intelligence Studio poskytuje uživatelské rozhraní bez kódu pro interaktivní trénování vlastního klasifikátoru. Postupujte podle návodu, jak začít.

Při použití rozhraní REST API, pokud dokumenty uspořádáte podle složek, můžete k trénování klasifikačního modelu použít azureBlobSource vlastnost požadavku.


https://{endpoint}/documentintelligence/documentClassifiers:build?api-version=2024-02-29-preview

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "sample1/deed-of-trust/"
            }
    }
  }
}

https://{endpoint}/formrecognizer/documentClassifiers:build?api-version=2023-07-31

{
  "classifierId": "demo2.1",
  "description": "",
  "docTypes": {
    "car-maint": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/car-maint/"
            }
    },
    "cc-auth": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/cc-auth/"
            }
    },
    "deed-of-trust": {
        "azureBlobSource": {
            "containerUrl": "SAS URL to container",
            "prefix": "{path to dataset root}/deed-of-trust/"
            }
    }
  }
}

Pokud máte také plochý seznam souborů nebo plánujete použít jen několik vybraných souborů v rámci každé složky k trénování modelu, můžete k trénování modelu použít azureBlobFileListSource vlastnost. Tento krok vyžaduje file list formát řádků JSON. Pro každou třídu přidejte nový soubor se seznamem souborů, které se mají odeslat pro trénování.

{
  "classifierId": "demo2",
  "description": "",
  "docTypes": {
    "car-maint": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/car-maint.jsonl"
      }
    },
    "cc-auth": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/cc-auth.jsonl"
      }
    },
    "deed-of-trust": {
      "azureBlobFileListSource": {
        "containerUrl": "SAS URL to container",
        "fileList": "{path to dataset root}/deed-of-trust.jsonl"
      }
    }
  }
}

Seznam souborů car-maint.jsonl například obsahuje následující soubory.

{"file":"classifier/car-maint/Commercial Motor Vehicle - Adatum.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Fincher.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Lamna.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Liberty.pdf"}
{"file":"classifier/car-maint/Commercial Motor Vehicle - Trey.pdf"}

Přepsání modelu

Poznámka:

Vlastní klasifikační model verze 4.0 2024-11-30 (GA) podporuje přepis místního modelu.

Teď můžete aktualizovat vlastní klasifikaci na místě. Přímé přepsání modelu by ztratilo možnost porovnat kvalitu modelu předtím, než se rozhodnete nahradit stávající model. Přepsání modelu je povoleno, pokud allowOverwrite je vlastnost explicitně zadána v textu požadavku. Po provedení této akce není možné obnovit přepsání původního modelu.



{
  "classifierId": "existingClassifierName",
  "allowOverwrite": true,  // Default=false
  ...
}

Kopírování modelu

Poznámka:

Vlastní klasifikační model verze 4.0 2024-11-30 (GA) podporuje kopírování modelu do a z některé z následujících oblastí:

  • USA – východ
  • USA – západ 2
  • Západní Evropa

Ke zkopírování modelu do jiné oblasti použijte rozhraní REST API nebo Document Intelligence Studio.

Generování žádosti o autorizaci kopírování

Následující požadavek HTTP získá autorizaci kopírování z cílového prostředku. Jako hlavičky musíte zadat koncový bod a klíč cílového prostředku.

POST https://myendpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers:authorizeCopy?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}

Text požadavku

{
  "classifierId": "targetClassifier",
  "description": "Target classifier description"
}

Obdržíte 200 kód odpovědi s textem odpovědi, který obsahuje datovou část JSON potřebnou k zahájení kopírování.

{
  "targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
  "targetResourceRegion": "targetResourceRegion",
  "targetClassifierId": "targetClassifier",
  "targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
  "accessToken": "accessToken",
  "expirationDateTime": "timestamp"
}

Spuštění operace kopírování

Následující požadavek HTTP spustí operaci kopírování zdrojového prostředku. Jako adresu URL a hlavičku musíte zadat koncový bod a klíč zdrojového prostředku. Všimněte si, že adresa URL požadavku obsahuje ID klasifikátoru zdrojového klasifikátoru, který chcete zkopírovat.

POST {endpoint}/documentintelligence/documentClassifiers/{classifierId}:copyTo?api-version=2024-11-30
Ocp-Apim-Subscription-Key: {<your-key>}

Text vaší žádosti je odpověď z předchozího kroku.

{
  "targetResourceId": "/subscriptions/targetSub/resourceGroups/targetRG/providers/Microsoft.CognitiveServices/accounts/targetService",
  "targetResourceRegion": "targetResourceRegion",
  "targetClassifierId": "targetClassifier",
  "targetClassifierLocation": "https://targetEndpoint.cognitiveservices.azure.com/documentintelligence/documentClassifiers/targetClassifier",
  "accessToken": "accessToken",
  "expirationDateTime": "timestamp"
}

Odpověď modelu

Analyzujte vstupní soubor pomocí modelu klasifikace dokumentů.

https://{endpoint}/documentintelligence/documentClassifiers/{classifier}:analyze?api-version=2024-02-29-preview

Rozhraní v4.0 2024-11-30 (GA) API umožňuje zadat stránky, které se mají analyzovat ze vstupního dokumentu pomocí parametru pages dotazu v požadavku.

https://{service-endpoint}/formrecognizer/documentClassifiers/{classifier}:analyze?api-version=2023-07-31

Odpověď obsahuje identifikované dokumenty s přidruženými rozsahy stránek v části dokumenty odpovědi.

{
  ...

    "documents": [
      {
        "docType": "formA",
        "boundingRegions": [
          { "pageNumber": 1, "polygon": [...] },
          { "pageNumber": 2, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      },
      {
        "docType": "formB",
        "boundingRegions": [
          { "pageNumber": 3, "polygon": [...] }
        ],
        "confidence": 0.97,
        "spans": []
      }, ...
    ]
  }

Další kroky

Naučte se vytvářet vlastní klasifikační modely: