Upravit

Sdílet prostřednictvím


Automatizace identifikace, klasifikace a vyhledávání dokumentů pomocí služeb Azure AI

Azure Functions
Azure App Service
Azure AI services
Azure AI Search
Azure AI Document Intelligence

Tento článek popisuje architekturu, kterou můžete použít ke zpracování různých dokumentů. Architektura používá k implementaci kanálů funkci trvalých funkcí služby Azure Functions. Kanály zpracovávají dokumenty prostřednictvím funkce Azure AI Document Intelligence.

Architektura

Diagram znázorňující architekturu pro identifikaci, klasifikaci a vyhledávání dokumentů

Stáhněte si soubor aplikace Visio s touto architekturou.

Workflow

  1. Uživatel nahraje soubor dokumentu do webové aplikace. Soubor obsahuje více vložených dokumentů různých typů, například PDF nebo soubory TIFF (Tag Tag Image File Format). Soubor dokumentu je uložený ve službě Azure Blob Storage (1a). Pokud chcete zahájit zpracování kanálu, webová aplikace přidá do fronty úložiště zprávu příkazu (1b).

  2. Zpráva příkazu aktivuje orchestraci trvalých funkcí. Zpráva obsahuje metadata, která identifikují umístění úložiště objektů blob souboru dokumentu, které se má zpracovat. Každá instance trvalých funkcí zpracovává pouze jeden soubor dokumentu.

  3. Funkce analyzovat aktivitu volá rozhraní API pro analýzu dokumentů funkce Document Intelligence, které předává umístění úložiště souboru dokumentu, který se má zpracovat. Funkce analýza čte a identifikuje každý dokument v souboru dokumentu. Tato funkce vrátí název, typ, rozsahy stránek a obsah každého vloženého dokumentu do orchestrace.

  4. Funkce aktivity úložiště metadat ukládá informace o typu dokumentu, umístění a rozsahu stránek pro každý dokument v úložišti Azure Cosmos DB.

  5. Funkce aktivity indexování vytvoří nový vyhledávací dokument ve službě Azure AI Search pro každý dokument. Ve vyhledávacím dokumentu tato funkce používá knihovny AI Search pro .NET k zahrnutí úplných výsledků optického rozpoznávání znaků (OCR) a informací o dokumentech. Do vyhledávacího dokumentu se přidá také ID korelace, aby se výsledky hledání mohly shodovat s odpovídajícími metadaty dokumentu ze služby Azure Cosmos DB.

  6. Uživatelé můžou vyhledávat dokumenty pomocí obsahu a metadat. Pokud chcete vyhledat záznamy dokumentů, které jsou ve službě Azure Cosmos DB, můžou použít ID korelace v sadě výsledků hledání. Záznamy zahrnují odkazy na původní soubor dokumentu ve službě Blob Storage.

Komponenty

  • Durable functions je funkce Azure Functions , kterou můžete použít k zápisu stavových funkcí v bezserverovém výpočetním prostředí. V této architektuře zpráva ve frontě úložiště aktivuje instanci trvalých funkcí, která iniciuje a orchestruje kanál zpracování dokumentů.

  • Azure Cosmos DB je globálně distribuovaná vícemodelová databáze, kterou můžete ve svých řešeních použít ke škálování propustnosti a kapacity úložiště napříč libovolným počtem geografických oblastí. Komplexní smlouvy o úrovni služeb (SLA) zaručují propustnost, latenci, dostupnost a konzistenci. Tato architektura používá Službu Azure Cosmos DB jako úložiště metadat pro informace o klasifikaci dokumentů.

  • Azure Storage je sada široce škálovatelných a zabezpečených cloudových služeb pro data, aplikace a úlohy. Zahrnuje službu Blob Storage, Azure Files, Azure Table Storage a Azure Queue Storage. Tato architektura používá službu Blob Storage k ukládání souborů dokumentů, které uživatel nahraje a které procesy kanálu trvalých funkcí.

  • Aplikace Azure Service poskytuje architekturu pro sestavování, nasazování a škálování webových aplikací. Funkce Web Apps služby App Service je nástroj založený na protokolu HTTP, který můžete použít k hostování webových aplikací, rozhraní REST API a mobilních back-endů. Pomocí Web Apps můžete vyvíjet v .NET, .NET Core, Java, Ruby, Node.js, PHP nebo Pythonu. Aplikace můžou snadno spouštět a škálovat v prostředích se systémem Windows a Linux. V této architektuře uživatelé komunikují se systémem zpracování dokumentů prostřednictvím webové aplikace hostované službou App Service.

  • AI Document Intelligence je služba, kterou můžete použít k extrakci přehledů z dokumentů, formulářů a obrázků. Tato architektura používá AI Document Intelligence k analýze souborů dokumentů a extrakci vložených dokumentů spolu s informacemi o obsahu a metadatech.

  • AI Search poskytuje bohaté možnosti hledání pro soukromý, různorodý obsah ve webových, mobilních a podnikových aplikacích. Tato architektura používá AI Search k indexování extrahovaného obsahu dokumentu a informací o metadatech, aby uživatelé mohli prohledávat a načítat dokumenty.

Alternativy

  • Pro usnadnění globální distribuce ukládá toto řešení metadata ve službě Azure Cosmos DB. Azure SQL Database je další možností trvalého úložiště pro metadata dokumentů a informace.

  • K aktivaci instancí trvalých funkcí můžete použít jiné platformy zasílání zpráv, včetně Služby Azure Service Bus.

Podrobnosti scénáře

V této architektuře kanály identifikují dokumenty v souboru dokumentu, klasifikují je podle typu a ukládají informace, které se použijí při následném zpracování.

Mnoho společností potřebuje spravovat a zpracovávat dokumenty, které skenují hromadně a které obsahují několik různých typů dokumentů, jako jsou pdf soubory nebo obrázky TIFF s více stránkami. Tyto dokumenty můžou pocházet mimo organizaci a přijímající společnost neřídí formát.

Vzhledem k těmto omezením musí organizace vytvářet vlastní řešení pro analýzu dokumentů, která můžou zahrnovat vlastní technologie a ruční procesy. Někdo může například ručně oddělit jednotlivé typy dokumentů a přidat kvalifikátory klasifikace pro každý dokument.

Mnoho z těchto vlastních řešení vychází ze vzoru pracovního postupu stavového počítače. Řešení používají databázové systémy k zachování stavu pracovního postupu a používají služby dotazování, které kontrolují stavy, které potřebují zpracovat. Údržba a vylepšení těchto řešení může zvýšit složitost a úsilí.

Organizace potřebují spolehlivé, škálovatelné a odolné řešení pro zpracování a správu identifikace a klasifikace dokumentů pro typy dokumentů organizace. Toto řešení může každý den zpracovávat miliony dokumentů s plnou pozorovatelností do úspěchu nebo selhání kanálu zpracování.

Potenciální případy použití

Toto řešení můžete použít k:

  • Názvy sestav Mnoho úřadů státní správy a obce spravuje papírové záznamy, které nemají digitální formulář. Efektivní automatizované řešení může vygenerovat soubor obsahující všechny dokumenty, které potřebujete k splnění žádosti o dokument.

  • Správa záznamů údržby Možná budete muset skenovat a posílat papírové záznamy, jako jsou záznamy o údržbě letadla, strojovny a strojovny, mimo organizace.

  • Povolení procesů. Městská a krajská oddělení uchovávají papírové dokumenty, které generují pro hlášení o povolení kontroly. Můžete si pořídit obrázek několika kontrolních dokumentů a automaticky identifikovat, klasifikovat a vyhledávat v těchto záznamech.

Důležité informace

Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.

Spolehlivost

Spolehlivost zajišťuje, že vaše aplikace může splňovat závazky, které uděláte pro vaše zákazníky. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro spolehlivost.

Spolehlivá úloha má odolnost i dostupnost. Odolnost proti chybám je schopnost systému obnovit funkci v případě selhání a pokračovat v provozu. Cílem odolnosti proti chybám je obnovení plně funkčního stavu aplikace co nejdříve po selhání. Dostupnost měří, jestli uživatelé můžou přistupovat k vaší úloze, když potřebují.

Informace o spolehlivosti komponent řešení najdete v informacích o sla pro Azure online služby.

Optimalizace nákladů

Optimalizacenákladůch Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro optimalizaci nákladů.

Mezi nejvýznamnější náklady na tuto architekturu patří ukládání imagí do účtu úložiště, zpracování image služeb Azure AI a požadavky na kapacitu indexu ve službě AI Search.

Optimalizace nákladů:

  • K nastavení práv k účtům úložiště použijte rezervované kapacity a zásady životního cyklu.

  • Plánování regionálních nasazení a plánování provozního vertikálního navýšení kapacity ve službě AI Search

  • Použití cen úrovně závazku pro AI Document Intelligence ke správě předvídatelných nákladů

  • Použijte strategii průběžných plateb pro vaši architekturu a podle potřeby navyšujte kapacitu podle potřeby, místo abyste na začátku investovali do rozsáhlých prostředků.

  • Zvažte náklady na příležitosti ve vaší architektuře a vyrovnejte strategii výhod prvního přesunu oproti strategii rychlého sledování. K odhadu počátečních nákladů a provozních nákladů použijte cenovou kalkulačku.

  • Nastavte rozpočty a ovládací prvky , které nastavily limity nákladů pro vaše řešení. Pokud chcete nastavit prognózování a upozornění na skutečné náklady, použijte upozornění rozpočtu.

Efektivita výkonu

Efektivita výkonu je schopnost vaší úlohy škálovat tak, aby splňovala požadavky, které na ni mají uživatelé efektivním způsobem. Další informace najdete v kontrolním seznamu pro kontrolu návrhu týkajícího se efektivity výkonu.

Toto řešení může vystavit kritické body výkonu při zpracování velkých objemů dat. Abyste zajistili správnou efektivitu výkonu vašeho řešení, ujistěte se, že rozumíte možnostem škálování služby Azure Functions, automatickým škálováním služeb Azure AI a dělením azure Cosmos DB.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky

Úvodní články:

Dokumentace k produktu: