Tento článek popisuje architekturu Azure, kterou můžete použít k nahrazení nákladných a nepružných metod zpracování formulářů nákladově efektivním a flexibilním automatizovaným zpracováním PDF.
Architektura
Stáhněte si soubor PowerPointu této architektury.
Workflow
- Určený e-mailový účet Outlooku přijímá soubory PDF jako přílohy. Přijetí e-mailu aktivuje aplikaci logiky, která e-mail zpracuje. Aplikace logiky je sestavená pomocí funkcí Azure Logic Apps.
- Aplikace logiky nahraje soubory PDF do kontejneru ve službě Azure Data Lake Storage.
- Soubory PDF můžete také ručně nebo programově nahrát do stejného kontejneru PDF.
- Přijetí souboru PDF v kontejneru PDF aktivuje další aplikaci logiky pro zpracování formulářů PDF, které jsou v souboru PDF.
- Aplikace logiky odešle umístění souboru PDF do aplikace funkcí ke zpracování. Aplikace funkcí je sestavená pomocí funkcí Azure Functions.
- Aplikace funkcí obdrží umístění souboru a provede tyto akce:
- Rozdělí soubor na jednu stránku, pokud má soubor více stránek. Každá stránka obsahuje jeden nezávislý formulář. Rozdělení souborů se uloží do druhého kontejneru ve službě Data Lake Storage.
- K odeslání umístění jednostrákového souboru PDF do AI Document Intelligence ke zpracování používá HTTPS POST, rozhraní Azure REST API. Když Azure AI Document Intelligence dokončí zpracování, odešle odpověď zpět do aplikace funkcí, která informace umístí do datové struktury.
- Vytvoří datový soubor JSON, který obsahuje data odpovědí a uloží soubor do třetího kontejneru ve službě Data Lake Storage.
- Aplikace logiky pro zpracování formulářů přijímá zpracovaná data odpovědí.
- Aplikace logiky pro zpracování formulářů odesílá zpracovávaná data do služby Azure Cosmos DB, která ukládá data do databáze a do kolekcí.
- Power BI získá data ze služby Azure Cosmos DB a poskytuje přehledy a řídicí panely.
- V datech, která jsou ve službě Azure Cosmos DB, můžete podle potřeby implementovat další zpracování.
Komponenty
- azure AI Document Intelligence, cloudová služba, která umožňuje vytvářet inteligentní řešení pro zpracování dokumentů. Používá pokročilé strojové učení k extrakci textu, párů klíč-hodnota, tabulek a struktur z dokumentů automaticky a přesně. V této architektuře se jedná o inteligentní službu zpracování dokumentů, která se využívá k extrakci informací z dokumentů PDF.
- Azure Logic Apps je bezserverová cloudová služba pro vytváření a spouštění automatizovaných pracovních postupů, které integrují aplikace, data, služby a systémy. V této architektuře se používá jako orchestrátor ke koordinaci vstupu uživatele, úložiště dokumentů, zpracování dokumentů, ukládání výsledků a analýzy zpracovaných dokumentů.
- Azure Functions je bezserverové řešení, které umožňuje psát méně kódu, udržovat méně infrastruktury a ušetřit náklady. V této architektuře se jedná o back-endové služby, které nakonfigurují vstup tak, aby využívaly document Intelligence Azure AI a ukládají výstup.
- Azure Data Lake Storage je základem pro vytváření podnikových datových jezer v Azure. V této architektuře se používá k ukládání nezpracovaných dokumentů PDF, výsledků strojového učení a zpracovaného výstupu.
- Azure Cosmos DB je plně spravovaná noSQL a relační databáze pro moderní vývoj aplikací. V této architektuře se používá k ukládání extrahovaných přehledů z každého dokumentu PDF. Informace využívají Power BI k vytváření přehledů.
- Power BI je kolekce softwarových služeb, aplikací a konektorů, které spolupracují, abyste mohli převést nesouvisející zdroje dat na koherentní, vizuálně imerzivní a interaktivní přehledy. V této architektuře se používá k analýze výsledků zpracování dokumentů.
Alternativy
- Místo Power BImůžete použít Microsoft Fabric k ingestování zpracovaného výstupu do Lakehouse a následné další analýzy a zpracování výstupních dat.
Podrobnosti scénáře
Zpracování formulářů je často důležitou obchodní funkcí. Mnoho společností stále spoléhá na ruční procesy, které jsou nákladné, časově náročné a náchylné k chybám. Nahrazení ručních procesů snižuje náklady a riziko a zvyšuje agilnější společnost.
Tento článek popisuje architekturu, kterou můžete použít k nahrazení ručního zpracování formulářů PDF nebo nákladných starších systémů, které automatizují zpracování formulářů PDF. Azure AI Document Intelligence zpracovává formuláře PDF, Logic Apps poskytuje pracovní postup a Functions poskytuje možnosti zpracování dat.
Informace o nasazení najdete v části Nasazení tohoto scénáře v tomto článku.
Potenciální případy použití
Řešení popsané v tomto článku může zpracovávat mnoho typů formulářů, mezi které patří:
- Faktury a platební záznamy
- Nákupní objednávky
- Záznamy o bezpečnosti, incidentu a dodržování předpisů
- Formuláře screeningu stavu
- Formuláře zpětné vazby zákazníků
- Záznamy zaměstnanců
- Akademické a výzkumné studie
- Dokumenty s ručně psanými poznámkami
- Vlastní dokumenty z vaší domény
Důležité informace
Tyto aspekty implementují pilíře dobře architektuře Azure, sadu hlavních principů, které můžete použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.
Spolehlivost
Spolehlivost zajišťuje, aby vaše aplikace splňovala závazky, které jste udělali pro své zákazníky. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro spolehlivost.
Spolehlivá úloha je ta, která je odolná i dostupná. Odolnost je schopnost systému zotavit se ze selhání a nadále fungovat. Cílem odolnosti proti chybám je obnovení plně funkčního stavu aplikace co nejdříve po selhání. Dostupnost je míra, jestli uživatelé budou mít přístup k vaší úloze, když potřebují.
Tato architektura je určená jako úvodní architektura, kterou můžete rychle nasadit a vytvořit prototyp pro zajištění obchodního řešení. Pokud je váš prototyp úspěšný, můžete architekturu v případě potřeby rozšířit a vylepšit, aby splňovala další požadavky.
Tato architektura využívá škálovatelnou a odolnou infrastrukturu a technologie Azure. Azure Cosmos DB má například integrovanou redundanci a globální pokrytí, které můžete nakonfigurovat tak, aby vyhovovaly vašim potřebám.
Záruky dostupnosti služeb Azure, které toto řešení používá, najdete v tématu Smlouvy o úrovni služeb (SLA) pro online služby.
Zabezpečení
Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v kontrolním seznamu pro kontrolu návrhu zabezpečení.
E-mailový účet Outlooku používaný v této architektuře je vyhrazený e-mailový účet, který přijímá formuláře PDF jako přílohy. Je vhodné omezit odesílatele jenom na důvěryhodné strany a zabránit škodlivým hercům v spamu e-mailového účtu.
Implementace této architektury popsané v tomto scénáři provádí následující opatření ke zvýšení zabezpečení:
- Skripty pro nasazení PowerShellu a Bicep používají Azure Key Vault k ukládání citlivých informací, aby se nezobrazovaly na obrazovkách terminálu nebo se neukládaly v protokolech nasazení.
- Spravované identity poskytují automaticky spravovanou identitu v Microsoft Entra ID pro aplikace, které se mají použít při připojování k prostředkům, které podporují ověřování Microsoft Entra. Aplikace funkcí používá spravované identity, takže kód nezávisí na jednotlivých objektech zabezpečení a neobsahuje citlivé informace o identitě.
Optimalizace nákladů
Optimalizacenákladůch Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro optimalizaci nákladů.
Tady je několik pokynů pro optimalizaci nákladů:
- Použijte strategii průběžných plateb pro vaši architekturu a podle potřeby navyšujte kapacitu podle potřeby, místo abyste na začátku investovali do rozsáhlých prostředků.
- Implementace architektury popsané v tomto scénáři nasadí počáteční řešení, které je vhodné pro testování konceptu. Skripty nasazení vytvářejí funkční architekturu s minimálními požadavky na prostředky. Například skripty nasazení vytvoří nejmenšího bezserverového hostitele Linuxu pro spuštění aplikace funkcí.
Efektivita výkonu
Efektivita výkonu je schopnost vaší úlohy efektivně škálovat, aby splňovala požadavky, které na ni uživatelé umístí. Další informace najdete v kontrolním seznamu pro kontrolu návrhu týkajícího se efektivity výkonu.
Tato architektura používá služby s integrovanými možnostmi škálování, které můžete použít ke zlepšení efektivity výkonu. Několik příkladů:
- Azure Logic Apps i Azure Functions můžete hostovat v bezserverové infrastruktuře. Další informace najdete v tématu Bezserverový přehled Azure: Vytváření cloudových aplikací a řešení pomocí Azure Logic Apps a Azure Functions.
- Službu Azure Cosmos DB můžete nakonfigurovat tak, aby automaticky škálovala propustnost. Další informace najdete v tématu Zřízení propustnosti automatického škálování databáze nebo kontejneru ve službě Azure Cosmos DB – API pro NoSQL.
Nasazení tohoto scénáře
Můžete nasadit základní verzi této architektury a použít ji jako výchozí bod pro nasazení vlastního řešení. Úložiště obsahuje kód, skripty nasazení a průvodce nasazením.
Ukázka obdrží formuláře PDF, extrahuje datová pole a uloží data ve službě Azure Cosmos DB. Power BI vizualizuje data. Návrh používá modulární metodologii řízenou metadaty. Žádná pole formuláře nejsou pevně zakódovaná. Může zpracovávat libovolné formuláře PDF.
Úložiště můžete použít tak, jak je, bez úpravy kódu, ke zpracování a vizualizaci všech jednostrákových formulářů PDF, jako jsou bezpečnostní formuláře, faktury, záznamy incidentů a mnoho dalších. Pokud ho chcete použít, stačí shromáždit pouze ukázkové formuláře PDF, vytrénovat nový model, abyste se naučili rozložení formulářů, a zapojit model do řešení. Musíte také přepracovat sestavu Power BI pro datové sady tak, aby poskytovala požadované přehledy.
Implementace k vytváření vlastních modelů používá Azure AI Document Intelligence Studio . Ukázka používá názvy polí, které jsou uloženy v modelu strojového učení jako odkaz na zpracování jiných formulářů. K vytvoření vlastního modelu strojového učení je potřeba jenom pět ukázkových formulářů. Můžete sloučit až 100 vlastních modelů a vytvořit složený model strojového učení, který může zpracovávat různé formy.
Úložiště nasazení
Kód pro tuto ukázku je v úložišti Azure PDF Form Processing Automation Solution Na GitHubu. Postupujte podle průvodce nasazením v úložišti.
Aspekty nasazení
K zpracování nového typu formuláře PDF použijete ukázkové soubory PDF k vytvoření nového modelu strojového učení. Až bude model připravený, zapojte ID modelu do řešení.
Tento název kontejneru je konfigurovatelný ve skriptech nasazení, které získáte z úložiště GitHub.
Architektura neřeší žádné požadavky na vysokou dostupnost (HA) ani zotavení po havárii (DR). Pokud chcete rozšířit a vylepšit aktuální architekturu pro produkční nasazení, zvažte následující doporučení a osvědčené postupy:
- Navrhněte architekturu vysoké dostupnosti a zotavení po havárii na základě vašich požadavků a v případě potřeby využijte integrované funkce redundance.
- Aktualizujte kód nasazení Bicep tak, aby vytvořil výpočetní prostředí, které dokáže zpracovávat svazky zpracování.
- Aktualizujte kód nasazení Bicep, abyste vytvořili více instancí komponent architektury, aby vyhovoval vašim požadavkům na vysokou dostupnost a zotavení po havárii.
- Při návrhu a zřizování úložiště postupujte podle pokynů v redundanci služby Azure Storage.
- Při návrhu a zřizování aplikací logiky postupujte podle pokynů v oblasti provozní kontinuity a zotavení po havárii.
- Při návrhu a zřízení aplikace funkcí dodržujte pokyny týkající se spolehlivosti ve službě Azure Functions .
- Při návrhu a zřízení databáze vytvořené pomocí služby Azure Cosmos DB postupujte podle pokynů v části Dosažení vysoké dostupnosti ve službě Azure Cosmos DB .
- Pokud uvažujete o vložení tohoto systému do produkčního prostředí pro zpracování velkých objemů formulářů PDF, můžete upravit skripty nasazení a vytvořit hostitele s Linuxem, který má více prostředků. Uděláte to tak, že upravíte kód uvnitř souboru deploy-functionsapp.bicep.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Gail Zhou | Hlavní softwarový inženýr
Další přispěvatelé:
- Řekl Nikjou | Sr. Cloud Solution Architect
- Nalini Chandhi | Hlavní správce softwarového inženýrství
- Steve DeMarco | Hlavní technický specialista
- Travis Hilbert | Softwarový inženýr II
- DB Lee | Hlavní softwarový inženýr
- Malory Rose | Sr. Software Engineer
- Oscar Shimabukuro | Sr. Cloud Solution Architect
- Echo Wang | Architekt řešení
Pokud chcete zobrazit nepublikované profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
- Video: Automatizace zpracování formulářů v Azure PDF
- Úložiště GitHub pro automatizaci zpracování formulářů v Azure PDF
- Úložiště GitHub pro automatizaci procesů faktur Azure
- Úložiště GitHub pro automatizaci obchodních procesů
- Kurz: Vytváření pracovních postupů, které zpracovávají e-maily pomocí Azure Logic Apps, Azure Functions a Azure Storage