Tento článek popisuje řešení Azure pro vytváření, trénování, nasazování a používání vlastních modelů zpracování dokumentů. Tyto služby Azure také nabízejí možnosti uživatelského rozhraní (UI) pro popisování nebo označování pro zpracování textu.
Architektura
Stáhněte si soubor aplikace Visio s touto architekturou.
Tok dat
Orchestrátory, jako jsou Azure Logic Apps, Azure Data Factory nebo Azure Functions, ingestují zprávy a přílohy z e-mailových serverů a souborů ze serverů FTP nebo webových aplikací.
Azure Functions a Logic Apps umožňují bezserverové úlohy. Služba, kterou zvolíte, závisí na vašich preferencích pro funkce služeb, jako je vývoj, konektory, správa a kontext spouštění. Další informace najdete v tématu Porovnání azure Functions a Azure Logic Apps.
Zvažte použití služby Azure Data Factory k hromadnému přesunu dat.
Orchestrátory odesílají ingestované data do Azure Blob Storage nebo Data Lake Storage a uspořádají data napříč úložišti dat na základě charakteristik, jako jsou přípony souborů nebo zákazníci.
Různé služby, které lze použít pro trénování dokumentů a vytváření vlastních modelů v Azure nezávisle nebo v různých kombinacích k řešení různých případů použití, jsou:
Sady Document Intelligence Studio: Pokud dokument vyžaduje extrakci párů klíč-hodnota nebo vytvoření vlastní tabulky z formátu obrázku nebo PDF, použijte Document Intelligence Studio k označení dat a trénování vlastního modelu. Podobně platí, že pokud existuje požadavek na identifikaci typu dokumentu (klasifikace dokumentů) před vyvoláním správného modelu extrakce, použijte Document Intelligent Studio k označení dokumentů a sestavení modelů.
Language Studio: Pro klasifikaci dokumentů na základě obsahu nebo pro extrakci entit specifických pro doménu můžete v sadě Language Studio trénovat vlastní klasifikaci textu nebo model NER (Named Entity Recognition).
azure Machine Learning Studio: Pokud chcete označovat data pro klasifikaci textu nebo extrakci entit, které můžete použít s opensourcovými architekturami, jako je PyTorch nebo TensorFlow, použijte Machine Learning Studio nebo Python SDK, Azure CLI nebo REST API. studio Azure Machine Learning poskytuje katalog základních modelů. Tyto základní modely mají možnosti jemného ladění pro různé úkoly, jako je klasifikace textu, zodpovězení otázek, shrnutí atd. K vyladění základních modelů použijte uživatelského rozhraní nástroje Machine Learning Studio nebo kód.
služba Azure OpenAI Service: Pro vyladění modelů Azure OpenAI na vlastní data nebo doménu pro různé úlohy, jako je sumarizace textu, odpovědi na otázky, použijte [portál Azure AI Foundry]((https://ai.azure.com/) nebo Python SDK nebo rozhraní REST API.
Nasazení vlastních modelů a jejich použití k odvozování:
Azure AI Document Intelligence má integrované nasazení modelu. K použití vlastních modelů pro odvozování použijte sady Document Intelligence SDK nebo rozhraní REST API . V závislosti na verzi rozhraní API zahrňte ID modelu nebo vlastní název modelu do adresy URL požadavku Document Intelligence. Funkce Document Intelligence nevyžaduje žádné další kroky nasazení.
Language Studio nabízí možnost nasazení vlastních jazykových modelů. Získejte adresu URL predikce koncového bodu REST výběrem modelu, který chcete nasadit. Odvozování modelů můžete provést pomocí koncového bodu REST nebo klientských knihoven Sady Azure SDK.
Machine Learning nasadí vlastní modely do online nebo dávkových koncových bodů spravovaných službou Machine Learning. Sadu Machine Learning SDK můžete také použít k nasazení do služby Azure Kubernetes Service (AKS) jako webové služby. Jemně vyladěné základní modely se nasazují z katalogu modelů dvěma způsoby: spravované výpočetní prostředky a bezserverové rozhraní API. Modely nasazené prostřednictvím spravovaného výpočetního prostředí je možné odvozovat pomocí spravovaných koncových bodů – online koncové body pro odvozování v reálném čase a dávkové koncové body pro dávkové odvozování.
Azure AI Foundry nabízí možnost nasazení jemně vyladěného modelu Azure OpenAI. Pomocí sady Python SDK nebo rozhraní REST API můžete také nasadit jemně vyladěné modely Azure OpenAI.
Komponenty
Logic Apps je součástí Azure Integration Services. Logic Apps vytváří automatizované pracovní postupy, které integrují aplikace, data, služby a systémy. Pomocí spravovaných konektorů pro služby, jako je Azure Storage a Microsoft 365, můžete aktivovat pracovní postupy při přijetí souboru v účtu úložiště nebo e-mailu.
Data Factory je spravovaná cloudová služba extrakce, transformace, načítání (ETL) pro integraci a transformaci dat. Data Factory může do kanálu přidat aktivity transformace, které zahrnují vyvolání koncového bodu REST nebo spuštění poznámkového bloku na přijatých datech.
Azure Functions je bezserverová výpočetní služba, která může hostovat úlohy řízené událostmi s krátkodobými procesy.
Blob Storage je řešení úložiště objektů pro nezpracované soubory v tomto scénáři. Blob Storage podporuje knihovny pro více jazyků, jako jsou .NET, Node.js a Python. Aplikace mají přístup k souborům ve službě Blob Storage přes HTTP/HTTPS. Blob Storage má horkou, studenou a archivní úroveň přístupu, která podporuje optimalizaci nákladů pro ukládání velkých objemů dat.
Data Lake Storage je sada funkcí založených na službě Azure Blob Storage pro analýzy velkých objemů dat. Data Lake Storage zachovává nákladovou efektivitu služby Blob Storage a poskytuje funkce, jako je zabezpečení na úrovni souborů a sémantika systému souborů s hierarchickým oborem názvů.
Document Intelligence je součástí služeb Azure AI. Funkce Document Intelligence má integrované možnosti analýzy dokumentů, které můžete použít k extrakci tištěného a rukou psaného textu, tabulek a párů klíč-hodnota. Funkce Document Intelligence obsahuje předem připravené modely pro extrakci dat z faktur, dokumentů, účtenek, id karet a vizitek. Funkce Document Intelligence má také vlastní model formuláře šablony a vlastní neurální dokumentový model, který můžete použít k trénování a nasazování vlastních modelů.
- Document Intelligence Studio poskytuje uživatelské rozhraní, které můžete použít k prozkoumání funkcí a modelů Document Intelligence a k vytváření, označování, trénování a nasazování vlastních modelů.
Azure AI Language konsoliduje služby zpracování přirozeného jazyka Azure. Sada nabízí předem připravené a přizpůsobitelné možnosti. Další informace najdete v dostupných funkcích jazyka Azure AI.
- Language Studio poskytuje uživatelské rozhraní pro zkoumání a analýzu funkcí jazyka Azure AI. Language Studio také poskytuje možnosti pro sestavování, označování, trénování a nasazování vlastních modelů.
azure Machine Learning je spravovaná platforma strojového učení pro vývoj a nasazení modelů ve velkém měřítku.
- studio Azure Machine Learning poskytuje možnosti popisování dat pro obrázky a text.
- Exportujte označená data jako datové sady COCO nebo Azure Machine Learning. Datové sady můžete použít k trénování a nasazování modelů v poznámkových blocích Azure Machine Learning.
azure OpenAI Service nabízí výkonné jazykové modely , multimodální modely jako rozhraní REST API, která se používají k provádění různých úloh. Některé z nabízených modelů mohou být také jemně vyladěné, aby se zlepšil výkon modelu u dat, která nebyla přítomna nebo nebyla reprezentována při původním trénování základního modelu.
Alternativy
Do tohoto scénáře můžete přidat další pracovní postupy na základě konkrétních případů použití.
Pokud je dokument ve formátu obrázku nebo PDF, můžete data extrahovat pomocí počítačového zpracování obrazu, rozhraní API pro čtení funkce Document Intelligence nebo opensourcových knihoven.
Souhrny dokumentů a konverzací můžete provádět pomocí předem připraveného modelu v jazyce Azure AI.
Pomocí kódu předběžného zpracování proveďte kroky zpracování textu. Mezi tyto kroky patří čištění, zastavení odebrání slov, lemmatizace, vytváření stemmingu a shrnutí textu na extrahovaných datech podle požadavků na zpracování dokumentů. Kód můžete zveřejnit jako rozhraní REST API pro automatizaci. Tyto kroky proveďte ručně nebo je automatizujte integrací s procesem příjmu služeb Logic Apps nebo Azure Functions .
portálu Azure AI Foundry můžete použít k vyladění, nasazení základních modelů (jiných než modelů Azure OpenAI) a vytváření generovaných aplikací AI.
Vzhledem k tomu, že se azure Machine Learning a Azure AI Foundry překrývají, musíte vyhodnotit jejich schopnosti a vybrat nejlepší platformu pro váš scénář.
Můžete také použít
Azure AI Content Understanding k vytvoření vlastního analyzátoru definováním schématu polí pro extrakci strukturovaných dat z dokumentu.
Podrobnosti scénáře
Zpracování dokumentů je široká oblast. S předem připravenými modely dostupnými v jazyce Document Intelligence a Azure AI může být obtížné splnit všechny požadavky na zpracování dokumentů. Možná budete muset vytvořit vlastní modely pro automatizaci zpracování dokumentů pro různé aplikace a domény.
Mezi hlavní výzvy při přizpůsobení modelu patří:
- Označení nebo označování textových dat relevantními entitami páru klíč-hodnota ke klasifikaci textu pro extrakci
- Správa trénovací infrastruktury, jako jsou výpočetní prostředky a úložiště, a jejich integrace
- Bezpečné nasazování modelů ve velkém měřítku pro snadnou integraci s využitím aplikací
Potenciální případy použití
Následující případy použití můžou využívat vlastní modely pro zpracování dokumentů:
- Vytvářejte vlastní modely klasifikace textu a NER na základě opensourcových architektur.
- Extrahujte vlastní hodnoty klíčů z dokumentů pro různé oborové svislé oblasti, jako je pojištění a zdravotnictví.
- Označte a extrahujte konkrétní entity závislé na doméně nad rámec předem připravených modelů NER pro domény, jako je zabezpečení nebo finance.
- Vytváření vlastních tabulek z dokumentů
- Extrahujte podpisy.
- Označení a klasifikace e-mailů nebo jiných dokumentů na základě obsahu
- Zdokumentujte shrnutí nebo vlastní otázku a odpovídání na vaše data.
Důležité informace
Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.
V tomto příkladu úlohy závisí implementace jednotlivých pilířů na optimální konfiguraci a používání jednotlivých komponent služby Azure.
Spolehlivost
Spolehlivost zajišťuje, že vaše aplikace může splňovat závazky, které uděláte pro vaše zákazníky. Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro spolehlivost.
Dostupnost
Podívejte se na smlouvy o úrovni služeb (SLA) pro každou komponentu architektury na úrovni služeb (SLA) pro online služby.
Možnosti konfigurace návrhu aplikací s vysokou dostupností s účty Azure Storage najdete v tématu Použití geografické redundance k návrhu vysoce dostupných aplikací.
Odolnost
Zpracujte režimy selhání jednotlivých služeb, jako jsou Azure Functions a Azure Storage, abyste zajistili odolnost výpočetních služeb a úložišť dat v tomto scénáři. Další informace najdete v kontrolním seznamu odolnosti pro konkrétní služby Azure.
V případě funkce Document Intelligence zálohujte a obnovte modely Document Intelligence.
Pro vlastní klasifikaci textu pomocí jazyka Azure AI zálohujte a obnovte vlastní modely klasifikace textu.
Pro vlastní NER v Azure AI Language zálohujte a obnovte vlastní modely NER.
Azure Machine Learning závisí na základních službách, jako je Blob Storage, výpočetní služby a Azure Kubernetes Service (AKS). Pokud chcete zajistit odolnost služby Azure Machine Learning, nakonfigurujte každou z těchto služeb tak, aby byla odolná. Další informace najdete v tématu Převzetí služeb při selhání pro provozní kontinuitu a zotavení po havárii.
Aby služba Azure OpenAI byla vždy dostupná, zřiďte v jiné oblasti dva nebo více prostředků Azure OpenAI, aby v případě problému s převzetím služeb při selhání do jiné oblasti. Další informace najdete v tématu BCDR sAzure OpenAI .
Zabezpečení
Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v kontrolním seznamu pro kontrolu návrhu zabezpečení.
- Implementujte ochranu dat, správu identit a přístupu a doporučení zabezpečení sítě proslužby
Blob Storage, AI Services pro Document Intelligence a Language Studio,azure Machine Learning aAzure OpenAI .
Optimalizace nákladů
Optimalizacenákladůch Další informace najdete v kontrolním seznamu pro kontrolu návrhu pro optimalizaci nákladů.
Celkové náklady na implementaci tohoto řešení závisí na cenách vámi zvolených služeb.
Hlavní náklady na toto řešení jsou:
Náklady na výpočetní prostředky, které se týkají trénování a nasazení modelů ve službě Machine Learning.
Zvolte správný typ uzlu, velikost clusteru a počet uzlů, které vám pomůžou optimalizovat náklady. Pro trénování poskytuje Machine Learning možnosti nastavení minimálního počtu výpočetních uzlů clusteru na nulu a nastavení doby nečinnosti před vertikálním snížením kapacity. Další informace najdete v tématu Správa a optimalizace nákladů na Machine Learning.
Doba trvání a aktivity orchestrace dat. V případě služby Azure Data Factory se poplatky za aktivity kopírování v prostředí Azure Integration Runtime zakládají na počtu použitých jednotek integrace dat (DIU) a době trvání provádění. Přidání spuštění aktivit orchestrace se také účtuje na základě jejich počtu.
Cenové plány Logic Apps závisí na prostředcích, které vytvoříte a používáte. Následující články vám můžou pomoct zvolit správný plán pro konkrétní případy použití:
Další informace o cenách pro konkrétní komponenty najdete v následujících zdrojích informací:
- Ceny služby Azure AI Document Intelligence
- Ceny Azure Functions
- Ceny služby Logic Apps
- Ceny služby Azure Data Factory
- Ceny služby Azure Blob Storage
- Ceny azure AI Language
- Ceny služby Azure Machine Learning
- cenových Azure OpenAI
Pomocí cenové kalkulačky Azure můžete přidat vybrané možnosti komponent a odhadnout celkové náklady na řešení.
Efektivita výkonu
Efektivita výkonu je schopnost vaší úlohy škálovat tak, aby splňovala požadavky, které na ni mají uživatelé efektivním způsobem. Další informace najdete v kontrolním seznamu pro kontrolu návrhu týkajícího se efektivity výkonu.
Škálovatelnost
Pokud chcete azure Functions škálovat automaticky nebo ručně, zvolte správný plán hostování.
Funkce Document Intelligence ve výchozím nastavení podporuje 15 souběžných požadavků za sekundu. Pokud chcete požádat o zvýšenou kvótu, vytvořte lístek podpora Azure.
U vlastních modelů Azure Machine Learning hostovaných jako webové služby v AKS
azureml-fe
se front-end automaticky škáluje podle potřeby. Tato komponenta také směruje příchozí požadavky na odvození do nasazených služeb.U nasazení jako spravovaných koncových bodů podporují automatické škálování integrací s funkcí automatického škálování služby Azure Monitor.
Omezení služby API pro vlastní NER a vlastní klasifikaci textu pro odvozování jsou 20 požadavků GET nebo POST za minutu.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byl napsán následujícím přispěvatelem.
Hlavní autor:
- Jyotsna Ravi | Sr. Customer Engineer
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
- Začínáme: Document Intelligence Studio
- Použití modelů Document Intelligence prostřednictvím sad SDK nebo rozhraní REST API
- Rychlý start: Začínáme se sadou Language Studio
- Co je optické rozpoznávání znaků (OCR)?
- Konfigurace služby Azure Functions s virtuální sítí