In diesem Artikel wird eine anpassungsfähige und sichere Lösung zum Erstellen einer automatisierten Pipeline zur Dokumentverarbeitung beschrieben. Die Lösung verwendet KI Dokument Intelligenz für die strukturierte Datenextraktion. NLP-Modelle (Natural Language Processing) und benutzerdefinierte Modelle reichern die Daten an.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
In den folgenden Abschnitten werden die verschiedenen Phasen des Datenextraktionsvorgangs beschrieben.
Datenerfassung und -extraktion
Dokumente werden über einen Browser am Front-End einer Webanwendung erfasst. Die Dokumente enthalten Bilder oder sind im PDF-Format. Azure App Service hostet eine Back-End-Anwendung. Die Lösung leitet die Dokumente über Azure Application Gateway an diese Anwendung weiter. Dieser Lastenausgleich wird mit Azure Web Application Firewall ausgeführt, um die Anwendung vor gängigen Angriffen und Sicherheitsrisiken zu schützen.
Die Back-End-Anwendung stellt eine Anforderung an einen Rest-API-Endpunkt der Azure AI Document Intelligence-API bereit, der eines der Modelle verwendet, basierend auf der Anwendungsfallanforderung.
Zu den vordefinierten Dokumentanalysemodellen gehören:
- OCR-Modell lesen
- Layoutanalysemodell
-
Allgemeines Dokument. Sie können auch das Layoutanalysemodell mit optionalen Abfragezeichenfolgenparametern verwenden,
features=keyValuePairs
aktiviert sind.)
szenariospezifische Modelle enthalten (nicht beschränkt auf):
Die Antwort von Azure AI Document Intelligence enthält ocR-Daten (Raw Optical Character Recognition) und strukturierte Extraktionen je nach Modell.
Die über App Service gehostete Back-End-Anwendung verwendet die Genauigkeitswerte, um die Extraktionsqualität zu überprüfen. Wenn die Qualität unter einem angegebenen Schwellenwert liegt, kennzeichnet die App die Daten zur manuellen Überprüfung. Wenn die Extraktionsqualität den Anforderungen entspricht, werden die Daten in Azure Cosmos DB übertragen, um von untergeordneten Anwendungen genutzt zu werden. Die App kann die Ergebnisse auch an den Front-End-Browser zurückgeben.
Andere Quellen stellen Bilder, PDF-Dateien und andere Dokumente bereit. Zu den Quellen gehören E-Mail-Anhänge und FTP-Server (File Transfer Protocol). Tools wie Azure Data Factory und AzCopy übertragen diese Dateien an Azure Blob Storage. Azure Logic Apps bietet Pipelines zum automatischen Extrahieren von Anhängen aus E-Mails.
Wenn ein Dokument in Blob Storage übertragen wird, wird eine Azure-Funktion ausgelöst. Die Funktion:
- Sendet eine Anforderung an den entsprechenden vordefinierten Endpunkt von Azure KI Dokument Intelligenz.
- Empfängt die Antwort
- Wertet die Extraktionsqualität aus
Die extrahierten Daten geben Azure Cosmos DB für den nachgeschalteten Anwendungsverbrauch ein.
Die extrahierten Daten können auch an Azure AI-Suche zur Indizierung zum Erstellen von RAG-Anwendungenübertragen werden.
Datenanreicherung
Es hängt vom Anwendungsfall ab, welche Pipeline für die Datenanreicherung verwendet wird.
Die Datenanreicherung kann die folgenden NLP-Funktionen umfassen:
- Erkennung benannter Entitäten (NER)
- Die Extraktion von persönlichen Informationen, Schlüsselbegriffen, Integritätsinformationen und anderen domänenabhängigen Entitäten
Die Web-App führt Folgendes durch, um die Daten anzureichern:
Sie ruft die extrahierten Daten aus Azure Cosmos DB ab.
Sendet Anforderungen an diese Funktionen der KI Language-API:
- NER
- Personenbezogene Informationen
- Schlüsselbegriffserkennung
- Textanalyse für Gesundheit
- Benutzerdefinierte NER, die sich in der Vorschau befindet
- Standpunktanalyse
- Opinion Mining
Empfängt Antworten von der KI Language-API.
Benutzerdefinierte Modelle führen Betrugserkennungen, Risikoanalysen und andere Analysen mit den Daten durch:
- Azure Machine Learning Service trainiert benutzerdefinierte Modelle und stellt sie bereit.
- Die extrahierten Daten werden von Azure Cosmos DB abgerufen.
- Die Modelle leiten Erkenntnisse aus den Daten ab.
Sie können auf verschiedene Arten Rückschließen:
- Echtzeitprozesse. Die Modelle können an verwalteten Onlineendpunkten oder Kubernetes-Onlineendpunkten bereitgestellt werden, bei denen sich der Managed Kubernetes-Cluster überall befinden kann, einschließlich Azure Kubernetes Service (AKS).
- Batchrückschließen kann an Batchendpunkten oder in Azure Virtual Machines erfolgen.
Datenanreicherung wie Konsolidierung bestimmter Informationen, Zusammenfassungen und Überprüfung auf Korrektheit können auch durch Übergeben der extrahierten Daten an den Azure OpenAI-Endpunkt erfolgen.
Die angereicherten Daten werden in Azure Cosmos DB übertragen.
Analysen und Visualisierungen
Anwendungen verwenden die OCR-Rohdaten, strukturierte Daten der Endpunkte von Azure KI Dokument Intelligenz und die angereicherten Daten von NLP:
- Power BI zeigt die Daten an und stellt Berichte zu ihnen bereit.
- Die Daten funktionieren als Quelle für Azure AI Search.
- Andere Anwendungen nutzen die Daten.
Komponenten
App Service ist ein PaaS-Angebot (Platform as a Service) in Azure. Sie können App Service verwenden, um Webanwendungen zu hosten, die manuell oder automatisch ab- oder aufskaliert werden können. Der Dienst unterstützt verschiedene Sprachen und Frameworks, z. B. ASP.NET, ASP.NET Core, Java, Ruby, Node.js, PHP und Python.
Application Gateway ist ein Lastenausgleich der Schicht 7 (Anwendungsschicht), der den Datenverkehr an Webanwendungen verwaltet. Sie können Application Gateway mit Azure Web Application Firewall ausführen, um Webanwendungen vor gängigen Exploits und Sicherheitsrisiken zu schützen.
Azure Functions ist eine serverlose Computeplattform, auf der Sie Anwendungen erstellen können. Mit Functions können Sie Trigger und Bindungen verwenden, um auf Änderungen in Azure-Diensten wie Blob Storage oder Azure Cosmos DB zu reagieren. Functions kann geplante Aufgaben ausführen und Daten in Echtzeit sowie Messagingwarteschlangen verarbeiten.
Azure KI Dokument Intelligenz ist Teil der Azure KI Services. Azure AI Document Intelligence bietet eine Sammlung vordefinierter Endpunkte zum Extrahieren von Daten aus einer Vielzahl von Dokumenten und Formularen zum Erstellen intelligenter Dokumentverarbeitungslösungen in allen Organisationen ohne Schulung und Erstellen bestimmter Modelle für jeden Dokumenttyp/jede Lösung. Der Dienst bietet auch an, eigene benutzerdefinierte Modelle mit minimalem Aufwand zu erstellen und das Modell über die entsprechende Modell-ID im Maßstab zu verwenden. Mehrere benutzerdefinierte Modelle können einer einzelnen Modell-ID zugewiesen werden, indem ein zusammengesetztes Modellerstellt wird. Die Eingabeanforderungen variieren von Modell zu Modell. Das Ausgabeformat ist JSON.
Azure Storage ist eine Cloudspeicherlösung, die Objekt-, Blob-, Datei-, Datenträger-, Warteschlangen- und Tabellenspeicher bietet.
Blob Storage ist ein Dienst, der zu Azure Storage gehört. Blob Storage bietet einen optimierten Cloudobjektspeicher für große Mengen unstrukturierter Daten.
Azure Data Lake Storage ist ein skalierbarer und sicherer Data Lake für Hochleistungs-Analyseworkloads. Die Daten stammen in der Regel aus mehreren heterogenen Quellen und können strukturiert, teilweise strukturiert oder unstrukturiert sein. Azure Data Lake Storage Gen2 vereint die Funktionen von Azure Blob Storage und Azure Data Lake Storage Gen1. Als Lösung der nächsten Generation bietet Data Lake Storage Gen2 Dateisystemsemantik, Sicherheit auf Dateiebene und Skalierungsoptionen. Dies wird ergänzt durch den mehrstufigen Speicher, die Hochverfügbarkeit und die Notfallwiederherstellung von Azure Blob Storage.
Azure Cosmos DB ist eine vollständig verwaltete, äußerst dynamische und skalierbare NoSQL-Datenbank. Azure Cosmos DB bietet Sicherheit auf Unternehmensniveau und unterstützt APIs für viele Datenbanken, Sprachen und Plattformen. Dazu gehören SQL, MongoDB, Gremlin, Table und Apache Cassandra. Serverlose, automatische Skalierungsoptionen in Azure Cosmos DB verwalten die Kapazitätsanforderungen von Anwendungen effizient.
KI Language bietet viele NLP-Dienste, die Sie zum Untersuchen und Analysieren von Text verwenden können. Manche dieser Dienste können angepasst werden, beispielsweise die benutzerdefinierte NER, die benutzerdefinierte Textklassifizierung, das Conversational Language Understanding sowie „Fragen und Antworten“.
Machine Learning ist eine offene Plattform zum Verwalten der Entwicklung und Bereitstellung von Machine Learning-Modellen im großen Stil. Machine Learning ist auf die Qualifikationen verschiedener Benutzer*innen abgestimmt, z. B. Data Scientists und Business Analysts. Die Plattform unterstützt häufig verwendete offene Frameworks und ermöglicht die automatisierte Featurisierung und Algorithmusauswahl. Sie können Modelle für Inferencing mithilfe von Endpunkten bereitstellen, in denen Sie Onlineendpunkte für echtzeitbasierte Ableitungen und Batchendpunkte verwenden können, um asynchrone oder lange ablaufende Ableitungen durchzuführen. Wenn Sie ein benutzerdefiniertes Modell erstellen, indem Sie ein Foundation-Modell aus Modellkatalogoptimieren, können Sie dieses Modell auch als Serverless-API-Endpunktebereitstellen. Sie können Modelle auch für AKS und Azure Arc-fähigen Kubernetes Cluster- für die Ableitung bereitstellen.
AKS ist ein vollständig verwalteter Kubernetes-Dienst, der die Bereitstellung und Verwaltung von containerisierten Anwendungen vereinfacht. AKS umfasst die serverlose Kubernetes-Technologie, integrierte CI/CD-Funktionen (Continuous Integration und Continuous Delivery) sowie Sicherheit und Governance auf Unternehmensniveau.
Power BI ist eine Sammlung von Softwarediensten und Apps, die Analyseinformationen anzeigen.
Azure AI Search ist ein Cloudsuchdienst, der Infrastruktur, APIs und Tools für die Suche bereitstellt. Sie können Azure AI Search verwenden, um Suchfunktionen über private, heterogene Inhalte in Web-, Mobilen- und Unternehmensanwendungen zu erstellen.
Alternativen
Sie können Document Intelligence Batch Analysis API verwenden, um die Dokumente massenweise zu verarbeiten.
Sie können multimodalen Azure OpenAI-Modelle zum Extrahieren von Text aus Bildern verwenden.
Sie können Azure AI Content Understanding (Vorschau) zum Aufnehmen von Dokumenten, Bildern, Videos und Audio unterschiedlichen Anwendungsfällenverwenden.
Sie können Azure AI Foundry- zum Erstellen, Testen & Bereitstellen von benutzerdefinierten Modellen und entwickeln, bewerten, bereitstellen & überwachen generative KI-Anwendungen.
Sie können einen anderen Azure-Computedienst anstelle von App Service auswählen, um Ihre Anwendung zu hosten.
Sie können eine beliebige relationale Datenbank zur beständigen Speicherung der extrahierten Daten verwenden, einschließlich:
Szenariodetails
Das Automatisieren der Dokumentverarbeitung und Datenextraktion ist in allen Branchen eine wichtige Aufgabe. KI gehört zu den bewährten Lösungen in diesem Prozess, obwohl das Erreichen einer Genauigkeit von 100 % noch in ferner Zukunft liegt. Wenn Sie KI anstelle eines rein manuellen Prozesses zur Digitalisierung verwenden, kann dies den manuellen Aufwand um bis zu 90 % reduzieren.
Die optische Zeichenerkennung (OCR) kann Inhalte aus Bildern und PDF-Dateien extrahieren, welche die meisten von Organisationen verwendeten Dokumente ausmachen. Bei diesem Prozess werden die Schlüsselwortsuche und der Abgleich regulärer Ausdrücke verwendet. Diese Mechanismen extrahieren relevante Daten aus dem Volltext und erstellen dann eine strukturierte Ausgabe. Dieser Ansatz hat Nachteile. Das Überarbeiten des Nachextraktionsprozesses zur Anpassung an sich ändernde Dokumentenformate erfordert einen hohen Wartungsaufwand.
Mögliche Anwendungsfälle
Diese Lösung eignet sich ideal für die Finanzbranche. Sie kann auch Anwendung in der Automobil-, Reise- und Gastgewerbeindustrie finden. Die Lösung kann für folgende Aufgaben angewendet werden:
- Genehmigen von Spesenabrechnungen
- Verarbeiten von Rechnungen, Belegen und Abrechnungen für Versicherungsansprüche und Finanzaudits
- Verarbeiten von Ansprüchen, darunter Rechnungen, Entlassungsberichte und andere Dokumente
- Automatisieren von SOW-Genehmigungen (Leistungsbeschreibung)
- Automatisieren der ID-Extraktion zu Überprüfungszwecken, z. B. bei Pässen oder Führerscheinen
- Automatisieren des Prozesses der Eingabe von Visitenkartendaten in Besucherverwaltungssysteme
- Identifizieren von Kaufmustern und doppelten Finanzdokumenten zur Betrugserkennung
- Automatisieren der strukturierten Extraktion von Daten aus unstrukturiertem Dokument in Szenarien der erweiterten Abrufgenerierung
Überlegungen
Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.
Zuverlässigkeit
Zuverlässigkeit stellt sicher, dass Ihre Anwendung Ihre Verpflichtungen gegenüber den Kunden erfüllen kann. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Zuverlässigkeit.
Resilienz
Die Resilienz der Lösung hängt von den Fehlermodi einzelner Dienste wie App Service, Functions, Azure Cosmos DB, Storage und Application Gateway ab. Weitere Informationen finden Sie unter Resilienzcheckliste für bestimmte Azure-Dienste.
Sie können Azure KI Dokument Intelligenz resilient machen. Dazu können Sie den Dienst so konfigurieren, dass er ein Failover in eine andere Region ausführt und die Workload in zwei oder mehr Regionen aufteilt. Weitere Informationen finden Sie unter Sichern und Wiederherstellen Ihrer Azure KI Dokument Intelligenz-Modelle.
Machine Learning Service ist von vielen Azure-Diensten abhängig. Zur Gewährleistung von Resilienz müssen Sie jeden Dienst so konfigurieren, dass er resilient ist. Weitere Informationen finden Sie unter Failover für Geschäftskontinuität und Notfallwiederherstellung.
Verfügbarkeit
Die Verfügbarkeit der Architektur hängt von den Azure-Diensten ab, die die Lösung umfasst:
Azure KI Dokument Intelligenz ist Teil der Azure KI Services. Informationen zur Verfügbarkeitsgarantie dieses Diensts finden Sie in der Vereinbarung zum Servicelevel (SLA) für Azure KI Services.
KI Language ist Teil der Azure KI Services. Informationen zur Verfügbarkeitsgarantie dieser Dienste finden Sie unter SLA für Azure KI Services.
Azure Cosmos DB bietet Hochverfügbarkeit, indem vier Replikate der Daten innerhalb jeder Region verwaltet und Daten regionsübergreifend repliziert werden. Die genaue Verfügbarkeitsgarantie hängt davon ab, ob Sie innerhalb einer einzelnen Region oder in mehrere Regionen replizieren. Weitere Informationen finden Sie unter Erzielen von Hochverfügbarkeit mit Azure Cosmos DB.
Blob Storage bietet Redundanzoptionen, mit denen Hochverfügbarkeit sichergestellt werden kann. Sie können einen dieser Ansätze verwenden, um Daten dreimal in einer primären Region zu replizieren:
- An einem einzelnen physischen Standort für lokal redundanten Speicher (LRS)
- In drei Verfügbarkeitszonen, die unterschiedliche Verfügbarkeitsparameter verwenden Weitere Informationen finden Sie unter Dauerhaftigkeits- und Verfügbarkeitsparameter. Diese Option funktioniert am besten für Anwendungen, die Hochverfügbarkeit erfordern.
Informationen zu den Verfügbarkeitsgarantien anderer Azure-Dienste in der Lösung finden Sie in den folgenden Ressourcen:
Sicherheit
Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Sicherheit.
Mit Azure Web Application Firewall können Sie Ihre Anwendung vor gängigen Sicherheitsrisiken schützen. Diese Application Gateway-Option verwendet das Open Worldwide Application Security Project (OWASP), um Angriffe wie Cross-Site Scripting, Sessionhijacking und andere Exploits zu verhindern.
Sie sollten die folgenden Optionen in Betracht ziehen, um die Sicherheit von App Service zu verbessern:
- App Service kann über die Integration virtueller Netzwerke auf Ressourcen in einer Azure Virtual Network-Instanz zugreifen.
- Sie können App Service in einer App Service-Umgebung verwenden, die Sie in einem dedizierten virtuellen Netzwerk bereitstellen. Mit diesem Ansatz können Sie die Konnektivität zwischen App Service und anderen Ressourcen im virtuellen Netzwerk isolieren.
Weitere Informationen finden Sie unter Sicherheit in Azure App Service.
Blob Storage und Azure Cosmos DB verschlüsseln ruhende Daten. Sie können diese Dienste durch Dienstendpunkte oder private Endpunkte sichern.
Azure Functions unterstützt die Integration virtueller Netzwerke. Mit dieser Funktion können Funktions-Apps auf Ressourcen in einem virtuellen Netzwerk zugreifen. Weitere Informationen finden Sie unter Azure Functions-Netzwerkoptionen.
Sie können Azure KI Dokument Intelligenz und KI Language für den Zugriff von bestimmten virtuellen Netzwerken oder privaten Endpunkten konfigurieren. Diese Dienste verschlüsseln ruhende Daten. Sie können Abonnementschlüssel, Token oder Microsoft Entra ID verwenden, um Anforderungen an diese Dienste zu authentifizieren. Weitere Informationen finden Sie unter Authentifizieren von Anforderungen an Azure KI Services.
Machine Learning bietet viele Sicherheitsebenen:
- Die Arbeitsbereichsauthentifizierung ermöglicht die Identitäts- und Zugriffsverwaltung.
- Sie können die Autorisierung verwenden, um den Zugriff auf den Arbeitsbereich zu verwalten.
- Durch das Schützen von Arbeitsbereichsressourcen können Sie die Netzwerksicherheit verbessern.
- Sie können Transport Layer Security (TLS) verwenden, um Webdienste zu schützen, die Sie über Machine Learning bereitstellen.
- Zum Schutz von Daten können Sie die von Machine Learning verwendeten Zugriffsschlüssel für Azure Storage-Konten ändern.
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Kostenoptimierung.
Die Kosten der Implementierung dieser Lösung hängen davon ab, welche Komponenten Sie verwenden und welche Optionen Sie für die einzelnen Komponenten auswählen.
Viele Faktoren können sich auf den Preis der einzelnen Komponenten auswirken:
- Die Anzahl der Dokumente, die Sie verarbeiten
- Die Anzahl gleichzeitiger Anforderungen, die Ihre Anwendung empfängt
- Die Größe der Daten, die Sie nach der Verarbeitung speichern
- Ihre Bereitstellungsregion
Diese Ressourcen enthalten Informationen zu den Preisoptionen der Komponenten:
- KI Dokument Intelligenz – Preise
- App Service – Preise
- Azure Functions – Preise
- Application Gateway – Preise
- Preise für Azure Blob Storage
- Azure Cosmos DB-Preise
- Language Service – Preise
- Azure Machine Learning – Preise
- Azure OpenAI Service-Preise
Verwenden Sie den Azure-Preisrechner, um die Lösungskosten zu schätzen, nachdem Sie für jede Komponente einen Tarif ausgewählt haben.
Effiziente Leistung
Die Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Leistungseffizienz.
App Service kann automatisch auf- und abskaliert werden, wenn die Anwendungslast variiert. Weitere Informationen finden Sie unter Erstellen einer Autoskalierungseinstellung für Azure-Ressourcen basierend auf Leistungsdaten oder einem Zeitplan.
Azure Functions kann automatisch skaliert werden. Der von Ihnen ausgewählte Hostingplan bestimmt das Skalierungsverhalten Ihrer Funktions-Apps. Weitere Informationen finden Sie unter Hostingoptionen für Azure Functions.
Standardmäßig unterstützt Azure KI Dokument Intelligenz 15 gleichzeitige Anforderungen pro Sekunde. Sie können diesen Wert durch Erstellen eines Azure-Supporttickets mit einer Anforderung zur Kontingenterhöhung erhöhen.
Bei benutzerdefinierten Modellen, die Sie für echtzeitbasierte Ableitungen auf Onlineendpunkten bereitstellen, kann automatische Skalierung über das Feature für die automatische Skalierung in Azure Monitor aktiviert werden. Dies kann mit Azure CLI, REST-API, Python SDK, Azure-Portal usw. verwaltet werden.
Für die Batch-Ableitung werden Modelle für Batchendpunkte bereitgestellt, die auf Azure Machine Learning (AML)-Computeclustern oder Kubernetes-Clustern ausgeführt werden. Im Fall von AML-Computeclustern werden automatische Skalierung der Compute- und Skalierungsberechnung auf Null unterstützt. Die min- und max. Anzahl von Instanzen wird während der Erstellung des Computeclusters definiert, während die Anzahl der Instanzen, die für die Batch-Ableitung verwendet werden, in der Batchbereitstellungsdefinitiondefiniert wird.
Für KI Language gelten Daten- und Geschwindigkeitsgrenzwerte. Weitere Informationen finden Sie in den folgenden Ressourcen:
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautor:
- Jyotsna Ravi | Principal Customer Engineer
- Dixit Arora | Senior Customer Engineer
Nächste Schritte
- Was ist KI Dokument Intelligenz?
- Verwenden von Azure KI Dokument Intelligenz-SDKs oder der REST-API
- Was ist KI Language?
- Was ist Azure Machine Learning?
- Einführung in Azure Functions
- Konfigurieren von Azure Functions mit einem virtuellen Netzwerk
- Was ist Azure Application Gateway?
- Was ist Azure Web Application Firewall in Azure Application Gateway?
- Tutorial: Zugreifen auf eine lokale SQL Server-Instanz über ein verwaltetes virtuelles Data Factory-Netzwerk unter Verwendung eines privaten Endpunkts
- Azure Storage-Dokumentation