Bewerken

Delen via


Verwerking van PDF-formulieren automatiseren

Azure AI-documentinformatie
Azure AI services
Azure Logic Apps
Azure Functions

In dit artikel wordt een Azure-architectuur beschreven die u kunt gebruiken om dure en inflexibele formulierverwerkingsmethoden te vervangen door rendabele en flexibele geautomatiseerde PDF-verwerking.

Architectuur

Diagram van de architectuur voor verwerking van PDF-formulieren

Download een PowerPoint-bestand van deze architectuur.

Workflow

  1. Een aangewezen Outlook-e-mailaccount ontvangt PDF-bestanden als bijlagen. De komst van een e-mail activeert een logische app om de e-mail te verwerken. De logische app wordt gebouwd met behulp van de mogelijkheden van Azure Logic Apps.
  2. De logische app uploadt de PDF-bestanden naar een container in Azure Data Lake Storage.
  3. U kunt pdf-bestanden ook handmatig of programmatisch uploaden naar dezelfde PDF-container.
  4. De komst van een PDF-bestand in de PDF-container activeert een andere logische app om de PDF-formulieren te verwerken die zich in het PDF-bestand bevinden.
  5. De logische app verzendt de locatie van het PDF-bestand naar een functie-app voor verwerking. De functie-app wordt gebouwd met behulp van de mogelijkheden van Azure Functions.
  6. De functie-app ontvangt de locatie van het bestand en voert deze acties uit:
    1. Het bestand wordt gesplitst in één pagina als het bestand meerdere pagina's heeft. Elke pagina bevat één onafhankelijk formulier. Gesplitste bestanden worden opgeslagen in een tweede container in Data Lake Storage.
    2. Https POST, een Azure REST API, wordt gebruikt om de locatie van het PDF-bestand met één pagina te verzenden naar AI Document Intelligence voor verwerking. Wanneer Azure AI Document Intelligence de verwerking voltooit, wordt er een antwoord teruggestuurd naar de functie-app, waarmee de informatie in een gegevensstructuur wordt geplaatst.
    3. Er wordt een JSON-gegevensbestand gemaakt dat de antwoordgegevens bevat en het bestand opslaat in een derde container in Data Lake Storage.
  7. De logische app voor het verwerken van formulieren ontvangt de verwerkte antwoordgegevens.
  8. De logische app voor het verwerken van formulieren verzendt de verwerkte gegevens naar Azure Cosmos DB, waarmee de gegevens in een database en in verzamelingen worden opgeslagen.
  9. Power BI haalt de gegevens op uit Azure Cosmos DB en biedt inzichten en dashboards.
  10. U kunt zo nodig verdere verwerking implementeren voor de gegevens in Azure Cosmos DB.

Onderdelen

  • Azure AI-services is een categorie Azure AI-producten die gebruikmaken van Azure AI-services, taakspecifieke AI en bedrijfslogica om kant-en-klare AI-services te bieden voor algemene bedrijfsprocessen. Een van deze producten is Azure AI Document Intelligence, die machine learning-modellen gebruikt om sleutel-waardeparen, tekst en tabellen uit documenten te extraheren.
  • Azure Logic Apps is een serverloze cloudservice voor het maken en uitvoeren van geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren.
  • Azure Functions is een serverloze oplossing waarmee u minder code kunt schrijven, minder infrastructuur kunt onderhouden en kosten kunt besparen.
  • Azure Data Lake Storage is de basis voor het bouwen van enterprise data lakes in Azure.
  • Azure Cosmos DB is een volledig beheerde NoSQL- en relationele database voor het ontwikkelen van moderne apps.
  • Power BI is een verzameling softwareservices, apps en connectors die samenwerken, zodat u uw niet-gerelateerde gegevensbronnen kunt omzetten in coherente, visueel meeslepende en interactieve inzichten.

Alternatieven

  • U kunt Azure SQL Database gebruiken in plaats van Azure Cosmos DB om de verwerkte formuliergegevens op te slaan.
  • U kunt Azure Data Explorer gebruiken om de verwerkte formuliergegevens te visualiseren die zijn opgeslagen in Data Lake Storage.

Scenariodetails

Formulierverwerking is vaak een kritieke bedrijfsfunctie. Veel bedrijven vertrouwen nog steeds op handmatige processen die kostbaar, tijdrovend en gevoelig zijn voor fouten. Het vervangen van handmatige processen vermindert kosten en risico's en maakt een bedrijf flexibeler.

In dit artikel wordt een architectuur beschreven die u kunt gebruiken om handmatige verwerking van PDF-formulieren of dure verouderde systemen te vervangen waarmee verwerking van PDF-formulieren wordt geautomatiseerd. Azure AI Document Intelligence verwerkt de PDF-formulieren, Logic Apps biedt de werkstroom en Functions biedt mogelijkheden voor gegevensverwerking.

Zie Dit scenario implementeren in dit artikel voor informatie over de implementatie.

Potentiële gebruikscases

De oplossing die in dit artikel wordt beschreven, kan allerlei soorten formulieren verwerken, waaronder:

  • Facturen en betalingsrecords
  • Inkooporders
  • Veiligheids-, incident- en nalevingsrecords
  • Formulieren voor gezondheidscontroles
  • Feedbackformulieren van klanten
  • Werknemersrecords
  • Academische en onderzoeksdocumenten
  • Documenten met handgeschreven notities
  • Aangepaste documenten uit uw domein

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd, een set richtlijnen die u kunt gebruiken om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie de controlelijst ontwerpbeoordeling voor betrouwbaarheid voor meer informatie.

Een betrouwbare workload is een workload die zowel tolerant als beschikbaar is. Tolerantie is de mogelijkheid van het systeem om te herstellen van fouten en te blijven functioneren. Het doel van flexibiliteit is ervoor te zorgen dat de toepassing na een storing weer volledig functioneert. Beschikbaarheid is een meting of uw gebruikers toegang hebben tot uw workload wanneer dat nodig is.

Deze architectuur is bedoeld als een startersarchitectuur die u snel kunt implementeren en prototypen kunt maken om een bedrijfsoplossing te bieden. Als uw prototype een succes is, kunt u de architectuur, indien nodig, uitbreiden en verbeteren om te voldoen aan aanvullende vereisten.

Deze architectuur maakt gebruik van schaalbare en flexibele Azure-infrastructuur en -technologieën. Azure Cosmos DB heeft bijvoorbeeld ingebouwde redundantie en globale dekking die u kunt configureren om aan uw behoeften te voldoen.

Zie Service level agreements (SLA's) voor onlineservices voor de beschikbaarheidsgaranties van de Azure-services die door deze oplossing worden gebruikt.

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie de controlelijst ontwerpbeoordeling voor beveiliging voor meer informatie.

Het Outlook-e-mailaccount dat in deze architectuur wordt gebruikt, is een speciaal e-mailaccount dat PDF-formulieren ontvangt als bijlagen. Het is raadzaam om de afzenders alleen te beperken tot vertrouwde partijen en om te voorkomen dat kwaadwillende actoren het e-mailaccount spammen.

De implementatie van deze architectuur die in Dit scenario wordt beschreven, neemt de volgende maatregelen om de beveiliging te verbeteren:

  • De PowerShell- en Bicep-implementatiescripts maken gebruik van Azure Key Vault om gevoelige gegevens op te slaan, zodat deze niet worden weergegeven op terminalschermen of worden opgeslagen in implementatielogboeken.
  • Beheerde identiteiten bieden een automatisch beheerde identiteit in Microsoft Entra ID die toepassingen kunnen gebruiken wanneer ze verbinding maken met resources die Ondersteuning bieden voor Microsoft Entra-verificatie. De functie-app maakt gebruik van beheerde identiteiten, zodat de code niet afhankelijk is van afzonderlijke principals en geen gevoelige identiteitsgegevens bevat.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie de controlelijst ontwerpbeoordeling voor Kostenoptimalisatie voor meer informatie.

Hier volgen enkele richtlijnen voor het optimaliseren van kosten:

  • Gebruik de strategie voor betalen per gebruik voor uw architectuur en schaal zo nodig uit in plaats van te investeren in grootschalige resources aan het begin.
  • Met de implementatie van de architectuur die wordt beschreven in Implementeren in dit scenario wordt een beginoplossing geïmplementeerd die geschikt is voor een proof-of-concept. De implementatiescripts maken een werkende architectuur met minimale resourcevereisten. De implementatiescripts maken bijvoorbeeld een kleinste serverloze Linux-host om de functie-app uit te voeren.

Prestatie-efficiëntie

Prestatie-efficiëntie is de mogelijkheid van uw workload om op een efficiënte manier te schalen om te voldoen aan de eisen die door gebruikers worden gesteld. Zie de controlelijst ontwerpbeoordeling voor prestatie-efficiëntie voor meer informatie.

Deze architectuur maakt gebruik van services met ingebouwde schaalmogelijkheden die u kunt gebruiken om de efficiëntie van de prestaties te verbeteren. Hieronder volgen een aantal voorbeelden:

Dit scenario implementeren

U kunt een elementaire versie van deze architectuur implementeren en deze gebruiken als uitgangspunt voor het implementeren van uw eigen oplossing. De opslagplaats bevat code, implementatiescripts en een implementatiehandleiding.

Het voorbeeld ontvangt de PDF-formulieren, extraheert de gegevensvelden en slaat de gegevens op in Azure Cosmos DB. Power BI visualiseert de gegevens. Het ontwerp maakt gebruik van een modulaire, metagegevensgestuurde methodologie. Er zijn geen formuliervelden vastgelegd. Het kan alle PDF-formulieren verwerken.

U kunt de opslagplaats als zodanig gebruiken, zonder code te wijzigen, om PDF-formulieren met één pagina te verwerken en te visualiseren, zoals veiligheidsformulieren, facturen, incidentrecords en vele andere. Als u dit wilt gebruiken, hoeft u alleen voorbeeld-PDF-formulieren te verzamelen, een nieuw model te trainen om de indeling van de formulieren te leren en het model aan te sluiten op de oplossing. U moet het Power BI-rapport ook opnieuw ontwerpen voor uw gegevenssets, zodat het de gewenste inzichten biedt.

De implementatie maakt gebruik van Azure AI Document Intelligence Studio om aangepaste modellen te maken. In het voorbeeld worden de veldnamen gebruikt die in het machine learning-model worden opgeslagen als verwijzing naar het verwerken van andere formulieren. Er zijn slechts vijf voorbeeldformulieren nodig om een aangepast machine learning-model te maken. U kunt maximaal 100 aangepaste modellen samenvoegen om een samengesteld machine learning-model te maken dat verschillende formulieren kan verwerken.

Implementatieopslagplaats

De code voor dit voorbeeld bevindt zich in de GitHub-opslagplaats van Azure PDF Form Processing Automation Solution . Volg de implementatiehandleiding in de opslagplaats.

Implementatieoverwegingen

Als u een nieuw type PDF-formulier wilt verwerken, gebruikt u voorbeeld-PDF-bestanden om een nieuw machine learning-model te maken. Wanneer het model klaar is, sluit u de model-id aan op de oplossing.

Deze containernaam kan worden geconfigureerd in de implementatiescripts die u uit de GitHub-opslagplaats krijgt.

De architectuur voldoet niet aan vereisten voor hoge beschikbaarheid of herstel na noodgevallen. Als u de huidige architectuur voor productie-implementatie wilt uitbreiden en verbeteren, moet u rekening houden met de volgende aanbevelingen en aanbevolen procedures:

  • Ontwerp de HA/DR-architectuur op basis van uw vereisten en gebruik waar van toepassing de ingebouwde redundantiemogelijkheden.
  • Werk de Bicep-implementatiecode bij om een computeromgeving te maken die uw verwerkingsvolumes kan verwerken.
  • Werk de Bicep-implementatiecode bij om meer exemplaren van de architectuuronderdelen te maken om te voldoen aan uw vereisten voor hoge beschikbaarheid/herstel na noodgevallen.
  • Volg de richtlijnen in Azure Storage-redundantie wanneer u opslag ontwerpt en inricht.
  • Volg de richtlijnen in Bedrijfscontinuïteit en herstel na noodgevallen wanneer u de logische apps ontwerpt en inricht.
  • Volg de richtlijnen in Betrouwbaarheid in Azure Functions wanneer u de functie-app ontwerpt en inricht.
  • Volg de richtlijnen in Hoge beschikbaarheid bereiken met Azure Cosmos DB wanneer u een database ontwerpt en inricht die is gemaakt met behulp van Azure Cosmos DB.
  • Als u dit systeem in productie neemt om grote hoeveelheden PDF-formulieren te verwerken, kunt u de implementatiescripts wijzigen om een Linux-host met meer resources te maken. Hiervoor wijzigt u de code in deploy-functionsapp.bicep

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Andere Inzenders:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen