Bewerken

Delen via


Azure AI-services gebruiken om documentidentificatie, classificatie en zoekopdrachten te automatiseren

Azure Functions
Azure App Service
Azure AI services
Azure AI Search
Azure AI-documentinformatie

In dit artikel wordt een architectuur beschreven die u kunt gebruiken om verschillende documenten te verwerken. De architectuur maakt gebruik van de durable functions-functie van Azure Functions om pijplijnen te implementeren. De pijplijnen verwerken documenten via Azure AI Document Intelligence.

Architectuur

Diagram met een architectuur voor het identificeren, classificeren en doorzoeken van documenten.

Een Visio-bestand van deze architectuur downloaden.

Workflow

  1. Een gebruiker uploadt een documentbestand naar een web-app. Het bestand bevat meerdere ingesloten documenten van verschillende typen, zoals PDF- of TIFF-bestanden (Multipage Tag Image File Format). Het documentbestand wordt opgeslagen in Azure Blob Storage (1a). Om pijplijnverwerking te starten, voegt de web-app een opdrachtbericht toe aan een opslagwachtrij (1b).

  2. Het opdrachtbericht activeert de indeling van durable functions. Het bericht bevat metagegevens die de blobopslaglocatie van het documentbestand identificeren dat moet worden verwerkt. Elk exemplaar van durable functions verwerkt slechts één documentbestand.

  3. Met de analyseactiviteitsfunctie wordt de Document-API voor Document intelligence analyseren aangeroepen, die de opslaglocatie van het documentbestand doorgeeft dat moet worden verwerkt. De analysefunctie leest en identificeert elk document in het documentbestand. Deze functie retourneert de naam, het type, de paginabereiken en de inhoud van elk ingesloten document naar de indeling.

  4. Met de activiteitsfunctie metagegevensarchief worden de documenttype-, locatie- en paginabereikgegevens voor elk document in een Azure Cosmos DB-archief opgeslagen.

  5. Met de indexeringsactiviteitsfunctie maakt u een nieuw zoekdocument in Azure AI Search voor elk document. In het zoekdocument gebruikt deze functie de AI Search-bibliotheken voor .NET om de volledige OCR-resultaten (Optical Character Recognition) en documentgegevens op te nemen. Er wordt ook een correlatie-id toegevoegd aan het zoekdocument, zodat de zoekresultaten kunnen worden vergeleken met de bijbehorende documentmetagegevens van Azure Cosmos DB.

  6. Gebruikers kunnen documenten zoeken met behulp van inhoud en metagegevens. Als u documentrecords wilt opzoeken die zich in Azure Cosmos DB bevinden, kunnen ze correlatie-id's gebruiken in de zoekresultatenset. De records bevatten koppelingen naar het oorspronkelijke documentbestand in Blob Storage.

Onderdelen

  • Durable Functions is een functie van Azure Functions die u kunt gebruiken om stateful functies te schrijven in een serverloze rekenomgeving. In deze architectuur activeert een bericht in een opslagwachtrij een durable functions-exemplaar, waarmee de pijplijn voor documentverwerking wordt gestart en ingedeeld.

  • Azure Cosmos DB is een wereldwijd gedistribueerde database met meerdere modellen die u in uw oplossingen kunt gebruiken om de doorvoer en opslagcapaciteit in een willekeurig aantal geografische regio's te schalen. Uitgebreide SLA's (Service Level Agreements) garanderen doorvoer, latentie, beschikbaarheid en consistentie. Deze architectuur maakt gebruik van Azure Cosmos DB als het metagegevensarchief voor de documentclassificatiegegevens.

  • Azure Storage is een set zeer schaalbare en veilige cloudservices voor gegevens, apps en workloads. Het omvat Blob Storage, Azure Files, Azure Table Storage en Azure Queue Storage. Deze architectuur maakt gebruik van Blob Storage om de documentbestanden op te slaan die de gebruiker uploadt en die de durable functions-pijplijn verwerkt.

  • Azure-app Service biedt een framework voor het bouwen, implementeren en schalen van web-apps. De functie Web Apps van App Service is een http-hulpprogramma dat u kunt gebruiken om webtoepassingen, REST API's en mobiele back-ends te hosten. Gebruik Web Apps om te ontwikkelen in .NET, .NET Core, Java, Ruby, Node.js, PHP of Python. Toepassingen kunnen eenvoudig worden uitgevoerd en geschaald in Windows- en Linux-omgevingen. In deze architectuur communiceren gebruikers met het documentverwerkingssysteem via een door App Service gehoste web-app.

  • AI Document Intelligence is een service die u kunt gebruiken om inzichten te extraheren uit uw documenten, formulieren en afbeeldingen. Deze architectuur maakt gebruik van AI Document Intelligence om de documentbestanden te analyseren en de ingesloten documenten samen met inhouds- en metagegevensinformatie te extraheren.

  • AI Search biedt een uitgebreide zoekervaring voor privé-, diverse inhoud in web-, mobiele en bedrijfstoepassingen. Deze architectuur maakt gebruik van AI Search om de geëxtraheerde documentinhoud en metagegevensgegevens te indexeren, zodat gebruikers documenten kunnen zoeken en ophalen.

Alternatieven

  • Om wereldwijde distributie mogelijk te maken, slaat deze oplossing metagegevens op in Azure Cosmos DB. Azure SQL Database is een andere optie voor permanente opslag voor documentmetagegevens en -informatie.

  • Als u durable functions-exemplaren wilt activeren, kunt u andere berichtenplatforms gebruiken, waaronder Azure Service Bus.

Scenariodetails

In deze architectuur identificeren de pijplijnen de documenten in een documentbestand, classificeren ze op type en slaan ze op die moeten worden gebruikt in de volgende verwerking.

Veel bedrijven moeten documenten beheren en verwerken die ze bulksgewijs scannen en die verschillende documenttypen bevatten, zoals PDF-bestanden of TIFF-afbeeldingen met meerdere pagina's. Deze documenten kunnen afkomstig zijn van buiten de organisatie en het ontvangende bedrijf heeft geen controle over de indeling.

Gezien deze beperkingen moeten organisaties hun eigen oplossingen voor documentparsering bouwen die aangepaste technologie en handmatige processen kunnen bevatten. Iemand kan bijvoorbeeld handmatig afzonderlijke documenttypen scheiden en classificatiekwalificaties toevoegen voor elk document.

Veel van deze aangepaste oplossingen zijn gebaseerd op het werkstroompatroon van de statusmachine. De oplossingen maken gebruik van databasesystemen om de werkstroomstatus te behouden en pollingservices te gebruiken die controleren op de statussen die ze moeten verwerken. Het onderhouden en verbeteren van deze oplossingen kan de complexiteit en inspanning verhogen.

Organisaties hebben betrouwbare, schaalbare en flexibele oplossingen nodig voor het verwerken en beheren van documentidentificatie en -classificatie voor de documenttypen van hun organisatie. Deze oplossing kan elke dag miljoenen documenten verwerken met volledige waarneembaarheid in het succes of falen van de verwerkingspijplijn.

Potentiële gebruikscases

U kunt deze oplossing gebruiken voor het volgende:

  • Rapporttitels. Veel overheidsinstanties en gemeenten beheren papieren records die geen digitaal formulier hebben. Een effectieve geautomatiseerde oplossing kan een bestand genereren dat alle documenten bevat die u nodig hebt om aan een documentaanvraag te voldoen.

  • Onderhoudsrecords beheren. Mogelijk moet u papieren records, zoals vliegtuigen, locomotief en onderhoudsrecords voor machines, scannen en verzenden naar externe organisaties.

  • Procesvergunningen. Steden en provincies die afdelingen toestaan, onderhouden papieren documenten die ze genereren voor het rapporteren van vergunningsinspecties. U kunt een foto maken van verschillende inspectiedocumenten en deze records automatisch identificeren, classificeren en doorzoeken.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie de controlelijst ontwerpbeoordeling voor betrouwbaarheid voor meer informatie.

Een betrouwbare workload heeft zowel tolerantie als beschikbaarheid. Flexibiliteit is het vermogen van het systeem om te herstellen van fouten en te blijven functioneren. Het doel van flexibiliteit is ervoor te zorgen dat de toepassing na een storing weer volledig functioneert. Beschikbaarheidsmetingen of uw gebruikers toegang hebben tot uw workload wanneer dat nodig is.

Zie SLA-informatie voor Azure onlineservices voor betrouwbaarheidsinformatie over oplossingsonderdelen.

Kostenoptimalisatie

Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie de controlelijst ontwerpbeoordeling voor Kostenoptimalisatie voor meer informatie.

De belangrijkste kosten voor deze architectuur zijn het opslaan van installatiekopieën in het opslagaccount, het verwerken van de installatiekopieën van Azure AI-services en het indexeren van capaciteitsvereisten in AI Search.

Kosten optimaliseren:

  • Gebruik gereserveerde capaciteit en levenscyclusbeleid om opslagaccounts te rightsiseren.

  • Plan regionale implementaties en operationele planning voor omhoog schalen in AI Search.

  • Gebruik prijscategorieën voor de toezeggingslaag voor AI Document Intelligence om voorspelbare kosten te beheren.

  • Gebruik de strategie voor betalen per gebruik voor uw architectuur en schaal zo nodig uit in plaats van te investeren in grootschalige resources aan het begin.

  • Overweeg verkoopkanskosten in uw architectuur en balancer een strategie met een eerste mover-voordeel versus een snelle strategie. Als u de initiële kosten en operationele kosten wilt schatten, gebruikt u de prijscalculator.

  • Stel budgetten en controles in waarmee kostenlimieten voor uw oplossing worden ingesteld. Als u waarschuwingen voor prognoses en werkelijke kosten wilt instellen, gebruikt u budgetwaarschuwingen.

Prestatie-efficiëntie

Prestatie-efficiëntie is de mogelijkheid van uw workload om te schalen om te voldoen aan de eisen die gebruikers op een efficiënte manier stellen. Zie de controlelijst ontwerpbeoordeling voor prestatie-efficiëntie voor meer informatie.

Met deze oplossing kunnen prestatieknelpunten worden weergegeven wanneer u grote hoeveelheden gegevens verwerkt. Om de juiste prestatie-efficiëntie voor uw oplossing te garanderen, moet u begrijpen en plannen voor schaalopties voor Azure Functions, automatisch schalen van Azure AI-services en Partitionering van Azure Cosmos DB.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen

Inleidende artikelen:

Productdocumentatie: