In dit artikel worden Azure-oplossingen beschreven voor het bouwen, trainen, implementeren en gebruiken van aangepaste documentverwerkingsmodellen. Deze Azure-services bieden ook gebruikersinterfacemogelijkheden voor labelen of taggen voor tekstverwerking.
Architectuur
Een Visio-bestand van deze architectuur downloaden.
Gegevensstroom
Orchestrators zoals Azure Logic Apps, Azure Data Factory of Azure Functions nemen berichten en bijlagen op van e-mailservers en bestanden van FTP-servers of webtoepassingen.
Met Azure Functions en Logic Apps kunt u serverloze workloads inschakelen. De service die u kiest, is afhankelijk van uw voorkeur voor servicemogelijkheden, zoals ontwikkeling, connectors, beheer en uitvoeringscontext. Zie Azure Functions en Azure Logic Apps vergelijken voor meer informatie.
Overweeg om Azure Data Factory te gebruiken voor bulkgegevensverplaatsing.
De orchestrators verzenden opgenomen gegevens naar Azure Blob Storage of Data Lake Storage, waarbij ze de gegevens in verschillende gegevensarchieven ordenen op basis van kenmerken zoals bestandsextensies of klanten.
De verschillende services die kunnen worden gebruikt voor het trainen van documenten en het bouwen van aangepaste modellen in Azure, onafhankelijk of in verschillende combinaties om verschillende gebruiksvoorbeelden aan te pakken, zijn:
Document Intelligence Studio: als voor het document sleutel-waardeparen moeten worden geëxtraheerd of een aangepaste tabel moet worden gemaakt op basis van een afbeeldingsindeling of PDF, gebruikt u Document Intelligence Studio om de gegevens te taggen en het aangepaste model te trainen. Als er ook een vereiste is om het type document (documentclassificatie) te identificeren voordat u het juiste extractiemodel aanroept, gebruikt u Document Intelligent Studio om de documenten te labelen en de modellen te bouwen.
Language Studio: voor documentclassificatie op basis van inhoud of voor domeinspecifieke entiteitextractie kunt u een aangepast tekstclassificatie- of NER-model (Named Entity Recognition) trainen in Language Studio.
Azure Machine Learning Studio: als u gegevens wilt labelen voor tekstclassificatie of entiteitextractie die u kunt gebruiken met opensource-frameworks zoals PyTorch of TensorFlow, gebruikt u Machine Learning Studio of Python SDK, Azure CLI of REST API. Azure Machine Learning-studio biedt een modelcatalogus van basismodellen. Deze basismodellen hebben mogelijkheden voor het verfijnen van verschillende taken, zoals tekstclassificatie, vragen beantwoorden, samenvatten, enzovoort. Als u basismodellen wilt verfijnen, gebruikt u Machine Learning Studio UI of code.
Azure OpenAI Service: gebruik [Azure AI Foundry Portal](https://ai.azure.com/) of Python SDK of REST APIvoor voor het verfijnen van Azure OpenAI-modellen op uw eigen gegevens of domein.
De aangepaste modellen implementeren en gebruiken voor deductie:
Azure AI Document Intelligence heeft ingebouwde modelimplementatie. Gebruik Document Intelligence SDK's of de REST API om aangepaste modellen toe te passen voor deductie. Neem de model-id of de naam van het aangepaste model op in de URL van de Document Intelligence-aanvraag, afhankelijk van de API-versie. Document Intelligence vereist geen verdere implementatiestappen.
Language Studio biedt een optie voor het implementeren van aangepaste taalmodellen. Haal de VOORSPELLINGs-URL van het REST-eindpunt op door het model te selecteren dat u wilt implementeren. U kunt modeldeductie uitvoeren met behulp van het REST-eindpunt of de Azure SDK-clientbibliotheken.
Machine Learning implementeert aangepaste modellen op online- of batch-machine learning beheerde eindpunten. U kunt de Machine Learning SDK ook gebruiken om te implementeren in Azure Kubernetes Service (AKS) als webservice. Verfijnde basismodellen worden op twee manieren geïmplementeerd vanuit de modelcatalogus: Beheerde compute en serverloze API-. Modellen die zijn geïmplementeerd via Managed Compute, kunnen worden afgeleid met behulp van beheerde eindpunten : online-eindpunten voor realtime deductie en batcheindpunten voor batchdeductie.
Azure AI Foundry biedt de mogelijkheid om het aangepaste Azure OpenAI-model te implementeren. U kunt ook afgestemde Azure OpenAI-modellen implementeren met behulp van Python SDK of REST API.
Onderdelen
Logic Apps maakt deel uit van Azure Integration Services. Logic Apps maakt geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren. Met beheerde connectors voor services zoals Azure Storage en Microsoft 365 kunt u werkstromen activeren wanneer een bestand binnenkomt in het opslagaccount of e-mail.
Data Factory is een etl-service (managed cloud extract, transform, load) voor gegevensintegratie en -transformatie. Data Factory kan transformatieactiviteiten toevoegen aan een pijplijn die een REST-eindpunt aanroept of een notebook uitvoert op de opgenomen gegevens.
Azure Functions is een serverloze rekenservice die gebeurtenisgestuurde workloads kan hosten met kortdurende processen.
Blob Storage is de oplossing voor objectopslag voor onbewerkte bestanden in dit scenario. Blob Storage ondersteunt bibliotheken voor meerdere talen, zoals .NET, Node.js en Python. Toepassingen hebben toegang tot bestanden in Blob Storage via HTTP/HTTPS. Blob Storage heeft dynamische, statische en archieftoegangslagen ter ondersteuning van kostenoptimalisatie voor het opslaan van grote hoeveelheden gegevens.
Data Lake Storage is een set mogelijkheden die is gebouwd op Azure Blob Storage voor analyse van big data. Data Lake Storage behoudt de kosteneffectiviteit van Blob Storage en biedt functies zoals beveiliging op bestandsniveau en semantiek van bestandssysteem met hiërarchische naamruimte.
Document Intelligence maakt deel uit van Azure AI-services. Document Intelligence heeft ingebouwde mogelijkheden voor documentanalyse die u kunt gebruiken om gedrukte en handgeschreven tekst, tabellen en sleutel-waardeparen te extraheren. Document Intelligence heeft vooraf samengestelde modellen voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Document Intelligence heeft ook een aangepast sjabloonformuliermodel en een aangepast neuraal documentmodel dat u kunt gebruiken om aangepaste modellen te trainen en te implementeren.
- Document Intelligence Studio biedt een gebruikersinterface die u kunt gebruiken om Document Intelligence-functies en -modellen te verkennen en aangepaste modellen te bouwen, taggen, trainen en implementeren.
Azure AI Language consolideert de verwerkingsservices van natuurlijke taal van Azure. De suite biedt vooraf samengestelde en aanpasbare opties. Zie de beschikbare functies van De Azure AI-taal voor meer informatie.
- Language Studio biedt een gebruikersinterface voor het verkennen en analyseren van Azure AI-taalfuncties. Language Studio biedt ook opties voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.
Azure Machine Learning- is een beheerd machine learning-platform voor modelontwikkeling en -implementatie op schaal.
- Azure Machine Learning-studio biedt opties voor gegevenslabels voor afbeeldingen en tekst.
- Exporteer gelabelde gegevens als COCO - of Azure Machine Learning-gegevenssets. U kunt de gegevenssets gebruiken voor het trainen en implementeren van modellen in Azure Machine Learning-notebooks.
Azure OpenAI Service biedt krachtige taalmodellen, multimodale modellen als REST API's die worden gebruikt voor het uitvoeren van verschillende taken. Sommige van de aangeboden modellen kunnen ook worden afgestemd om de modelprestaties te verbeteren op gegevens die niet aanwezig of onder vertegenwoordigd waren toen het basismodel oorspronkelijk werd getraind.
Alternatieven
U kunt meer werkstromen toevoegen aan dit scenario op basis van specifieke gebruiksvoorbeelden.
Als het document een afbeeldings- of PDF-indeling heeft, kunt u de gegevens extraheren met behulp van de Azure Computer Vision-, Document Intelligence-lees-API of opensource-bibliotheken.
U kunt document- en gesprekssamenvatting uitvoeren met behulp van het vooraf samengestelde model in Azure AI Language.
Gebruik voorverwerkingscode om stappen voor tekstverwerking uit te voeren. Deze stappen omvatten het opschonen, stoppen van woorden verwijderen, lemmatisatie, stemming en tekstsamenvatting op geëxtraheerde gegevens volgens de vereisten voor documentverwerking. U kunt de code beschikbaar maken als REST API's voor automatisering. Voer deze stappen handmatig uit of automatiseer ze door te integreren met het opnameproces van Logic Apps of Azure Functions .
U kunt
Azure AI Foundry Portal gebruiken omnauwkeurig af te stemmen, basismodellen (behalve Azure OpenAI-modellen) te implementeren en generatieve AI-toepassingen te bouwen. Omdat er enkele overlappingen zijn tussen Azure Machine Learning en Azure AI Foundry, moet u hun mogelijkheden evalueren en het beste platform voor uw scenario selecteren.
U kunt ook Azure AI Content Understanding- gebruiken voor het maken van een aangepaste analyse door een veldschema te definiëren voor het extraheren van gestructureerde gegevens uit het document.
Scenariodetails
Documentverwerking is een breed gebied. Het kan lastig zijn om te voldoen aan al uw documentverwerkingsbehoeften met de vooraf gedefinieerde modellen die beschikbaar zijn in Document Intelligence en Azure AI Language. Mogelijk moet u aangepaste modellen bouwen om documentverwerking voor verschillende toepassingen en domeinen te automatiseren.
Belangrijke uitdagingen bij het aanpassen van modellen zijn onder andere:
- Tekstgegevens labelen of taggen met relevante sleutel-waardepaarentiteiten om tekst te classificeren voor extractie.
- Trainingsinfrastructuur beheren, zoals compute en opslag, en hun integraties.
- Het veilig implementeren van modellen op schaal voor eenvoudige integratie met toepassingen die worden gebruikt.
Potentiële gebruikscases
De volgende gebruiksvoorbeelden kunnen profiteren van aangepaste modellen voor documentverwerking:
- Bouw aangepaste NER- en tekstclassificatiemodellen op basis van opensource-frameworks.
- Pak aangepaste sleutelwaarden uit documenten voor verschillende brancheverticalen, zoals verzekeringen en gezondheidszorg.
- Tag en extraheer specifieke domeinafhankelijke entiteiten buiten de vooraf gedefinieerde NER-modellen voor domeinen zoals beveiliging of financiën.
- Aangepaste tabellen maken op basis van documenten.
- Handtekeningen extraheren.
- E-mailberichten of andere documenten labelen en classificeren op basis van inhoud.
- Samenvatting van documenten of aangepaste vragen en antwoorden op uw gegevens.
Overwegingen
Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die kunnen worden gebruikt om de kwaliteit van een workload te verbeteren. Zie Microsoft Azure Well-Architected Framework voor meer informatie.
Voor deze voorbeeldworkload is het implementeren van elke pijler afhankelijk van het optimaal configureren en gebruiken van elke Azure-onderdeelservice.
Betrouwbaarheid
Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie de controlelijst ontwerpbeoordeling voor betrouwbaarheid voor meer informatie.
Beschikbaarheid
Zie de serviceovereenkomsten (SLA's) voor elk architectuuronderdeel op Service Level Agreements (SLA) voor Online Services.
Zie Georedundantie gebruiken om maximaal beschikbare toepassingen te ontwerpen met Azure Storage-accounts voor configuratieopties.
Tolerantie
Omgaan met foutmodi van afzonderlijke services, zoals Azure Functions en Azure Storage, om tolerantie van de rekenservices en gegevensarchieven in dit scenario te garanderen. Zie de controlelijst voor tolerantie voor specifieke Azure-services voor meer informatie.
Maak voor Document Intelligence een back-up van uw Document Intelligence-modellen en herstel deze.
Voor aangepaste tekstclassificatie met Azure AI-taal maakt u een back-up van uw aangepaste modellen voor tekstclassificatie en herstelt u deze.
Voor aangepaste NER in Azure AI Language maakt u een back-up van uw aangepaste NER-modellen en herstelt u deze.
Azure Machine Learning is afhankelijk van samenstellende services zoals Blob Storage, rekenservices en Azure Kubernetes Service (AKS). Als u tolerantie wilt bieden voor Azure Machine Learning, configureert u elk van deze services om tolerant te zijn. Zie Failover voor bedrijfscontinuïteit en herstel na noodgevallen voor meer informatie.
Voor Azure OpenAI moet u ervoor zorgen dat de service altijd beschikbaar is, twee of meer Azure OpenAI-resources in een andere regio inrichten, zodat u in het geval van een probleem een failover naar een andere regio uitvoert. Zie BCDR met Azure OpenAIvoor meer informatie.
Beveiliging
Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie de controlelijst ontwerpbeoordeling voor beveiliging voor meer informatie.
- Implementeer aanbevelingen voor gegevensbeveiliging, identiteits- en toegangsbeheer en aanbevelingen voor netwerkbeveiliging voor Blob Storage-, AI Services voor Document Intelligence en Language Studio, Azure Machine Learning- en Azure OpenAI-.
Kostenoptimalisatie
Kostenoptimalisatie gaat over manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie de controlelijst ontwerpbeoordeling voor Kostenoptimalisatie voor meer informatie.
De totale kosten voor het implementeren van deze oplossing zijn afhankelijk van de prijzen van de services die u kiest.
De belangrijkste kosten voor deze oplossing zijn:
De rekenkosten voor machine learning-training en -implementatie van modellen.
Kies het juiste knooppunttype, de clustergrootte en het aantal knooppunten om de kosten te optimaliseren. Voor training biedt Machine Learning de opties voor het instellen van het minimum aantal rekenclusterknooppunten op nul en het instellen van de niet-actieve tijd voordat de schaal omlaag gaat. Zie Machine Learning-kosten beheren en optimaliseren voor meer informatie.
Duur en activiteiten van gegevensindeling. Voor Azure Data Factory zijn de kosten voor kopieeractiviteiten in de Azure Integration Runtime gebaseerd op het aantal gebruikte DTU's (Data Integration Units) en de uitvoeringsduur. Er worden ook uitvoeringen van indelingsactiviteiten in rekening gebracht op basis van hun nummer.
Logic Apps-prijsplannen zijn afhankelijk van de resources die u maakt en gebruikt. De volgende artikelen kunnen u helpen bij het kiezen van het juiste plan voor specifieke gebruiksvoorbeelden:
Zie de volgende bronnen voor meer informatie over prijzen voor specifieke onderdelen:
- Prijzen voor Azure AI Document Intelligence
- Azure Functions-prijzen
- Prijzen van Logic Apps
- Azure Data Factory-prijzen
- Prijzen voor Azure Blob Storage
- Prijzen voor Azure AI Language
- Prijzen voor Azure Machine Learning
- Prijzen van Azure OpenAI
Gebruik de Azure-prijscalculator om de geselecteerde onderdeelopties toe te voegen en de totale kosten van de oplossing te schatten.
Prestatie-efficiëntie
Prestatie-efficiëntie is de mogelijkheid van uw workload om te schalen om te voldoen aan de eisen die gebruikers op een efficiënte manier stellen. Zie de controlelijst ontwerpbeoordeling voor prestatie-efficiëntie voor meer informatie.
Schaalbaarheid
Als u Azure Functions automatisch of handmatig wilt schalen, kiest u het juiste hostingabonnement.
Document Intelligence ondersteunt standaard 15 gelijktijdige aanvragen per seconde. Als u een verhoogd quotum wilt aanvragen, maakt u een ondersteuning voor Azure-ticket.
Voor aangepaste Azure Machine Learning-modellen die worden gehost als webservices in AKS, wordt de
azureml-fe
front-end automatisch geschaald als dat nodig is. Dit onderdeel stuurt ook binnenkomende deductieaanvragen naar geïmplementeerde services.Voor implementaties als beheerde eindpunten biedt u ondersteuning voor automatisch schalen door integratie met de functie voor automatische schaalaanpassing van Azure Monitor.
De API-servicelimieten voor aangepaste NER - en aangepaste tekstclassificatie voor deductie zijn 20 GET- of POST-aanvragen per minuut.
Medewerkers
Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzender.
Hoofdauteur:
- Jyotsna Ravi | Sr. Customer Engineer
Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.
Volgende stappen
- Aan de slag: Document Intelligence Studio
- Document Intelligence-modellen gebruiken via SDK's of REST API
- Quickstart: Aan de slag met Language Studio
- Wat is optische tekenherkenning (OCR)?
- Azure Functions configureren met een virtueel netwerk