Bewerken

Delen via


Aangepaste documentverwerkingsmodellen bouwen en implementeren in Azure

Azure AI-documentinformatie
Azure AI services
Azure Logic Apps
Azure Machine Learning Studio
Azure Storage

In dit artikel worden Azure-oplossingen beschreven voor het bouwen, trainen, implementeren en gebruiken van aangepaste documentverwerkingsmodellen. Deze Azure-services bieden ook gebruikersinterfacemogelijkheden voor het labelen of taggen van tekst tijdens de verwerking.

Architectuur

diagram met verschillende alternatieven voor het bouwen en implementeren van een aangepast documentverwerkingsmodel.

Een Visio-bestand van deze architectuur downloaden.

Gegevensstroom

De volgende gegevensstroom komt overeen met het vorige diagram:

  1. Orchestrators zoals Azure Logic Apps, Azure Data Factory of Azure Functions nemen berichten en bijlagen op van e-mailservers en bestanden van bestandsoverdrachtprotocolservers of webtoepassingen.

    • Met Functions en Logic Apps kunt u serverloze workloads inschakelen. De service die u kiest, is afhankelijk van uw voorkeur voor servicemogelijkheden, zoals ontwikkeling, connectors, beheer en operationele context. Zie Functies en Logic Apps vergelijkenvoor meer informatie.

    • Overweeg om Azure Data Factory te gebruiken om gegevens bulksgewijs te verplaatsen.

  2. De orchestrators verzenden opgenomen gegevens naar Azure Blob Storage of Azure Data Lake Storage. Ze organiseren de gegevens in deze archieven op basis van kenmerken zoals bestandsextensies of klantgegevens.

  3. U kunt de volgende Azure-services afzonderlijk of in combinatie gebruiken voor het trainen van documenten en het bouwen van aangepaste modellen om verschillende use cases aan te pakken.

    • Document Intelligence Studio: Als voor het document sleutel-waardeparen moeten worden geëxtraheerd of een aangepaste tabel moet worden gemaakt op basis van een afbeelding of PDF, gebruikt u Document Intelligence Studio om de gegevens te taggen en het aangepaste model te trainen. Als er een vereiste is om het type document te identificeren, documentclassificatiegenoemd, voordat u het juiste extractiemodel aanroept, gebruikt u Document Intelligent Studio om de documenten te labelen en de modellen te bouwen.

    • Language Studio: voor documentclassificatie op basis van inhoud of voor domeinspecifieke entiteitextractie kunt u een aangepast tekstclassificatie- of NER-model (NER) trainen in Language Studio.

    • Azure Machine Learning Studio: voor het labelen van gegevens voor tekstclassificatie of entiteitextractie voor gebruik met opensource-frameworks zoals PyTorch of TensorFlow, gebruikt u Machine Learning Studio, de Python SDK, Azure CLI of de REST API. Machine Learning Studio biedt een modelcatalogus basismodellen. Deze basismodellen hebben mogelijkheden voor het verfijnen van verschillende taken, zoals tekstclassificatie, vragen beantwoorden en samenvatten. Als u basismodellen wilt verfijnen, gebruikt u de gebruikersinterface van Machine Learning Studio of code.

    • Azure OpenAI Service: Als u Azure OpenAI-modellen wilt afstemmen op uw eigen gegevens of domein voor verschillende taken, zoals tekstsamenvatting en vragen beantwoorden, gebruikt u Azure AI Foundry Portal, Python SDKof REST API-.

  4. De aangepaste modellen implementeren en gebruiken voor deductie:

    • Azure AI Document Intelligence heeft ingebouwde modelimplementatie. Deductie met de aangepaste modellen wordt uitgevoerd met behulp van SDK's of rest API-van documentmodellen. De modelIdof modelnaam, die is opgegeven tijdens het maken van het model, wordt opgenomen in de aanvraag-URL voor documentanalyse. Document Intelligence vereist geen verdere implementatiestappen.

    • Language Studio biedt een optie voor het implementeren van aangepaste taalmodellen. Haal het REST-eindpunt op voorspellings-URL door het model voor implementatie te selecteren. U kunt modellen deductie uitvoeren met behulp van het REST-eindpunt of de Azure SDK-clientbibliotheken.

    • Machine Learning implementeert aangepaste modellen op online- of batch-machine learning beheerde eindpunten. U kunt de Machine Learning SDK ook gebruiken om te implementeren in Azure Kubernetes Service (AKS) als webservice. Verfijnde basismodellen kunnen worden geïmplementeerd vanuit de modelcatalogus via beheerde berekeningen of een serverloze API-. Modellen die zijn geïmplementeerd via beheerde berekeningen, kunnen worden afgeleid met behulp van beheerde eindpunten, waaronder online-eindpunten voor realtime deductie en batcheindpunten voor batchdeductie.

    • Azure AI Foundry biedt opties voor het implementeren van nauwkeurig afgestemde Azure OpenAI-modellen. U kunt ook nauwkeurig afgestemde Azure OpenAI-modellen implementeren met behulp van de Python SDK of REST API.

Onderdelen

  • Logic Apps maakt deel uit van Azure Integration Services. Logic Apps maakt geautomatiseerde werkstromen die apps, gegevens, services en systemen integreren. U kunt beheerde connectors gebruiken voor services zoals Azure Storage en Microsoft 365 om werkstromen te activeren wanneer een bestand binnenkomt in het opslagaccount of een e-mail wordt ontvangen.

  • Azure Data Factory- is een beheerde cloudextract-, transformatie- en laadservice voor gegevensintegratie en -transformatie. Azure Data Factory kan transformatieactiviteiten toevoegen aan een pijplijn die een REST-eindpunt aanroept of een notebook uitvoert op de opgenomen gegevens.

  • Functions is een serverloze rekenservice die gebeurtenisgestuurde workloads kan hosten die kortstondige processen hebben.

  • Blob Storage is de oplossing voor objectopslag voor onbewerkte bestanden in dit scenario. Blob Storage ondersteunt bibliotheken voor meerdere talen, zoals .NET, Node.js en Python. Toepassingen hebben toegang tot bestanden in Blob Storage via HTTP of HTTPS. Blob Storage heeft dynamische, statische en archieftoegangslagen ter ondersteuning van kostenoptimalisatie voor het opslaan van grote hoeveelheden gegevens.

  • Data Lake Storage is een set mogelijkheden die zijn gebouwd op Blob Storage voor analyse van big data. Data Lake Storage onderhoudt de kosteneffectiviteit van Blob Storage en biedt functies zoals beveiliging op bestandsniveau en semantiek van het bestandssysteem met een hiërarchische naamruimte.

  • Document Intelligence- is een onderdeel van Azure AI-services. Document Intelligence heeft ingebouwde mogelijkheden voor documentanalyse voor het extraheren van afgedrukte en handgeschreven tekst, tabellen en sleutel-waardeparen. Document Intelligence heeft vooraf samengestelde modellen voor het extraheren van gegevens uit facturen, documenten, ontvangstbewijzen, id-kaarten en visitekaartjes. Document Intelligence heeft ook een aangepast sjabloonformuliermodel en een aangepast neuraal documentmodel dat u kunt gebruiken om aangepaste modellen te trainen en te implementeren.

  • Document Intelligence Studio biedt een interface voor het verkennen van Document Intelligence-functies en -modellen. Hiermee kunt u ook aangepaste modellen bouwen, taggen, trainen en implementeren.

  • Azure AI Language de NLP-services (Natural Language Processing) van Azure consolideert. De suite biedt vooraf samengestelde en aanpasbare opties.

  • Language Studio biedt een gebruikersinterface waarmee u taalfuncties kunt verkennen en analyseren. Het biedt ook opties voor het bouwen, taggen, trainen en implementeren van aangepaste modellen.

  • Azure Machine Learning- is een beheerd machine learning-platform voor modelontwikkeling en -implementatie op schaal.

    • Machine Learning Studio biedt opties voor gegevenslabels voor afbeeldingen en tekst.

    • Gelabelde gegevens exporteren als COCO-- of Machine Learning-gegevenssets. U kunt deze gegevenssets gebruiken om modellen te trainen en te implementeren in Machine Learning-notebooks.

  • Azure OpenAI- biedt krachtige taalmodellen en multimodale modellen als REST API's die u kunt gebruiken om verschillende taken uit te voeren. Specifieke modellen kunnen worden afgestemd om de modelprestaties te verbeteren op gegevens die ontbreken of ondervertegenwoordigd zijn wanneer het basismodel oorspronkelijk is getraind.

Alternatieven

U kunt meer werkstromen toevoegen aan dit scenario op basis van specifieke gebruiksvoorbeelden.

  • Als het document een afbeelding of PDF is, kunt u de gegevens extraheren met behulp van Azure optische tekenherkenning, de Document Intelligence Read-APIof opensource-bibliotheken.

  • U kunt het vooraf samengestelde model in Language gebruiken voor document- en gesprekssamenvatting.

  • Gebruik voorverwerkingscode om stappen voor tekstverwerking uit te voeren. Deze stappen omvatten het opschonen, stoppen van woorden verwijderen, lemmatisatie, stemming en tekstsamenvatting op geëxtraheerde gegevens volgens de vereisten voor documentverwerking. U kunt de code beschikbaar maken als REST API's voor automatisering. Voltooi deze stappen handmatig of automatiseer deze stappen door te integreren met de Logic Apps- of Functions opnameproces.

  • U kunt Azure OpenAI-modellen en een verzameling basismodellen verkennen in de modelcatalogus. U kunt ook Azure AI Foundry Portal gebruiken om af te stemmen en basismodellen te implementeren en generatieve AI-toepassingen te bouwen. Omdat er sprake is van overlapping tussen Machine Learning en Azure AI Foundry, moet u hun mogelijkheden evalueren en het beste platform voor uw scenario kiezen.

  • U kunt Azure AI Content Understanding- gebruiken om een aangepaste analyse te maken door een veldschema te definiëren voor het extraheren van gestructureerde gegevens uit het document.

Scenariodetails

Documentverwerking omvat een breed scala aan taken. Het kan lastig zijn om aan al uw documentverwerkingsbehoeften te voldoen door gebruik te maken van de vooraf gedefinieerde modellen die beschikbaar zijn in Taal en Document Intelligence. Mogelijk moet u aangepaste modellen bouwen om documentverwerking voor verschillende toepassingen en domeinen te automatiseren.

Belangrijke uitdagingen bij het aanpassen van modellen zijn onder andere:

  • Tekstgegevens labelen of taggen met relevante sleutel-waardepaarentiteiten om tekst te classificeren voor extractie.

  • Het beheren van de trainingsinfrastructuur, zoals compute en opslag, en de bijbehorende integraties.

  • Modellen veilig op schaal implementeren voor naadloze integratie met toepassingen die worden gebruikt.

Potentiële gebruikscases

De volgende gebruiksvoorbeelden kunnen profiteren van aangepaste modellen voor documentverwerking:

  • Bouw aangepaste NER- en tekstclassificatiemodellen op basis van opensource-frameworks.

  • Pak aangepaste sleutelwaarden uit documenten voor verschillende brancheverticalen, zoals verzekeringen en gezondheidszorg.

  • Tag en extraheer specifieke domeinafhankelijke entiteiten buiten de vooraf gedefinieerde NER-modellen van voor domeinen zoals beveiliging of financiën.

  • Aangepaste tabellen maken op basis van documenten.

  • Handtekeningen extraheren.

  • E-mailberichten of andere documenten labelen en classificeren op basis van inhoud.

  • Documenten samenvatten of aangepaste vraag- en antwoordmodellen maken op basis van uw gegevens.

Overwegingen

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die u kunt gebruiken om de kwaliteit van een workload te verbeteren. Zie Well-Architected Frameworkvoor meer informatie.

Voor deze voorbeeldworkload is het implementeren van elke pijler afhankelijk van het optimaal configureren en gebruiken van elke Azure-onderdeelservice.

Betrouwbaarheid

Betrouwbaarheid zorgt ervoor dat uw toepassing kan voldoen aan de toezeggingen die u aan uw klanten hebt gedaan. Zie de controlelijst ontwerpbeoordeling voor betrouwbaarheid voor meer informatie.

Beschikbaarheid

Tolerantie

Beveiliging

Beveiliging biedt garanties tegen opzettelijke aanvallen en misbruik van uw waardevolle gegevens en systemen. Zie de controlelijst ontwerpbeoordeling voor beveiliging voor meer informatie.

Implementeer aanbevelingen voor gegevensbeveiliging, identiteits- en toegangsbeheer en aanbevelingen voor netwerkbeveiliging voor Blob Storage-, AI-services voor Document Intelligence en Language Studio, Machine Learning-en Azure OpenAI-.

Kostenoptimalisatie

Kostenoptimalisatie richt zich op manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie de controlelijst ontwerpbeoordeling voor Kostenoptimalisatie voor meer informatie.

De totale kosten voor het implementeren van deze oplossing zijn afhankelijk van de prijzen van de services die u kiest.

De belangrijkste kosten voor deze oplossing zijn:

  • De rekenkosten voor het trainen en implementeren van Machine Learning-modellen.

    Als u de kosten wilt optimaliseren, kiest u het juiste knooppunttype, de clustergrootte en het aantal knooppunten. Machine Learning biedt opties voor training, zoals het instellen van het minimum aantal rekenclusterknooppunten op nul en het definiëren van de niet-actieve tijd voordat u omlaag schaalt. Zie Machine Learning-kosten beheren en optimaliseren voor meer informatie.

  • Duur en activiteiten van gegevensindeling. Voor Azure Data Factory zijn de kosten voor kopieeractiviteiten in de Azure Integration Runtime gebaseerd op het aantal gebruikte gegevensintegratie-eenheden en de tijd die nodig is om de activiteiten uit te voeren. Er worden ook uitvoeringen van indelingsactiviteiten in rekening gebracht op basis van hun nummer.

    Logic Apps-prijsplannen zijn afhankelijk van de resources die u maakt en gebruikt. De volgende artikelen kunnen u helpen bij het kiezen van het juiste plan voor specifieke gebruiksvoorbeelden:

Zie de volgende bronnen voor meer informatie over prijzen voor specifieke onderdelen:

Gebruik de Azure-prijscalculator om de onderdeelopties toe te voegen die u kiest en de totale kosten van de oplossing te schatten.

Prestatie-efficiëntie

Prestatie-efficiëntie verwijst naar de mogelijkheid van uw workload om efficiënt te voldoen aan de behoeften van de gebruiker. Zie de controlelijst ontwerpbeoordeling voor prestatie-efficiëntie voor meer informatie.

Schaalbaarheid

Medewerkers

Microsoft onderhoudt dit artikel. De volgende inzenders hebben dit artikel geschreven.

Hoofdauteur:

Meld u aan bij LinkedIn als u niet-openbare LinkedIn-profielen wilt zien.

Volgende stappen