Trainingsgegevens ontwerpen voor AI-workloads in Azure
Wanneer u gegevens ontwerpt voor AI-functionaliteit in toepassingen, moet u rekening houden met niet-functionele vereisten, zoals operabiliteit, kosten en beveiliging en functionele vereisten die betrekking hebben op gegevensopname, voorbereiding en validatie.
Gegevensontwerp en toepassingsontwerp kunnen niet worden losgekoppeld. Voor het toepassingsontwerp moet u inzicht hebben in gebruiksvoorbeelden, querypatronen en vereisten voor nieuwheid. Om te voldoen aan bedrijfsvereisten die de noodzaak van ai stimuleren, heeft de toepassing mogelijk uitvoer nodig van discriminerende modellen, generatieve modellen of een combinatie van modeltypen.
Om zinvolle resultaten te produceren, moeten AI-modellen worden getraind. Modeltraining omvat het leren van een model voor het classificeren of voorspellen van nieuwe of ongelezen situaties. De trainingsgegevens moeten worden afgestemd op het specifieke probleem en de context van de werkbelasting.
Training onder supervisie omvat het leveren van het model met gelabelde voorbeelden. Dit type training is handig wanneer het gewenste resultaat duidelijk is. Met leren zonder supervisie kan het model daarentegen patronen en relaties binnen de gegevens identificeren zonder richtlijnen voor de verwachte uitvoer. Tijdens de training worden het algoritmetype en de bijbehorende parameters aangepast om te bepalen hoe het model leert. De benadering varieert afhankelijk van het type model, dat neurale netwerken, beslissingsstructuren en andere kan omvatten.
Afbeeldingsdetectiemodellen worden bijvoorbeeld doorgaans getraind op taken zoals objectdetectie, gezichtsherkenning of scèneverkenning. Ze leren van geannoteerde afbeeldingen om specifieke objecten of functies te identificeren. Andere veelvoorkomende voorbeelden zijn algoritmen voor fraudedetectie en prijsvoorspellingsmodellen. Deze modellen leren van historische financiële gegevens om weloverwogen beslissingen te nemen.
Dit artikel richt zich voornamelijk op de voorgaande use case, waarbij modellen worden getraind voordat ze zinvolle invoer kunnen geven aan de toepassing. Het artikel bevat richtlijnen voor het verzamelen, verwerken, opslaan, testen en onderhoud van gegevens. Gegevensontwerp voor experimentele gegevenswetenschap of business intelligence via AI wordt niet behandeld. Het doel is om trainingsbehoeften te ondersteunen via strategieën die zijn afgestemd op workloadvereisten door aanbevelingen te doen voor de pijplijn voor trainingsgegevens van een AI-workload.
Zie Grounding Data Design voor informatie over gegevensontwerp voor AI-modellen waarvoor context is vereist tijdens deductie.
Belangrijk
Verwacht dat gegevensontwerp een iteratief proces is dat is gebaseerd op statistische experimenten. Als u een acceptabel kwaliteitsniveau wilt bereiken, past u trainingsgegevens aan, de verwerking, de ontwikkeling van modelfuncties en modelhypparameters (indien mogelijk). Deze experimenteerlus vindt meestal plaats tijdens de eerste modeltraining en tijdens voortdurende verfijningsinspanningen om gegevens en modeldrift aan te pakken gedurende de levensduur van de functie in de workload.
Aanbevelingen
Hier volgt een samenvatting van de aanbevelingen in dit artikel.
Aanbeveling | Beschrijving |
---|---|
Selecteer gegevensbronnen op basis van workloadvereisten. | Factor in beschikbare resources en of de gegevensbron u kan helpen bij het bereiken van de acceptabele gegevenskwaliteit voor modeltraining. Bedek zowel positieve als negatieve voorbeelden. Combineer diverse gegevenstypen om voldoende volledigheid te bereiken voor analyse en modellering. Overweeg technieken zoals Synthetic Minority Oversampling Technique (SMOTE) voor gegevenstekort of onevenwichtigheid. ▪ Gegevensopname en -analyse |
Voer vroeg gegevensanalyse uit op de verzamelde gegevens. | Voer analyseprocessen uit, zoals Exploratory Data Analysis (EDA), offline. Houd rekening met de kosten en de gevolgen voor de beveiliging. Voor kleine gegevenssets zonder resourcebeperkingen kunt u overwegen om analyses uit te voeren op de bron. ▪ Gegevensverzamelingsarchief |
Behoud gegevenssegmentatie, als hiervoor zakelijke en technische vereisten nodig zijn. | Als u gegevensbronnen met afzonderlijke beveiligingsvereisten gebruikt, maakt u afzonderlijke pijplijnen voor elk model. Toegangsbeheer instellen om de interactie met specifieke gegevenssubsets te beperken. ▪ Gegevenssegmentatie |
Verwerkt gegevens vooraf om deze zinvol te maken voor trainingsdoelen. | Verfijn de kwaliteit van opgenomen gegevens door ruis te filteren, het bereik van de gegevens te wijzigen, dubbele waarden aan te pakken en diverse indelingen te standaardiseren. ▪ Gegevensvoorverwerking |
Vermijd training op verouderde gegevens. | Controleer op gegevensdrift en conceptdrift als onderdeel van uw binnen- en buitenste operationele lussen om de nauwkeurigheid en betrouwbaarheid van modellen in de loop van de tijd te behouden. Werk regelmatig trainingsgegevens bij met nieuwe waarnemingen. Voorwaarden definiëren waarmee het model opnieuw wordt getraind en de updatefrequentie wordt bepaald. ▪ Gegevensonderhoud |
Typen gegevens
Als u voorspellende kracht in modellen wilt bouwen, moet u gegevens verzamelen, verwerken en invoeren in het model. Dit proces wordt meestal geconceptualiseerd als een pijplijn die in fasen is onderverdeeld. Elke fase van de pijplijn kan betrekking hebben op dezelfde gegevensset, maar kan verschillende doeleinden dienen. Normaal gesproken verwerkt u gegevens van deze typen:
Brongegevens zijn waarnemingsgegevens naar een bepaald tijdstip. Het kan ook gegevens zijn die kunnen worden gelabeld om te fungeren als mogelijke invoer voor de gegevenspijplijn.
Deze gegevens worden meestal verkregen uit productie of uit een externe bron. Deze gegevensbronnen kunnen zich in opslagaccounts, databases, API's of andere bronnen bevinden. De gegevens kunnen zich in verschillende gegevensindelingen bevinden, zoals OLTP-databases, ongestructureerde documenten of logboekbestanden. Deze gegevens dienen als mogelijke invoer voor de gegevenspijplijn.
Trainingsgegevens is een subset van brongegevens die worden gebruikt voor het leveren van voorbeelden aan het model. De voorbeelden zijn beschrijvende vooraf berekende gegevens die het model helpen patronen en relaties te leren. Zonder deze gegevens kan het model geen relevante uitvoer genereren.
Evaluatiegegevens zijn een subset van de brongegevens die worden gebruikt voor het bewaken en valideren van de prestaties van een machine learning-model tijdens de training. Het verschilt van trainings- en testgegevens en wordt gebruikt om de prestaties van het model periodiek te evalueren tijdens de trainingsfase en het afstemmen van hyperparameters te begeleiden. Zie Modelevaluatie voor meer informatie.
Testgegevens worden gebruikt om de voorspellende kracht van een getraind model te valideren. Deze gegevens worden genomen uit brongegevens die niet zijn gebruikt voor training. Het bevat waarnemingen van de productie, zodat het testproces overtuigend is. Vanuit het oogpunt van gegevensontwerp moet u deze gegevens opslaan. Zie het ontwerpgebied Testen voor informatie over het testen van modellen.
In sommige gevallen kunnen gegevens die door gebruikers worden verstrekt tijdens interacties met de toepassing uiteindelijk brongegevens worden. Over het algemeen raden we aan dat gebruikersinvoer op deze manier van hoge kwaliteit is. Anders kan de noodzaak om kwaliteitsproblemen downstream continu af te handelen problematisch worden. Richtlijnen voor het verwerken van gebruikersgegevens worden niet behandeld in dit artikel.
Gegevensopname en -analyse
Trainingsgegevens worden verzameld in een vooraf bepaald venster met voldoende weergaven voor het trainen van het type model dat u selecteert. Wanneer u bijvoorbeeld een binair classificatiemodel traint, moeten trainingsgegevens weergaven bevatten van wat het geval is (positieve voorbeelden) en wat niet het geval is (negatieve voorbeelden). Voer EDA vroeg tijdens het ontwerp van functies uit om trainingsgegevens zinvol te maken.
EDA helpt bij het analyseren van brongegevens om kenmerken, relaties, patronen en kwaliteitsproblemen te identificeren. U kunt EDA rechtstreeks uitvoeren in het brongegevensarchief of gegevens repliceren naar gecentraliseerde winkels, zoals een data lake of datawarehouse. Het resultaat van het proces is het verzamelen en verwerken van gegevens voor effectieve modeltraining.
Notitie
Hoewel EDA een preproductieproces is, worden gegevens gebruikt die afkomstig zijn uit productie. Pas hetzelfde controleniveau toe op dit proces als voor productie.
Hieronder volgen enkele overwegingen voor het verzamelen van gegevens ter voorbereiding op modeltraining.
Gegevensbronnen
Gegevens kunnen worden verzameld uit deze bronnen:
Eigendomsgegevens worden gemaakt of eigendom van de organisatie. Het is niet bedoeld voor openbaar gebruik. Het dient interne doeleinden.
Openbare bronnen zijn toegankelijk voor iedereen. Deze bronnen omvatten websites, onderzoeksdocumenten en openbaar gedeelde databases. Het kan specifiek zijn voor een nichegebied. Inhoud van Wikipedia en PubMed wordt bijvoorbeeld als openbaar toegankelijk beschouwd.
Uw keuze voor gegevensbronnen is afhankelijk van de workloadvereisten, beschikbare resources en de kwaliteit van de gegevens die acceptabel zijn voor het trainen van het model. Onevenwichtige gegevenssets kunnen leiden tot vertekende modellen, dus u moet gegevensverzameling ontwerpen om voldoende voorbeelden van representatieve gegevens te verkrijgen. Mogelijk moet u minderheidsgegevens of ondersample meerderheidsgegevens oversampleen. Als de gegevens schaars of onevenwichtig zijn, kunt u overwegen technieken zoals SMOTE en synthetische gegevensgeneratie te gebruiken.
Gegevensverzamelingsarchief
Er zijn twee hoofdopties voor het verzamelen van brongegevens:
- Query's uitvoeren op de gegevens in de gegevensbron
- De gegevens kopiëren naar een gelokaliseerd gegevensarchief en vervolgens een query uitvoeren op die opslag
De keuze is afhankelijk van de workloadvereisten en het gegevensvolume. Als u een relatief kleine hoeveelheid gegevens hebt, kan het bronsysteem uw onbewerkte query's rechtstreeks verwerken. Het is echter gebruikelijk om query's uit te voeren en te analyseren vanuit het gelokaliseerde archief.
Afweging. Hoewel gelokaliseerde gegevensarchieven analyse en het trainingsproces mogelijk vereenvoudigen, moet u ook de kosten, beveiliging en modelvereisten in balans houden.
Bij het dupliceren van gegevens worden opslag- en rekenkosten in rekening gebracht. Het onderhouden van een afzonderlijke kopie vereist extra resources. Lokale kopieën kunnen gevoelige informatie bevatten. Als dit het geval is, moet u de gegevens beveiligen met behulp van reguliere beveiligingsmaatregelen.
Als u productiegegevens gebruikt voor trainingsgegevens, moet deze onderhevig zijn aan alle oorspronkelijke beperkingen voor gegevensclassificatie van die gegevens.
Gegevens kunnen worden verstrekt aan het trainingsproces (pushmodus) of het proces zelf kan een query uitvoeren op de gegevensbron (pull-modus). De keuze is afhankelijk van eigendom, efficiëntie en resourcebeperkingen.
Wanneer gegevens naar de workload worden gepusht, is het de verantwoordelijkheid van de eigenaar van de gegevensbron om nieuwe gegevens te leveren. De eigenaar van de workload biedt een geschikte locatie in het gelokaliseerde gegevensarchief om de gegevens op te slaan. Deze benadering is van toepassing op bedrijfseigen gegevens die eigendom zijn van de organisatie, niet op openbare bronnen.
Er zijn twee benaderingen die u kunt gebruiken voor het ophalen van gegevens. In één benadering voert de workload query's uit op het gegevensarchief, haalt de benodigde gegevens op en plaatst deze in het gelokaliseerde archief. Een andere manier is om realtime query's uit te voeren in het geheugen. De beslissing is afhankelijk van het gegevensvolume en de beschikbare rekenresources. Voor kleinere gegevenssets is het ophalen in het geheugen mogelijk voldoende voor modeltraining.
Vermijd trainingsmodellen op verouderde gegevens, ongeacht of u de push- of pull-modus gebruikt. De frequentie van gegevensupdates moet overeenkomen met de workloadvereisten.
Gegevenssegmentatie
Workloadspecifieke vereisten vereisen mogelijk gegevenssegmentatie. Hier volgen enkele mogelijke gebruiksvoorbeelden:
Beveiligingsvereisten stimuleren vaak segmentatiebeslissingen. Regelgevingsbeperkingen kunnen bijvoorbeeld verhinderen dat gegevens in geopolitieke regio's worden geëxporteerd. Als uw toepassingsontwerp het gebruik van afzonderlijke modellen toestaat, bevat het gegevensontwerp afzonderlijke gegevenspijplijnen voor elk model.
Als er echter één model wordt gebruikt, worden gesegmenteerde gegevensbronnen ingevoerd in dat model. U moet het model trainen op gegevens uit beide regio's, wat mogelijk complexiteit toevoegt.
Of de toepassing nu één model of meerdere modellen gebruikt, beveiligt u beveiligingsmaatregelen voor elk gegevenssegment, zodat deze wordt beveiligd met hetzelfde niveau van rigor als gegevens bij de oorsprong.
De versheidssnelheid van gegevens kan een factor zijn voor het scheiden van gegevens. Gegevens uit verschillende bronnen kunnen met verschillende tijdsintervallen worden vernieuwd. Als de gegevens veranderen, wordt hertraining nodig. Segmentatie maakt gedetailleerde controle over de levenscyclus van gegevens mogelijk. Overweeg om afzonderlijke tabellen of pijplijnen te gebruiken voor verschillende gegevenssegmenten.
Ongeacht de use case, wanneer gegevens worden gesegmenteerd, zijn toegangsbeheer essentieel. Gegevensprofessionals, zoals data engineers en gegevenswetenschappers, verkennen beschikbare brongegevens om patronen en relaties te begrijpen. Hun inzichten dragen bij aan trainingsmodellen die resultaten voorspellen. Stel toegangsbeheer in om ervoor te zorgen dat alleen geautoriseerde gebruikers kunnen communiceren met specifieke gegevenssubsets. Pas minimale bevoegdheden toe op gegevens die als relevant worden beschouwd. Werk samen met gegevenseigenaren om de juiste machtigingen in te stellen.
Gegevensvoorverwerking
In een praktijkscenario worden brongegevens niet alleen opgeslagen voor AI-scenario's. Er is een tussenliggend proces dat gegevens voorbereidt op training. Tijdens deze fase worden gegevens ontdaan van ruis, waardoor deze nuttig zijn voor gebruik. Wanneer gegevens worden verwerkt met brongegevens, nemen gegevenswetenschappers deel aan een proces van verkenning, experimenten en besluitvorming. Hun primaire doel is om delen van de brongegevens te identificeren en te extraheren die voorspellende kracht bevatten.
De voorverwerkingslogica is afhankelijk van het probleem, het gegevenstype en de gewenste resultaten. Hieronder volgen enkele algemene technieken voor het voorverwerkingsproces. Deze lijst is niet volledig. De werkelijke criteria voor uw workload worden bepaald door bedrijfsvereisten.
Kwaliteit. Voorverwerking kan u helpen ervoor te zorgen dat trainingsgegevens worden verwijderd van ruis. Het doel is ervoor te zorgen dat elke rij in uw trainingsgegevens een duidelijke observatie of een goed voorbeeld vertegenwoordigt dat relevant is voor uw use-case en om waarnemingen te elimineren die geen kwaliteit of voorspellende kracht hebben. Als u bijvoorbeeld productbeoordelingen samenvouwt, kunt u ervoor kiezen om gegevens die te kort zijn te elimineren. U moet ontdekken welke gegevenskwaliteit zinvolle voorspellende resultaten oplevert.
Bereik wijzigen. Brongegevensvelden die te specifiek zijn, kunnen voorspellende krachten beperken. Denk bijvoorbeeld aan een adresveld. Het uitbreiden van het bereik van volledig adres (huisnummer en straatnaam) naar een hoger niveau, zoals plaats, staat of land/regio, is mogelijk relevanter.
Ontdubbeling. Het elimineren van redundantie kan ervoor zorgen dat uw trainingsgegevens nauwkeurig en representatief blijven. In bepaalde gevallen is de frequentie waarmee een observatie wordt gemaakt niet relevant. Wanneer u bijvoorbeeld logboeken scant, als een logboekvermelding 1000 keer wordt weergegeven, geeft dit de frequentie aan. Het impliceert niet noodzakelijkerwijs dat het een ernstigere fout is dan een logboek dat slechts één keer heeft plaatsgevonden. Dit type redundantie kan ruis veroorzaken.
Verwerking van gevoelige gegevens. Elimineren van persoonlijke gegevens tenzij het absoluut essentieel is voor de voorspellende kracht van het model op een manier die niet kan worden bereikt door middel van anonimisering. Trainingsgegevens moeten effectief zijn zonder de privacy in gevaar te brengen. Als de gegevens waarde bieden, moet u rekening houden met de ethische overwegingen voor het verwerken van gevoelige gegevens. Zie Verantwoordelijke AI voor meer informatie.
Gestandaardiseerde transformatie. Domeinexperts beschouwen de voorgaande technieken als een kernonderdeel van functie-engineering. Uitgebreide bereik- en diverse brongegevens moeten uiteindelijk worden samengevoegd in functiearchieven waarin functies zijn georganiseerd (bijvoorbeeld in functietabellen) voor het expliciete doel van trainingsmodellen. Nadat u voorspellende gegevens voor training hebt geselecteerd, transformeert u de gegevens naar een gestandaardiseerde indeling. Standaardisatie zorgt er ook voor dat het trainingsmodel compatibel is.
Het converteren van afbeeldingen naar tekstweergaven is een vorm van transformatie. U kunt bijvoorbeeld gescande documenten of afbeeldingen converteren naar machineleesbare tekst.
Om compatibiliteit met modellen te garanderen, moet u mogelijk de standen of hoogte-breedteverhoudingen van afbeeldingen aanpassen aan de verwachtingen van het model.
Notitie
Het combineren van grote hoeveelheden gestructureerde en ongestructureerde gegevens kan de verwerkingstijd verhogen. Workloadteams moeten de impact van het verwerken van diverse indelingen meten. Naarmate het venster tussen hertrainingsinspanningen korter wordt, wordt de hoeveelheid tijd die wordt besteed aan voorverwerking belangrijker.
Gegevensretentie
Nadat u een model hebt getraind, evalueert u of u de gegevens wilt verwijderen die worden gebruikt voor het trainen en het model opnieuw opbouwen voor het volgende trainingsvenster.
Als de gegevens relatief ongewijzigd blijven, is hertraining mogelijk niet nodig, tenzij er modeldrift optreedt. Als de nauwkeurigheid van de voorspelling afneemt, moet u het model opnieuw trainen. U kunt ervoor kiezen om de gegevens opnieuw op te nemen, vooraf te verwerken en het model te bouwen. Deze actie is het beste als er sinds het laatste trainingsvenster sprake is van een aanzienlijke verschillen in gegevens. Als er grote hoeveelheden gegevens zijn en deze niet veel is gewijzigd, hoeft u het model mogelijk niet vooraf te verwerken en opnieuw te bouwen. In dat geval bewaart u gegevens, voert u in-place updates uit en moet u het model opnieuw trainen. Bepaal hoe lang u trainingsgegevens wilt bewaren.
Over het algemeen verwijdert u gegevens uit functiearchieven om onbelangrijke en opslagkosten te verlagen voor functies met slechte prestaties en die niet langer relevant zijn voor huidige of toekomstige modellen. Als u gegevens bewaart, verwacht u kosten te beheren en beveiligingsproblemen op te lossen. Dit zijn typische problemen met gegevensduplicatie.
Herkomst bijhouden
Gegevensherkomst verwijst naar het bijhouden van het pad van gegevens uit de bron naar het gebruik ervan in modeltraining. Het bijhouden van gegevensherkomst is essentieel voor uitleg. Hoewel gebruikers mogelijk geen gedetailleerde informatie over gegevensoorsprongen nodig hebben, is die informatie cruciaal voor interne teams voor gegevensbeheer. Herkomstmetagegevens zorgen voor transparantie en verantwoordelijkheid, zelfs als deze niet rechtstreeks door het model worden gebruikt. Dit is handig voor foutopsporingsdoeleinden. Hiermee kunt u ook bepalen of vooroordelen worden geïntroduceerd tijdens het voorverwerken van gegevens.
Gebruik platformfuncties voor het bijhouden van herkomst wanneer u dat kunt. Azure Machine Learning is bijvoorbeeld geïntegreerd in Microsoft Purview. Deze integratie biedt u toegang tot functies voor gegevensdetectie, herkomsttracering en governance als onderdeel van de MLOps-levenscyclus.
Gegevensonderhoud
Alle modellen kunnen na verloop van tijd verlopen, waardoor de voorspellende kracht of relevantie van een model in verval raakt. Verschillende externe veranderingen kunnen verval veroorzaken, waaronder verschuiving van gebruikersgedrag, marktdynamiek of andere factoren. Modellen die enige tijd geleden zijn getraind, zijn mogelijk minder relevant vanwege veranderende omstandigheden. Als u voorspellingen wilt doen met een betere betrouwbaarheid, hebt u recente gegevens nodig.
Nieuwere modellen gebruiken. Om relevantie te garanderen, hebt u een operationele lus nodig die continu modelprestaties evalueert en nieuwere modellen beschouwt, waardoor de gegevenspijplijn minimaal verstorend blijft. U kunt zich ook voorbereiden op een grotere wijziging waarbij de levenscyclus en pijplijn van de gegevens opnieuw worden ontworpen.
Wanneer u een nieuw model kiest, hoeft u niet per se te beginnen met een nieuwe gegevensset. De bestaande waarnemingen die worden gebruikt voor training, kunnen waardevol blijven, zelfs tijdens een modelswitch. Hoewel nieuwe modellen meer scenario's kunnen onthullen, blijft het fundamentele proces vergelijkbaar. Methoden voor gegevensbeheer, zoals functiearchieven en gegevensnetten, kunnen de acceptatie van nieuwe machine learning-modellen stroomlijnen.
Op triggers gebaseerde versus routinebewerkingen. Overweeg of het opnieuw trainen van modellen moet worden geactiveerd door specifieke gebeurtenissen of voorwaarden. De beschikbaarheid van nieuwe, relevantere gegevens of een daling van relevantie onder een vastgestelde basislijn kan bijvoorbeeld leiden tot opnieuw trainen. De voordelen van deze aanpak zijn reactiesnelheid en tijdige updates.
Onderhoud kan ook met regelmatige vaste tussenpozen worden gepland, zoals dagelijks of wekelijks. Voor mislukte bewerkingen moet u rekening houden met beide benaderingen.
Gegevens verwijderen. Verwijder gegevens die niet meer worden gebruikt voor training om het resourcegebruik te optimaliseren en het risico te minimaliseren dat verouderde of irrelevante gegevens worden gebruikt voor modeltraining.
Het recht om vergeten te worden verwijst naar het recht van een persoon om zijn persoonsgegevens te laten verwijderen uit onlineplatforms of databases. Zorg ervoor dat er beleid is ingesteld om persoonlijke gegevens te verwijderen die worden gebruikt voor training.
Gegevensretentie. In sommige situaties moet u een bestaand model opnieuw bouwen. Voor herstel na noodgevallen moet een model bijvoorbeeld precies zoals vóór de catastrofale gebeurtenis opnieuw worden gegenereerd. U wordt aangeraden een secundaire gegevenspijplijn te hebben die voldoet aan de workloadvereisten van de primaire pijplijn, zoals het aanpakken van modelverval, regelmatige updates via trigger- of routinebewerkingen en andere onderhoudstaken.
Afweging. Gegevensonderhoud is duur. Het omvat het kopiëren van gegevens, het bouwen van redundante pijplijnen en het uitvoeren van routineprocessen. Houd er rekening mee dat regelmatige training de antwoordkwaliteit mogelijk niet verbetert. Het biedt alleen zekerheid tegen veroudering. Evalueer het belang van gegevenswijzigingen als signaal om de frequentie van updates te bepalen.
Zorg ervoor dat gegevensonderhoud wordt uitgevoerd als onderdeel van modelbewerkingen. U moet processen opzetten om wijzigingen zoveel mogelijk te verwerken via automatisering en de juiste set hulpprogramma's gebruiken. Zie MLOps en GenAIOps voor AI-workloads in Azure voor meer informatie.