Data mesh operationeel maken voor AI/ML-domeingestuurde functie-engineering
Data mesh helpt organisaties zich te verplaatsen van een gecentraliseerd data lake of datawarehouse naar een domeingestuurde decentralisatie van analysegegevens die worden onderstreept door vier principes: Domeineigendom, Gegevens als product, zelfbedieningsgegevensplatform en federatieve rekenkundige governance. Data mesh biedt de voordelen van gedistribueerd gegevenseigendom en verbeterde gegevenskwaliteit en -governance, waardoor organisaties hun bedrijfsvoering kunnen versnellen en sneller waarde kunnen realiseren.
Data mesh-implementatie
Een typische data mesh-implementatie omvat domeinteams met data engineers die gegevenspijplijnen bouwen. Het team onderhoudt operationele en analytische gegevensarchieven, zoals data lakes, data warehouses of data lakehouses. Ze geven de pijplijnen vrij als gegevensproducten voor andere domeinteams of data science-teams om te gebruiken. Andere teams gebruiken de gegevensproducten met behulp van een centraal platform voor gegevensbeheer, zoals wordt weergegeven in het volgende diagram.
Data mesh maakt duidelijk hoe gegevensproducten getransformeerde en geaggregeerde gegevenssets dienen voor business intelligence. Maar het is niet expliciet over de aanpak die organisaties moeten nemen om AI/ML-modellen te bouwen. Er is ook geen richtlijnen voor het structuren van hun data science-teams, het ai/ML-modelbeheer en het delen van AI/ML-modellen of -functies tussen domeinteams.
In de volgende sectie vindt u een overzicht van een aantal strategieën die organisaties kunnen gebruiken om AI/ML-mogelijkheden in data mesh te ontwikkelen. En u ziet een voorstel voor een strategie voor domeingestuurde feature-engineering of een feature-mesh.
AI/ML-strategieën voor data mesh
Een veelvoorkomende strategie is dat de organisatie data science-teams als gegevensconsumer kan gebruiken. Deze teams hebben toegang tot verschillende domeingegevensproducten in data mesh volgens de use-case. Ze voeren gegevensverkenning en functie-engineering uit om AI/ML-modellen te ontwikkelen en te bouwen. In sommige gevallen ontwikkelen domeinteams ook hun eigen AI/ML-modellen met behulp van hun gegevens en de gegevensproducten van andere teams om nieuwe functies uit te breiden en af te leiden.
Feature Engineering is de kern van het bouwen van modellen en is doorgaans complex en vereist domeinexpertise. Deze strategie kan tijdrovend zijn omdat data science-teams verschillende gegevensproducten moeten analyseren. Ze hebben mogelijk geen volledige domeinkennis om hoogwaardige functies te bouwen. Gebrek aan domeinkennis kan leiden tot dubbele functie-engineering-inspanningen tussen domeinteams. Ook problemen zoals reproduceerbaarheid van AI/ML-modellen vanwege inconsistente functiesets in teams. Data science- of domeinteams moeten continu functies vernieuwen wanneer nieuwe versies van gegevensproducten worden uitgebracht.
Een andere strategie is dat domeinteams AI/ML-modellen vrijgeven in een indeling zoals Open Neural Network Exchange (ONNX), maar deze resultaten zijn zwarte vakken en het combineren van AI/ML-modellen of -functies in verschillende domeinen zou lastig zijn.
Is er een manier om het AI/ML-model te decentraliseren voor domein- en data science-teams om de uitdagingen aan te pakken? De voorgestelde domeingestuurde kenmerkbepaling of kenmerknetwerkstrategie is een optie.
Domeingestuurde kenmerkenengineering of kenmerkenmesh
De domeingestuurde functie-engineering of feature mesh-strategie biedt een gedecentraliseerde benadering voor ai/ML-modelbouw in een data mesh-instelling. In het volgende diagram ziet u de strategie en hoe deze de vier belangrijkste principes van data mesh aanpakt.
Kenmerkontwikkeling van domeineigendom door domeinteams
In deze strategie paren de organisatie gegevenswetenschappers met data engineers in een domeinteam om gegevensverkenning uit te voeren op schone en getransformeerde gegevens in bijvoorbeeld een data lake. Engineering genereert functies die worden opgeslagen in een functiearchief. Een functiearchief is een gegevensopslagplaats die functies biedt voor training en deductie en helpt bij het bijhouden van functieversies, metagegevens en statistieken. Met deze mogelijkheid kunnen de gegevenswetenschappers in het domeinteam nauw samenwerken met domeinexperts en de kenmerken vernieuwd houden wanneer de gegevens in het domein veranderen.
Gegevens als product: Kenmerkensets
Functies die worden gegenereerd door het domeinteam, ook wel domein- of lokale functies genoemd, worden als functiesets gepubliceerd naar de gegevenscatalogus in het gegevensbeheerplatform. Deze functiesets worden gebruikt door data science-teams of andere domeinteams voor het bouwen van AI/ML-modellen. Tijdens het ontwikkelen van AI/ML-modellen kunnen de data science- of domeinteams domeinfuncties combineren om nieuwe functies te produceren, gedeelde of globale functies. Deze gedeelde functies worden weer gepubliceerd naar de catalogus met functiesets voor verbruik.
Zelfbedieningsgegevensplatform en federatieve rekengovernance: functiestandaardisatie en -kwaliteit
Deze strategie kan ertoe leiden dat er een andere technologiestack wordt gebruikt voor functie-engineeringpijplijnen en inconsistente functiedefinities tussen domeinteams. Zelfbedieningsprincipes voor gegevensplatforms zorgen ervoor dat domeinteams gebruikmaken van algemene infrastructuur en hulpprogramma's om de functie-engineeringpijplijnen te bouwen en toegangsbeheer af te dwingen. Het principe van federated Computational Governance zorgt voor interoperabiliteit van functiesets door middel van wereldwijde standaardisatie en controles op de kwaliteit van functies.
Het gebruik van de domeingestuurde functie-engineering of feature mesh-strategie biedt een gedecentraliseerde benadering voor het bouwen van AI/ML-modellen voor organisaties om de tijd te helpen verminderen bij het ontwikkelen van AI/ML-modellen. Met deze strategie kunt u functies consistent houden binnen domeinteams. Het voorkomt duplicatie van inspanningen en resulteert in hoogwaardige functies voor nauwkeurigere AI/ML-modellen, waardoor de waarde voor het bedrijf wordt verhoogd.
Data mesh-implementatie in Azure
In dit artikel worden de concepten over het operationeel maken van AI/ML in een data mesh beschreven en worden geen hulpprogramma's of architecturen behandeld om deze strategieën te bouwen. Azure heeft feature store aanbiedingen zoals Azure Databricks feature store en Feathr van LinkedIn. U kunt Microsoft Purview aangepaste connectors ontwikkelen om functies te beheren en te besturen.