Dela via


Operationalisera datanät för AI/ML-domändriven funktionsutveckling

Data mesh hjälper organisationer att flytta från en centraliserad datasjö eller ett informationslager till en domändriven decentralisering av analysdata som understryks av fyra principer: Domänägarskap, Data som produkt, Självbetjäningsdataplattform och federerad beräkningsstyrning. Data Mesh ger fördelarna med distribuerat dataägarskap och förbättrad datakvalitet och datastyrning som accelererar affärsprocesser och minskar tiden till resultat för organisationer.

Implementering av datanät

En typisk implementering av datanät omfattar domänteam med datatekniker som skapar datapipelines. Teamet underhåller drifts- och analysdatalager, till exempel datasjöar, informationslager eller datasjöhus. De släpper sina pipelines som dataprodukter för andra domänteam eller datavetenskapsteam för användning. Andra team använder dataprodukterna med hjälp av en central datastyrningsplattform enligt följande diagram.

Arkitekturdiagram som visar en implementering av datanät.

Data mesh är tydligt när det gäller hur dataprodukter hanterar transformerade och aggregerade datauppsättningar för Business Intelligence. Men det är inte uttryckligt vilken metod organisationer bör använda för att skapa AI/ML-modeller. Det finns inte heller någon vägledning om hur man strukturerar sina datavetenskapsteam, AI/ML-modellstyrning och hur man delar AI/ML-modeller eller funktioner mellan domänteam.

I följande avsnitt beskrivs ett par strategier som organisationer kan använda för att utveckla AI/ML-funktioner i datanät. Och du ser ett förslag till en strategi för domändriven funktionsutveckling eller funktionsnät.

AI/ML-strategier för datanät

En vanlig strategi är att organisationen ska anta datavetenskapsteam som datakonsumenter. Dessa team har åtkomst till olika domändataprodukter i datanät enligt användningsfallet. De utför datautforskning och funktionsutveckling för att utveckla och bygga AI/ML-modeller. I vissa fall utvecklar domänteam också sina egna AI/ML-modeller genom att använda sina data och andra teams dataprodukter för att utöka och härleda nya funktioner.

Funktionsutveckling är kärnan i modellskapandet och är vanligtvis komplex och kräver domänexpertis. Den här strategin kan vara tidskrävande eftersom datavetenskapsteam behöver analysera olika dataprodukter. De kanske inte har fullständig domänkunskap för att skapa funktioner av hög kvalitet. Brist på domänspecifik kunskap kan leda till duplicerade insatser av egenskapsteknik mellan domänteam. Dessutom, problem som AI/ML-modellreproducerbarhet på grund av inkonsekventa funktionsuppsättningar mellan team. Datavetenskaps- eller domänteam måste kontinuerligt uppdatera funktioner när nya versioner av dataprodukter släpps.

En annan strategi är att domänteam släpper AI/ML-modeller i ett format som Open Neural Network Exchange (ONNX), men dessa resultat är svarta rutor och det skulle vara svårt att kombinera AI/ML-modeller eller funktioner mellan domäner.

Finns det något sätt att decentralisera AI/ML-modellskapandet mellan domän- och datavetenskapsteam för att hantera utmaningarna? Den föreslagna domändrivna funktionsutvecklings- eller funktionsnätsstrategin är ett alternativ.

Domändriven funktionsutveckling eller funktionsnät

Den domändrivna strategin för funktionsutveckling eller funktionsnät erbjuder en decentraliserad metod för AI/ML-modellskapande i en datanätsinställning. Följande diagram visar strategin och hur den hanterar de fyra huvudprinciperna för datanät.

Arkitekturdiagram som visar den domändrivna funktionsutvecklings- och funktionsnätsstrategin.

Funktionsutveckling avseende domänägande av domänteam

I den här strategin kopplar organisationen ihop dataexperter med datatekniker i ett domänteam för att köra datautforskning på rena och transformerade data i till exempel en datasjö. Teknik genererar funktioner som lagras i ett funktionslager. Ett funktionslager är en datalagringsplats som hanterar funktioner för träning och slutsatsdragning och hjälper till att spåra funktionsversioner, metadata och statistik. Med den här funktionen kan dataexperterna i domänteamet arbeta nära domänexperter och hålla funktionerna uppdaterade när data ändras i domänen.

Data som en produkt: Funktionsuppsättningar

Funktioner som genereras av domänteamet, så kallade domän- eller lokala funktioner, publiceras till datakatalogen i datastyrningsplattformen som funktionsuppsättningar. Dessa funktionsuppsättningar används av datavetenskapsteam eller andra domänteam för att skapa AI/ML-modeller. Under utvecklingen av AI-/ML-modell kan datavetenskaps- eller domänteamen kombinera domänfunktioner för att skapa nya funktioner, så kallade delade eller globala funktioner. Dessa delade funktioner publiceras tillbaka till funktionskatalogen för användning.

Självbetjäning av dataplattform och federerad beräkningsstyrning: Funktionsstandardisering och kvalitet

Den här strategin kan leda till att du använder en annan teknikstack för funktionsutvecklingspipelines och inkonsekventa funktionsdefinitioner mellan domänteam. Principer för dataplattform med självbetjäning säkerställer att domänteam använder gemensam infrastruktur och verktyg för att skapa funktionsutvecklingspipelines och framtvinga åtkomstkontroll. Principen för federerad beräkningsstyrning säkerställer samverkan mellan funktionsuppsättningar genom global standardisering och kontroller av funktionskvalitet.

Att använda den domändrivna strategin för funktionsutveckling eller funktionsnätstrategi erbjuder en decentraliserad strategi för att bygga AI/ML-modeller för organisationer för att minska utvecklingstiden för AI/ML-modeller. Den här strategin hjälper till att hålla funktionerna konsekventa mellan domänteam. Det undviker duplicering av arbete och resulterar i högkvalitativa funktioner för mer exakta AI/ML-modeller, vilket ökar värdet för verksamheten.

Implementering av datanät i Azure

Den här artikeln beskriver begreppen kring operationalisering av AI/ML i ett datanät och omfattar inte verktyg eller arkitekturer för att skapa dessa strategier. Azure har erbjudanden om funktionstjänster såsom Azure Databricks och Feathr från LinkedIn. Du kan utveckla Microsoft Purview anpassade anslutningar för att hantera och styra funktionstjänster.

Nästa steg