Förstå team och funktioner för analys i molnskala i Azure
För analys i molnskala rekommenderar vi att du flyttar team som inmatning, bearbetning, analys, förbrukning och visualisering från att arbeta i horisontellt siloade team till flexibla lodräta korsdomänteam på varje nivå. Plattformsteam som dataplattformsåtgärder och plattformsåtgärder grupperas tillsammans i en gemensam plattformsgrupp.
Plattformsgrupp
Plattformsgruppen består av två team:
Platform ops: Platform ops ingår i plattformsgruppen. De driver och äger molnplattformen. Det här teamet ansvarar för att upprätta datahanteringslandningszonen och stödstruktur för datainställning, såsom nätverk, peering, kärntjänster och övervakning i en molnskalanalysmiljö. De hjälper vanligtvis dataplattformen att utveckla IT-tjänsthanteringsgränssnitt för personer i datalandningszonen i början av distributionen av analys i molnskala. Dessa gränssnitt brukar vara REST API-anrop till en tjänst för att registrera dataprodukter, ange säkerhet och lägga till tjänster i datalandningszoner.
Data platform ops: Dataplattformens ops-grupp finns i plattformsgruppen. Dataplattformsfunktioner tillhandahåller tjänster som central övervakning, katalogisering och återanvändbara principer för datalandningszoner och produkter. Dataplattformsoperations-teamet äger landningszonen för datahantering och teamets övriga ansvarsområden inkluderar:
Utveckla infrastruktur
- Utveckla infrastruktur som kodmallar för datalandningszoner. Mallarna måste uppdateras och underhållas över tid, och de kan omfatta flera scenarier.
- Prioritera mallar och lägg till nya funktioner baserat på feedback från andra team.
- Arbeta i ett agilt ramverk med det gemensamma målet att skapa standardinfrastrukturmallar.
Svara på begäranden om ny datalandningszon
Dataplattformens ops-team måste tillhandahålla verktyg och tjänster för att stödja de mallar som de har skapat. IT-tjänsthanteringsverktyg som ServiceNow kan hantera ärenden som har godkänts av dataplattformens driftsteam för att skapa nya datalagringszoner. När den har godkänts förgrenar sig en ny landningszon från basmallen för att skapa ett nytt DevOps-projekt, och pipelines distribuerar mallar till en ny miljö.
Feedback och förbättringscykel för drift av dataplattformen
Det finns två alternativ för att förbättra mallarna:
- Team som ansvarar för infrastrukturmallsinstanser kan förbättra sina DevOps-mallar och -distributioner. Om teamen upptäcker problem i mallarna kan dataplattformsfunktionerna stödja teamen och sammanfoga tillbaka ändringar från sin förgrening till mallen.
- Andra team i landningszonen för data ska kunna skapa förbättrings- och backlog-ärenden som skulle förbättra mallarna, baserat på hur biljetterna prioriteras.
Azure-principer för analys i molnskala
Analysprinciper i molnskala betonar flexibilitet och skyddsmekanismer för självbetjäning för att skydda data, kostnader och mönster. Dataplattformens operationsteam samarbetar med plattformens operationsteam för att definiera kvalitet, och dessa team samarbetar för att implementera specifika datapolicyer. Dataplattformsfunktioner bör följa en granskningsprocess för att uppdatera och underhålla nya funktioner som läggs till i produkter.
Distribuera och använda landningszoner för datahantering
Dataplattforms-ops och plattforms ops fungerar tillsammans för att distribuera och driva landningszoner för datahantering. En landningszon för datahantering tillhandahåller delade tjänster till datalandningszoner, vilket gör den till en central del av analys i molnskala.
Datalandningsområde drift
Datalandningszoner fungerar och underhåller sin datalandningszoninstans samtidigt som de svarar på begäranden från dataprogramteamet. De tillhandahåller många av samma tjänster som dataplattformsoperationer men är begränsade till sina datalandningszoner.
De fungerar från den förgrenade lagringsplatsen som skapas när en datalandningszon upprättas. För att begära principändringar måste de skapa biljetter till dataplattformen för att tillåta dessa undantag.
Stöd för dataprogramteamet för att anpassa dataprodukter
Datalandningszonens ops-team stöder dataprogramteamet genom att använda pull-begäranden för att skicka nya produktmallar till respektive dataproduktdatabaser.
Som ägare till landningszonen dirigerar Azure DevOps godkännandet för ändringar i landningszonens dataoperationer.
- Om de godkänns flyttas malländringarna till huvudgrenen och distribueras till produktion via kontinuerlig integrering/kontinuerlig utveckling, vilket gör att dataproduktplattformen/infrastrukturen uppdateras.
- Om det nekas samarbetar datalandningszonens operationsteam med dataprogramteamet för att åtgärda ändringarna.
Svara på nya dataproduktbegäranden
Datalandningszon ops stöder dataprogramteam för att skapa nya dataprodukter. När ett dataprogramteam begär hjälp samordnar en IT-tjänsthanteringslösning, till exempel en automationslogikapp, godkännandet eller distributionen av en ny lagringsplats för dataprogram. Driftteam för datalandningszoner meddelas om nya begäranden och godkänner eller avslår distributioner. När det har godkänts skapas ett nytt DevOps-projekt, huvudmallen och artefakterna förgrenas och ett nytt dataprogram distribueras.
Följ Azure Well-Architected Framework
Driften av datalandningszonen ansvarar för datalandningszonen, och det rekommenderas att teamet är skickliga i Azure Well-Architected Framework, som ger vägledning om kostnadsoptimering, tillförlitlighet och säkerhet.
Business as usual
Datalandningszonsoperationer är ansvariga för affärsuppgifter som innefattar insamling av feedback och förbättringsförfrågningar. Dessa begäranden prioriteras och delas regelbundet med dataplattformsfunktioner. Teamet övervakar datalandningszonen för incidenter och hälsohändelser. De engagerar andra ops-team under allvarliga incidenter för att minimera, återställa säkerhetskopior, redundans och skala tjänster.
Dataapplikationsteam
Dataprogramteamet levererar nya dataprodukter till verksamheten. De kommer från dataintegreringars läsdatalager och omvandlar dem till affärslösningar. Allt som transformerar data för användning klassificeras som en dataprodukt. Det här teamet är ofta en blandning av tekniska specialister och ämnesexperter som kan hjälpa verksamheten att uppnå värde snabbt. Dataprodukter kan variera från enkla rapporter och nya dataprodukter till anpassade installationer med datadrivna Kubernetes-webbappar.
Nya dataprodukter
Produktägare och företagsrepresentanter skapar begäranden för nya dataprodukter när de behövs. Datakontoret utvärderar kraven och sätter ihop ett nytt dataprogramteam med en mängd olika kunskaper. Teamet identifierar de dataprodukter som krävs och begär behörighet att komma åt datatillgången. Om en ny dataprodukt behövs får datateamet ett ärende för att integrera den. Teamet identifierar de tjänster som krävs för den nya dataprodukten och begär en ny dataprodukt via distributionsprocessen för dataprogram. Dataprogramsteamet tar emot en förgrenad repon från huvudmallen för dataprogram för att implementera dataprogrammet.
Certifiera dataprodukter
På en självbetjäningsplattform kan vem som helst skapa rapporter, kurera dataprodukter i ett Azure Data Lake-utvecklarlagringskonto och släppa dataprodukter som företaget kan använda. Begäranden om dataproduktgranskning sker när:
- Företagssponsorer loggar biljetter för att certifiera dataprodukter.
- Dataplattformens operatörer nominerar dataprodukter baserat på popularitet.
Ett dataprogramteam kan driva en certifieringsprocess som definieras av dataplattformsfunktioner och digital säkerhet, vilket kan omfatta:
- Tester som har utformats för att validera datatransformeringar och affärslogik
- Utvärderingar för säkerhets-, efterlevnads- eller prestandapåverkan
Vid certifieringen sorteras artefakter och laddas upp till en dataproduktlagringsplats, dokumentation publiceras och dataprogramteamet meddelas.
Produktsupport
Användare kan skicka feedback med en IT-tjänsthanteringslösning eller direkt i produkten som en biljett som dirigeras till dataproduktägaren. Den här personen prioriterar ärendet och avgör om det ska eskaleras till dataapplikationsteamet för att åtgärdas eller om feedback ska anges i produktens backlogg och granskas under produktplaneringscykler.
Data science-programteamet
Teamet för datavetenskapsprodukter skapar dataprodukter, men det är tydligt eftersom deras funktioner leder till dataprodukter. Deras arbete resulterar i att publicerade modeller blir dataprodukter som andra kan använda, och mönstret följer en Machine Learning ops-modell som är associerad med datalandningszonen.
Teamet för datavetenskapsprodukter börjar med att söka efter och hitta relevanta dataprodukter för deras användningsfall. Datastyrningslösningar kan visa mer information som datakvalitet, ursprung eller en liknande datauppsättning eller profil. De undersöker om en exempeldatauppsättning är tillgänglig och om data är relevanta för projektet. När dataåtkomst har beviljats via en datakatalog eller ett Microsoft Entra-åtkomstpaket använder teamet tjänsterna i datalandningszonen för att utforska och analysera data.
Innan alla data bearbetas använder teamet lokal eller fjärrberäkning för att bearbeta och analysera exempeldataprodukter. De kan optimera fjärrberäkningsmål med större dataprodukter för att träna och utveckla maskininlärningsmodeller med körningar, utdata och modeller som spåras i Azure Machine Learning.
När teamet har utvecklat maskininlärningsmodeller börjar de operationalisera dem. För att uppnå det här målet utökar de teamet till att omfatta DataOps- och maskininlärningstekniker som kan hjälpa till med att flytta modellerna till en ny dataprodukt, enligt beskrivningen i en teamroll för dataprogram.
Data science-teamet fortsätter att arbeta med de associerade dataproduktägarna för att samla in feedback, support och uppdatera modeller i produktion med hjälp av en metodik för maskininlärning.
Analytiker
Analytiker representerar en stor grupp som inkluderar affärsanalytiker, power-användare och i allmänhet alla i organisationen som är intresserade av att optimera data för att skapa nya affärsinsikter. Självbetjäningsaktivering är en viktig princip som stöder analytiker vid åtkomst till analys och data utan att behöva skydda en formell IT-budget och resurser.
Tips
Företag bör visa insikter som skapats av analytiker som nästa uppsättning potentiella dataprodukter som ska certifieras för andra att använda inom verksamheten.
Hitta och begära data
Analytiker konsulterar datamarknadsplatser/kataloger för att identifiera relevanta dataprodukter.
Om datatillgången inte kan hittas eller inte finns öppnar analytiker ett supportärende med dataprogramteamet. Dataprogramteamet hjälper till med att hitta datamängden eller lägger till begäran i sina kvarvarande uppgifter för att utvärdera den i en annan utvecklingscykel.
Om datauppsättningen finns kan analytiker identifiera Microsoft Entra-gruppmedlemskap för tillgångar som anges i katalogen och använda Azure-åtkomstpaketportalen för att begära åtkomst till Microsoft Entra-gruppen.
Skapa nya rapporter
Analytiker kan använda verktyg som Microsoft Power BI för att integrera dataprodukter i rapporter. Dessa rapporter kan vara för individuell användning eller för publicering av en certifierad dataprodukt. Innan du publicerar rapporten i organisationen måste den certifieras med en certifieringsprocess för dataprodukter för säkerhet, efterlevnad och prestanda.
Kör frågor efter behov
Analys i molnskala har delade arbetsytor där analytiker kan fråga efter data, med behörigheter. Det är vanligt att dataprodukter tillhandahåller dedikerad beräkning för att köra frågor efter behov. I båda fallen kan analytiker köra frågor mot dataprodukter i datalandningszonerna, beroende på behörigheter. Resultatet från frågorna kan lagras i Azure Data Lake-arbetsytor som ska användas igen.
Användarfeedback
Eftersom analytiker kan fungera som en outnyttjad källa till information och förbättringar uppmuntras företag starkt att skapa användarfeedbackgrupper för varje datalandningszon.
Förutom att delta i dessa användargrupper bör analytiker skicka feedback om datatillgången till dataprogramteamet och problem med datakatalogen i datakatalogen eller IT-tjänstens hanteringslösning. De kan skicka dataprocessproblem till dataapplikationsteamet eller via en lösning för hantering av IT-tjänster.
Not
En IT-tjänsthanteringslösning bör fungera som en central plats för att skicka feedback och eskalera problem. Att skicka direkt feedback till enskilda team kan verka vara en snabbare lösning, men den här metoden ger inte verksamheten insyn i utmaningarna i plattformen. En IT-tjänsthanteringslösning med rätt routning till dataprogramteamen kan ge företaget en vy över hela företaget.
Ansvarstilldelningsmatris
- Ansvarig: Vem slutför uppgiften?
- Ansvarig: Vem fattar beslut och vidtar åtgärder för uppgiften?
- Konsulterad: Vem får meddelanden om beslut och uppgifter?
- Informerad: Vem uppdateras om beslut och åtgärder under projektet?
Roll | Molnmiljö | Landningszon för datahantering | Datalandningszon | Dataintegrering | Dataprodukter |
---|---|---|---|---|---|
Tjänstägare | Informerad | Ansvarsskyldig | Informerad efter konsultation | Rådfrågad och informerad | Informerad efter konsultation |
Tjänstägare för datalandningszon | Underrättad | Rådgiven och informerad | Ansvarig | Ansvarig | Ansvarig |
Molnplattformens drift | Ansvarig | Konsulterat | Konsulterat | Konsulterat | Konsulterat |
Dataplattform operationer | Konsulterat | Ansvarig | Ansvarig | Konsulterat | Konsulterat |
Datalandningszon operationer | Informerad | Ansvarig | Ansvarig | Ansvarig | Ansvarig |
Dataapplikationsteam | Informerad | Informerad | Informerad | Ansvarig |