Dataprodukter för analys i molnskala i Azure
Dataprodukter är data som erbjuds som produkter och beräknas, sparas och levereras av polyglot-permanenstjänster, vilket kan krävas av vissa användningsfall. Processen för att skapa och betjäna en dataprodukt kan kräva tjänster och tekniker som inte ingår i datalandningszon kärntjänster. Ett exempel på detta skulle vara rapportering med nischkrav, till exempel efterlevnad och skatterapportering.
Designöverväganden
En datalandningszon kan hantera flera dataprodukter som skapats genom att mata in data från samma datalandningszon eller från flera datalandningszoner. Detta visas i följande diagram.
Exemplet ovan visar:
- Dataförbrukning inom zonen:
- Dataprodukt B förbrukar data från dataprodukt A och andra data eller dataprodukter som finns i datasjön i sin egen landningszon.
- Dataprodukter C och D använder endast data från sina egna respektive datalandningszoner.
- Dataförbrukning mellan zoner:
- Dataprodukt B förbrukar också data från dataprodukt C och data i landningszon 3:s datasjö.
Viktig
När det gäller dataförbrukning mellan zoner, eftersom dataprodukt B skapas genom att läsa från datalandningszon 3, kräver läsåtkomsten godkännande från datalandningszonsoperationer (,) och integreringsoperationer (,) teamen för datalandningszon 3.
Viktig
Dataprodukt B förbrukar data från dataprodukterna A och C. Innan detta kan inträffa måste dataprodukt B registrera sin förbrukning av dataprodukter via datadelningsavtal. Det här datadelningsavtalet bör uppdatera ursprunget från dataprodukt A till dataprodukt B och från dataprodukt C till dataprodukt B.
Resursgruppen för en dataprodukt innehåller alla tjänster som krävs för att skapa och underhålla den. Vi kan kalla den här resursgruppen för ett dataprogram. Exempel på tjänster som kan ingå i ett dataprogram är Azure Functions, Azure App Service, Logic Apps, Azure Analysis Services, Azure Cognitive Services, Azure Machine Learning, Azure SQL Database, Azure Database for MySQL och Azure Cosmos DB.
Dataprodukter har data från READ datakällor som har tillämpat vissa datatransformeringar. Exempel kan vara en nyligen kuraterad datamängd eller en BI-rapport.
Designrekommendationer
Skapa dataprodukter i din datalandningszon genom att följa designprinciper som gör att du kan skala med datastyrning. Följande avsnitt innehåller designrekommendationer som hjälper dig när du planerar ditt dataprograms ekosystem.
Distribuera flera resursgrupper
Varje dataprogram är en resursgrupp. Eftersom dataprogram är beräkningstjänster, flerspråkiga beständighetstjänster eller båda, kan de bara krävas beroende på vissa användningsfall. Därför anses de vara en valfri komponent i datalandningszonen. I de fall där du behöver dataprogram skapar du flera resursgrupper efter dataprogram, vilket visas i följande diagram.
Ange skyddsräcken
Azure Policy styr standardkonfigurationen av tjänster i en datalandningszon. Tänk på driftanalys som flera resursgrupper som ditt dataproduktteam kan begära från en standardtjänstkatalog. Med Azure Policy kan du konfigurera säkerhetsgränsen och nödvändig funktionsuppsättning.
Viktig
Konfigurera en Azure Policy för varje dataprogram för att skapa konsekvens.
Konsumera data från flera platser
Dataprogram hanterar, organiserar och beskriver data från flera datatillgångar och presenterar alla insikter som vunnits. En dataprodukt är resultatet av data från ett eller flera dataprogram i datalandningszoner. Tillåt dina dataprogram att komma åt data från flera och olika källor vid behov.
Skala efter behov
Tjänster som utgör dataapplikationer är stegvisa deployment till datalandningszonen. Skala dina dataprogram efter behov.
Aktivera datautforskning
Registrera dina dataprodukter automatiskt i en datakatalog, till exempel Microsoft Purview- för att tillåta datagenomsökning.
Identifiera dina dataprodukter
När du börjar planera en datalandningszon identifierar du så många dataprodukter (och de dataprogram som matar ut och underhåller dem) efter behov för att hjälpa till att driva din dataproduktprogramarkitektur. Överensstämmelse med implementerad plattformsstyrning bör spela den största rollen i dina beslut.
Fokusera på hur dina dataprogram är dataproducenter och konsumenter för andra. Anta till exempel att du har identifierat en uppsättning dataprodukter (A, B, C och D) som produceras och förbrukas. Du behöver dataprodukterna A och D som källor för data i dataprogram B för dataprodukt B. Dataprodukt B skapas från de data som dataprogram B använder från dataprodukterna A och D. Dataprogram B fungerar som själva dataproducenten och producerar även data för dataprodukt C.
Kontrollera din dataprogrammiljö med infrastruktur som kod
Styrning och infrastruktur som kod ska styra dataprogrammiljön i dataprodukternas ekosystem, som du ser i föregående diagram.
Publicera datamodeller
Dina dataproduktteam bör publicera sina datamodeller på en modelllagringsplats.
Ange förväntningar för dataproduktanvändare
Uppdatera dina datadelningsavtal med serviceavtal och certifieringar för dina dataprodukter så att du kan förmedla korrekta förväntningar till potentiella användare av dataprodukten.
Registrera släktlinje
Om dataprodukt B skapas från dataprodukterna A och D måste ursprunget samlas in från A och D till B. Ytterligare ursprung bör också samlas in för dataprodukt C, eftersom den skapas med data från dataprodukt B. Uppdaterad härkomst bör samlas in i ett data härkomstprogram före varje version av dataprodukten.
Not
Med Hjälp av Azure Pipelines kan du skapa godkännandegrindar och anropa funktioner som kan säkerställa att metadata, ursprung och serviceavtal registreras i rätt styrningstjänst.
Definiera arkitektur för dataprogram
Du måste skapa en detaljerad arkitektur för varje dataprodukt som helt definierar dess relation till andra dataprodukter, dess beroenden och dess åtkomstkrav.