Förstå Dataflöden Gen2 i Microsoft Fabric
I vårt scenario behöver du utveckla en semantisk modell som kan standardisera data och ge åtkomst till verksamheten. Genom att använda Dataflöden Gen2 kan du ansluta till de olika datakällorna och sedan förbereda och transformera data. Du kan landa data direkt i lakehouse eller använda en datapipeline för andra mål.
Vad är ett dataflöde?
Dataflöden är en typ av molnbaserat ETL-verktyg (Extract, Transform, Load) för att skapa och köra skalbara datatransformeringsprocesser.
Med Dataflöden Gen2 kan du extrahera data från olika källor, transformera dem med en mängd olika transformeringsåtgärder och läsa in dem till ett mål. Med Power Query Online kan du också utföra dessa uppgifter med hjälp av ett visuellt gränssnitt.
I grunden innehåller ett dataflöde alla transformeringar för att minska dataförberedelsetiden och kan sedan läsas in i en ny tabell, ingå i en datapipeline eller användas som datakälla av dataanalytiker.
Använda Dataflöden Gen2
Traditionellt ägnar datatekniker mycket tid åt att extrahera, transformera och läsa in data i ett förbrukningsbart format för nedströmsanalyser. Målet med Dataflows Gen2 är att tillhandahålla ett enkelt och återanvändbart sätt att utföra ETL-uppgifter med Power Query Online.
Om du bara väljer att använda en datapipeline kopierar du data och använder sedan önskat kodningsspråk för att extrahera, transformera och läsa in data. Du kan också skapa ett Dataflöde Gen2 först för att extrahera och transformera data. Du kan också läsa in data i ett sjöhus och andra mål. Nu kan företaget enkelt använda den utvalda semantiska modellen.
Det är valfritt att lägga till ett datamål i ditt dataflöde, och dataflödet bevarar alla transformeringssteg. Om du vill utföra andra uppgifter eller läsa in data till ett annat mål efter omvandlingen skapar du en datapipeline och lägger till Dataflow Gen2-aktiviteten i orkestreringen.
Ett annat alternativ kan vara att använda en datapipeline och Dataflöde Gen2 för ELT-process (extrahera, läsa in, transformera). För den här ordningen använder du en pipeline för att extrahera och läsa in data till önskat mål, till exempel lakehouse. Sedan skulle du skapa ett Dataflöde Gen2 för att ansluta till Lakehouse-data för att rensa och transformera data. I det här fallet skulle du erbjuda Dataflödet som en kuraterad semantisk modell för dataanalytiker att utveckla rapporter.
Dataflöden kan också partitioneras horisontellt. När du har skapat ett globalt dataflöde kan dataanalytiker använda dataflöden för att skapa specialiserade semantiska modeller för specifika behov.
Med dataflöden kan du höja upp återanvändbar ETL-logik som förhindrar behovet av att skapa fler anslutningar till datakällan. Dataflöden erbjuder en mängd olika omvandlingar och kan köras manuellt, enligt ett uppdateringsschema eller som en del av en datapipelineorkestrering.
Dricks
Gör ditt dataflöde identifierbart så att dataanalytiker också kan ansluta till dataflödet via Power BI Desktop. Detta minskar förberedelsen av data för rapportutveckling.
Fördelar och begränsningar
Det finns mer än ett sätt att ETL- eller ELT-data i Microsoft Fabric. Överväg fördelarna och begränsningarna för att använda Dataflöden Gen2.
Fördelar:
- Utöka data med konsekventa data, till exempel en standarddatumdimensionstabell.
- Tillåt självbetjäningsanvändare åtkomst till en delmängd av informationslagret separat.
- Optimera prestanda med dataflöden, vilket gör det möjligt att extrahera data en gång för återanvändning, vilket minskar datauppdateringstiden för långsammare källor.
- Förenkla datakällans komplexitet genom att endast exponera dataflöden för större analytikergrupper.
- Säkerställa konsekvens och kvalitet på data genom att göra det möjligt för användare att rensa och transformera data innan de läser in dem till ett mål.
- Förenkla dataintegrering genom att tillhandahålla ett lågkodsgränssnitt som matar in data från olika källor.
Begränsningar:
- Dataflöden ersätter inte ett informationslager.
- Säkerhet på radnivå stöds inte.
- Arbetsytan Infrastrukturkapacitet krävs.