Informatie over gegevensstromen Gen2 in Microsoft Fabric
In ons scenario moet u een semantisch model ontwikkelen dat de gegevens kan standaardiseren en toegang tot het bedrijf kan bieden. Met behulp van Dataflows Gen2 kunt u verbinding maken met de verschillende gegevensbronnen en vervolgens de gegevens voorbereiden en transformeren. U kunt de gegevens rechtstreeks in uw lakehouse landen of een gegevenspijplijn gebruiken voor andere bestemmingen.
Wat is een gegevensstroom?
Gegevensstromen zijn een type ETL-hulpprogramma (extraheren, transformeren, laden) voor het bouwen en uitvoeren van schaalbare processen voor gegevenstransformatie.
Met gegevensstromen Gen2 kunt u gegevens uit verschillende bronnen extraheren, transformeren met behulp van een breed scala aan transformatiebewerkingen en deze in een bestemming laden. Als u Power Query Online gebruikt, kan een visuele interface deze taken ook uitvoeren.
In wezen bevat een gegevensstroom alle transformaties om de tijd van de gegevensvoorbereiding te verminderen en vervolgens in een nieuwe tabel te laden, opgenomen in een gegevenspijplijn of als gegevensbron door gegevensanalisten te worden gebruikt.
Gegevensstromen Gen2 gebruiken
Traditioneel besteden data engineers veel tijd aan het extraheren, transformeren en laden van gegevens in een verbruiksbare indeling voor downstreamanalyses. Het doel van Dataflows Gen2 is om een eenvoudige, herbruikbare manier te bieden om ETL-taken uit te voeren met behulp van Power Query Online.
Als u er alleen voor kiest om een gegevenspijplijn te gebruiken, kopieert u gegevens en gebruikt u vervolgens de programmeertaal van uw voorkeur om de gegevens te extraheren, transformeren en laden. U kunt ook eerst een Gegevensstroom Gen2 maken om de gegevens te extraheren en te transformeren. U kunt de gegevens ook laden in een lakehouse en andere bestemmingen. Nu kan het bedrijf eenvoudig het gecureerde semantische model gebruiken.
Het toevoegen van een gegevensbestemming aan uw gegevensstroom is optioneel en de gegevensstroom behoudt alle transformatiestappen. Als u andere taken wilt uitvoeren of gegevens na transformatie naar een andere bestemming wilt laden, maakt u een gegevenspijplijn en voegt u de Dataflow Gen2-activiteit toe aan uw indeling.
Een andere optie is het gebruik van een gegevenspijplijn en Gegevensstroom Gen2 voor het ELT-proces (Extraheren, Laden, Transformeren). Voor deze volgorde gebruikt u een pijplijn om de gegevens te extraheren en te laden in uw favoriete bestemming, zoals het lakehouse. Vervolgens maakt u een Dataflow Gen2 om verbinding te maken met Lakehouse-gegevens om gegevens op te schonen en te transformeren. In dit geval zou u de gegevensstroom aanbieden als een gecureerd semantisch model voor gegevensanalisten om rapporten te ontwikkelen.
Gegevensstromen kunnen ook horizontaal worden gepartitioneerd. Zodra u een globale gegevensstroom hebt gemaakt, kunnen gegevensanalisten gegevensstromen gebruiken om gespecialiseerde semantische modellen te maken voor specifieke behoeften.
Met gegevensstromen kunt u herbruikbare ETL-logica promoten die voorkomt dat er meer verbindingen met uw gegevensbron moeten worden gemaakt. Gegevensstromen bieden een groot aantal transformaties en kunnen handmatig worden uitgevoerd, volgens een vernieuwingsschema of als onderdeel van een gegevenspijplijnindeling.
Tip
Maak uw gegevensstroom detecteerbaar zodat gegevensanalisten ook via Power BI Desktop verbinding kunnen maken met de gegevensstroom. Dit vermindert de gegevensvoorbereiding voor rapportontwikkeling.
Voordelen en beperkingen
Er is meer dan één manier om ETL- of ELT-gegevens in Microsoft Fabric te gebruiken. Houd rekening met de voordelen en beperkingen voor het gebruik van Gegevensstromen Gen2.
Voordelen:
- Gegevens uitbreiden met consistente gegevens, zoals een standaarddimensietabel voor datums.
- Toestaan dat selfservicegebruikers afzonderlijk toegang hebben tot een subset van het datawarehouse.
- Optimaliseer de prestaties met gegevensstromen, waardoor gegevens eenmaal kunnen worden geëxtraheerd voor hergebruik, waardoor het vernieuwen van gegevens voor tragere bronnen wordt verkort.
- Vereenvoudig de complexiteit van de gegevensbron door alleen gegevensstromen weer te geven aan grotere analistengroepen.
- Zorg voor consistentie en kwaliteit van gegevens door gebruikers in staat te stellen gegevens op te schonen en te transformeren voordat ze deze naar een bestemming laden.
- Vereenvoudig de integratie van gegevens door een interface met weinig code te bieden waarmee gegevens uit verschillende bronnen worden opgenomen.
Beperkingen:
- Gegevensstromen zijn geen vervanging voor een datawarehouse.
- Beveiliging op rijniveau wordt niet ondersteund.
- Werkruimte voor infrastructuurcapaciteit is vereist.