Power BI-gebruiksscenario's: Geavanceerde gegevensvoorbereiding
Notitie
Dit artikel maakt deel uit van de reeks artikelen over de implementatieplanning van Power BI. Deze reeks richt zich voornamelijk op de Power BI-ervaring in Microsoft Fabric. Zie de planning van de Power BI-implementatie voor een inleiding tot de reeks.
Gegevensvoorbereiding (ook wel ETL genoemd, een acroniem voor extract-, transformatie- en belastingsactiviteiten) zijn vaak een grote inspanning. De tijd, vaardigheid en inspanning die gepaard gaan met het verzamelen, opschonen, combineren en verrijken van gegevens is afhankelijk van de kwaliteit en structuur van brongegevens.
Het investeren van tijd en moeite in gecentraliseerde gegevensvoorbereiding helpt bij het volgende:
- Verbeter de herbruikbaarheid en krijg maximale waarde van gegevensvoorbereidingsinspanningen.
- Verbeter de mogelijkheid om consistente gegevens te bieden aan meerdere teams.
- Verminder het inspanningsniveau dat andere makers van inhoud nodig hebben.
- Schaal en prestaties bereiken.
Het scenario voor het gebruik van geavanceerde gegevensvoorbereiding breidt zich uit op het selfservicescenario voor gegevensvoorbereiding . Geavanceerde gegevensvoorbereiding gaat over het verhogen van het hergebruik van gegevensstromen door meerdere gebruikers in verschillende teams en voor verschillende gebruiksvoorbeelden.
Afzonderlijke werkruimten, geordend op gegevensstroomdoel, zijn handig wanneer gegevensstroomuitvoer wordt verstrekt aan meerdere semantische modelmakers, met name wanneer ze zich in verschillende teams in de organisatie bevinden. Afzonderlijke werkruimten zijn ook handig voor het beheren van beveiligingsrollen wanneer de personen die gegevensstromen maken en beheren verschillen van de personen die ze gebruiken.
Notitie
Het scenario voor geavanceerde gegevensvoorbereiding is de tweede van de scenario's voor gegevensvoorbereiding. Dit scenario bouwt voort op wat er kan worden gedaan met gecentraliseerde gegevensstromen, zoals beschreven in het selfservicescenario voor gegevensvoorbereiding .
Het scenario voor geavanceerde gegevensvoorbereiding is een van de selfservice BI-scenario's. Een gecentraliseerd teamlid kan echter de technieken op een vergelijkbare manier gebruiken als wat wordt beschreven in het beheerde selfservice BI-scenario . Zie het artikel over Power BI-gebruiksscenario's voor een volledige lijst met selfservicescenario's .
Voor de beknoptheid worden sommige aspecten die worden beschreven in het onderwerp over samenwerking en levering van inhoud niet behandeld in dit artikel. Lees eerst deze artikelen voor volledige dekking.
Scenariodiagram
Tip
We raden u aan het scenario voor het gebruik van selfservicegegevensvoorbereiding te bekijken als u er niet bekend mee bent. Het geavanceerde selfservicescenario voor gegevensvoorbereiding is gebaseerd op dat scenario.
De focus van dit geavanceerde scenario voor het voorbereiden van gegevens is gericht op:
- Het gebruik van afzonderlijke gegevensstromen op basis van doel: fasering, transformatie of definitief. We raden u aan om samenstelbare bouwstenen te gebruiken om meer hergebruik te verkrijgen, in verschillende combinaties, om specifieke gebruikersvereisten te ondersteunen. Composable bouwstenen worden verderop in dit artikel beschreven.
- Het gebruik van afzonderlijke werkruimten die ondersteuning bieden voor makers van gegevensstromen of gebruikers van gegevensstromen. Gegevensmodelleerders, die gegevensstromen gebruiken, kunnen zich in verschillende teams bevinden en/of verschillende use cases hebben.
- Het gebruik van gekoppelde tabellen (ook wel gekoppelde entiteiten genoemd), berekende tabellen (ook wel berekende entiteiten genoemd) en de verbeterde rekenengine.
Notitie
Soms worden de termen semantisch model en gegevensmodel door elkaar gebruikt. Over het algemeen wordt het vanuit een Power BI-service perspectief aangeduid als semantisch model. Vanuit het oogpunt van ontwikkeling wordt het een gegevensmodel (of een model voor kort) genoemd. In dit artikel hebben beide termen dezelfde betekenis. Op dezelfde manier hebben een semantische modelmaker en een gegevensmodeller dezelfde betekenis.
In het volgende diagram ziet u een algemeen overzicht van de meest voorkomende gebruikersacties en Power BI-onderdelen die ondersteuning bieden voor het geavanceerde scenario voor gegevensvoorbereiding.
Tip
We raden u aan het scenariodiagram te downloaden als u het wilt insluiten in uw presentatie, documentatie of blogbericht, of als een poster op een muur wilt afdrukken. Omdat het een SVG-afbeelding (Scalable Vector Graphics) is, kunt u deze omhoog of omlaag schalen zonder verlies van kwaliteit.
In het scenariodiagram ziet u de volgende gebruikersacties, hulpprogramma's en functies:
Artikel | Beschrijving |
---|---|
De maker van de gegevensstroom ontwikkelt een verzameling tabellen binnen een gegevensstroom. Voor een gegevensstroom die is bedoeld voor hergebruik, is het gebruikelijk (maar niet vereist) dat de maker deel uitmaakt van een gecentraliseerd team dat gebruikers ondersteunt over de grenzen van de organisatie (zoals IT, Enterprise BI of Center of Excellence). | |
De gegevensstroom maakt verbinding met gegevens uit een of meer gegevensbronnen. | |
Voor sommige gegevensbronnen is mogelijk een on-premises gegevensgateway of VNet-gateway vereist voor gegevensvernieuwing, zoals gegevensbronnen die zich in een particulier organisatienetwerk bevinden. Deze gateways worden zowel gebruikt voor het ontwerpen van de gegevensstroom in Power Query Online als voor het vernieuwen van de gegevensstroom. | |
Alle betrokken werkruimten hebben hun licentiemodus ingesteld op Fabric-capaciteit, Premium-capaciteit, Premium Per Gebruiker of Embedded. Deze licentiemodi maken het gebruik van gekoppelde tabellen en berekende tabellen in werkruimten mogelijk. Deze zijn vereist in dit scenario. | |
Makers van gegevensstromen ontwikkelen gegevensstromen met behulp van Power Query Online. Dit is een webversie van Power Query. | |
Er wordt een faseringsgegevensstroom gemaakt in een werkruimte die is toegewezen aan gecentraliseerd beheer van gegevensstromen. Een faseringsgegevensstroom kopieert de onbewerkte gegevens naar behoren uit de bron. Er worden maar weinig transformaties toegepast. | |
Er wordt een transformatiegegevensstroom (ook wel een opgeschoonde gegevensstroom genoemd) gemaakt in dezelfde werkruimte. Het broneert gegevens met behulp van gekoppelde tabellen naar de faseringsgegevensstroom. Berekende tabellen bevatten transformatiestappen die de gegevens voorbereiden, opschonen en hervormen. | |
Makers van gegevensstromen hebben toegang tot het beheren van inhoud in de werkruimte die is toegewezen aan het gecentraliseerde beheer van gegevensstromen. | |
Er bestaan een of meer andere werkruimten die zijn bedoeld om toegang te bieden tot de uiteindelijke gegevensstroom, waarmee productieklare gegevens worden geleverd aan gegevensmodellen. | |
De uiteindelijke gegevensstroom wordt gemaakt in een werkruimte die beschikbaar is voor gegevensmodelleerders. Het bront gegevens met behulp van gekoppelde tabellen naar de transformatiegegevensstroom. Berekende tabellen vertegenwoordigen de voorbereide uitvoer die zichtbaar is voor gegevensmodelleerders die de rol werkruimteviewer hebben gekregen. | |
Semantische modelmakers (die de uitvoer van de gegevensstroom gebruiken) hebben viewertoegang tot de werkruimte die de uiteindelijke uitvoer van de gegevensstroom bevat. Makers van gegevensstromen hebben ook toegang tot het beheren en publiceren van inhoud in de werkruimte (niet weergegeven in het scenariodiagram). | |
Semantische modelmakers gebruiken de uiteindelijke gegevensstroom als gegevensbron bij het ontwikkelen van een gegevensmodel in Power BI Desktop. Wanneer u klaar bent, publiceert de maker van het semantische model het Power BI Desktop-bestand (.pbix) dat het gegevensmodel bevat naar de Power BI-service (niet weergegeven in het scenariodiagram). | |
Fabric-beheerders beheren instellingen in de beheerportal. | |
In de beheerportal kunnen Power BI-beheerders Azure-verbindingen instellen om gegevensstroomgegevens op te slaan in hun Azure Data Lake Storage Gen2-account (ADLS Gen2). Instellingen omvatten het toewijzen van een opslagaccount op tenantniveau en het inschakelen van opslagmachtigingen op werkruimteniveau. | |
Gegevensstromen slaan standaard gegevens op met behulp van interne opslag die wordt beheerd door de Power BI-service. Optioneel kan gegevensuitvoer door de gegevensstroom worden opgeslagen in het ADLS Gen2-account van de organisatie. | |
Fabric-beheerders houden toezicht op activiteiten en bewaken in de Fabric-portal. |
Belangrijkste punten
Hier volgen enkele belangrijke punten die u moet benadrukken over het geavanceerde scenario voor gegevensvoorbereiding.
Gegevensstromen
Een gegevensstroom bestaat uit een verzameling tabellen (ook wel entiteiten genoemd). Elke tabel wordt gedefinieerd door een query, die de stappen voor gegevensvoorbereiding bevat die nodig zijn om de tabel met gegevens te laden. Al het werk om een gegevensstroom te maken, wordt uitgevoerd in Power Query Online. U kunt een gegevensstroom maken in meerdere producten, waaronder Power Apps, Dynamics 365 Customer Insights en Power BI.
Notitie
U kunt geen gegevensstromen maken in een persoonlijke werkruimte in de Power BI-service.
Typen gegevensstromen
Het gebruik van samenstelbare bouwstenen is een ontwerpprincipe waarmee u systeemonderdelen kunt beheren, implementeren en beveiligen en deze vervolgens in verschillende combinaties kunt gebruiken. Het maken van modulaire, zelfstandige gegevensstromen die specifiek zijn voor een doel, is een best practice. Ze helpen bij het bereiken van hergebruik van gegevens en het schalen van ondernemingen. Modulaire gegevensstromen zijn ook eenvoudiger te beheren en te testen.
In het scenariodiagram worden drie typen gegevensstromen weergegeven: faseringsgegevensstroom, transformatiegegevensstroom en uiteindelijke gegevensstroom.
Faseringsgegevensstroom
Een faseringsgegevensstroom (ook wel een gegevensstroom voor gegevensextractie genoemd) kopieert onbewerkte gegevens zoals die afkomstig zijn van de bron. Als de onbewerkte gegevens worden geëxtraheerd met minimale transformatie, betekent dit dat downstreamtransformatiegegevensstromen (hierna beschreven) de faseringsgegevensstroom als bron kunnen gebruiken. Deze modulariteit is handig wanneer:
- Toegang tot een gegevensbron is beperkt tot beperkte tijdvensters en/of enkele gebruikers.
- Tijdelijke consistentie is gewenst om ervoor te zorgen dat alle downstreamgegevensstromen (en gerelateerde semantische modellen) gegevens leveren die tegelijkertijd uit de gegevensbron zijn geëxtraheerd.
- Het verminderen van het aantal query's dat naar de gegevensbron wordt verzonden, is nodig vanwege bronsysteembeperkingen of de mogelijkheid om analytische query's te ondersteunen.
- Een kopie van de brongegevens is handig voor afstemmingsprocessen en verificaties van gegevenskwaliteit.
Transformatiegegevensstroom
Een transformatiegegevensstroom (ook wel een opgeschoonde gegevensstroom genoemd) haalt de gegevens op uit gekoppelde tabellen die verbinding maken met de faseringsgegevensstroom. Het is een best practice om transformaties van het gegevensextractieproces te scheiden.
Een transformatiegegevensstroom bevat alle transformatiestappen die nodig zijn om de gegevens voor te bereiden en te herstructureren. Er is echter nog steeds aandacht voor herbruikbaarheid op deze laag om ervoor te zorgen dat de gegevensstroom geschikt is voor meerdere gebruiksvoorbeelden en -doeleinden.
Uiteindelijke gegevensstroom
Een uiteindelijke gegevensstroom vertegenwoordigt de voorbereide uitvoer. Er kunnen enkele aanvullende transformaties plaatsvinden op basis van de use-case en het doel. Voor analyse is een stervormige schematabel (dimensie of feit) het voorkeursontwerp van de uiteindelijke gegevensstroom.
Berekende tabellen zijn zichtbaar voor gegevensmodelleerders waaraan de rol werkruimteviewer is toegewezen. Dit tabeltype wordt beschreven in het onderstaande onderwerp over gegevensstroomtabellen .
Notitie
Data lakes hebben vaak zones, zoals brons, zilver en goud. De drie typen gegevensstromen vertegenwoordigen een vergelijkbaar ontwerppatroon. Als u de best mogelijke beslissingen over de gegevensarchitectuur wilt nemen, moet u nadenken over wie de gegevens zal onderhouden, het verwachte gebruik van de gegevens en het vaardigheidsniveau dat vereist is voor personen die toegang hebben tot de gegevens.
Werkruimten voor gegevensstromen
Als u alle gegevensstromen in één werkruimte zou maken, zou dit de mate van hergebruik aanzienlijk beperken. Het gebruik van één werkruimte beperkt ook de beveiligingsopties die beschikbaar zijn bij het ondersteunen van meerdere typen gebruikers in teams en/of voor verschillende gebruiksscenario's. U wordt aangeraden meerdere werkruimten te gebruiken. Ze bieden betere flexibiliteit wanneer u selfservicemakers van verschillende gebieden van de organisatie moet ondersteunen.
De twee typen werkruimten die worden weergegeven in het scenariodiagram zijn onder andere:
- Werkruimte 1: het slaat centraal beheerde gegevensstromen op (ook wel een back-endwerkruimte genoemd). Het bevat zowel de faserings- als transformatiegegevensstromen omdat ze worden beheerd door dezelfde personen. Makers van gegevensstromen zijn vaak afkomstig van een gecentraliseerd team, zoals IT, BI of Center of Excellence. Ze moeten worden toegewezen aan de rol werkruimtebeheerder, lid of inzender.
- Werkruimte 2: het slaat en levert de uiteindelijke gegevensstroomuitvoer aan gebruikers van de gegevens (ook wel een gebruikerswerkruimtegenoemd). Semantische modelmakers zijn vaak selfserviceanalisten, energiegebruikers of burgergegevenstechnici. Ze moeten worden toegewezen aan de rol werkruimteviewer, omdat ze alleen de uitvoer van de uiteindelijke gegevensstroom hoeven te gebruiken. Als u semantische modelmakers van verschillende gebieden van de organisatie wilt ondersteunen, kunt u talloze werkruimten zoals deze maken, op basis van use-case- en beveiligingsbehoeften.
Tip
We raden u aan manieren te bekijken om semantische modelmakers te ondersteunen, zoals beschreven in het selfservicescenario voor gegevensvoorbereiding. Het is belangrijk te weten dat semantische modelmakers nog steeds de volledige mogelijkheden van Power Query in Power BI Desktop kunnen gebruiken. Ze kunnen ervoor kiezen om querystappen toe te voegen om de gegevensstroomgegevens verder te transformeren of de uitvoer van de gegevensstroom samen te voegen met andere bronnen.
Typen gegevensstroomtabellen
In het scenariodiagram worden drie typen gegevensstroomtabellen (ook wel entiteiten genoemd) weergegeven.
- Standard-tabel: voert een query uit op een externe gegevensbron, zoals een database. In het scenariodiagram worden standaardtabellen weergegeven in de faseringsgegevensstroom.
-
Gekoppelde tabel: Verwijst naar een tabel uit een andere gegevensstroom. In een gekoppelde tabel worden de gegevens niet gedupliceerd. In plaats daarvan kan een standaardtabel meerdere keren opnieuw worden gebruikt voor meerdere doeleinden. Gekoppelde tabellen zijn niet zichtbaar voor werkruimteviewers omdat ze machtigingen overnemen van de oorspronkelijke gegevensstroom. In het scenariodiagram worden gekoppelde tabellen twee keer weergegeven:
- In de transformatiegegevensstroom voor toegang tot de gegevens in de faseringsgegevensstroom.
- In de laatste gegevensstroom voor toegang tot de gegevens in de transformatiegegevensstroom.
-
berekende tabel: voert extra berekeningen uit met behulp van een andere gegevensstroom als bron. Berekende tabellen maken het mogelijk om de uitvoer zo nodig aan te passen voor afzonderlijke gebruiksvoorbeelden. In het scenariodiagram worden berekende tabellen twee keer weergegeven:
- In de transformatiegegevensstroom voor het uitvoeren van algemene transformaties.
- In de laatste gegevensstroom voor het leveren van uitvoer aan semantische modelmakers. Omdat berekende tabellen de gegevens opnieuw behouden (na het vernieuwen van de gegevensstroom), hebben gegevensmodelleerders toegang tot de berekende tabellen in de uiteindelijke gegevensstroom. In dit geval moeten gegevensmodelleerders toegang krijgen met de rol werkruimteviewer.
Notitie
Er zijn veel ontwerptechnieken, patronen en best practices die gegevensstromen van selfservice naar bedrijfsklaar kunnen maken. Bovendien kunnen gegevensstromen in een werkruimte waarvoor de licentiemodus is ingesteld op Premium per gebruiker of Premium-capaciteit profiteren van geavanceerde functies. Gekoppelde tabellen en berekende tabellen (ook wel entiteiten genoemd) zijn twee geavanceerde functies die essentieel zijn voor het vergroten van de hergebruik van gegevensstromen.
Verbeterde berekeningsengine
De verbeterde berekeningsengine is een geavanceerde functie die beschikbaar is in Power BI Premium.
Belangrijk
Soms verwijst dit artikel naar Power BI Premium of de capaciteitsabonnementen (P-SKU's). Houd er rekening mee dat Microsoft momenteel aankoopopties consolideert en de Power BI Premium-SKU's per capaciteit buiten gebruik stelt. Nieuwe en bestaande klanten moeten overwegen om in plaats daarvan F-SKU's (Fabric-capaciteitsabonnementen) aan te schaffen.
Zie Belangrijke update voor Power BI Premium-licenties en veelgestelde vragen over Power BI Premium voor meer informatie.
De verbeterde berekeningsengine verbetert de prestaties van gekoppelde tabellen (binnen dezelfde werkruimte) die verwijzen (koppelen aan) de gegevensstroom. Om optimaal te profiteren van de verbeterde berekeningsengine:
- Splits de faserings- en transformatiegegevensstromen uit.
- Gebruik dezelfde werkruimte om de gegevensstromen voor fasering en transformatie op te slaan.
- Pas complexe bewerkingen toe die vroeg in de querystappen query's kunnen uitvoeren . Het prioriteren van vouwbare bewerkingen kan helpen de beste vernieuwingsprestaties te bereiken.
- Gebruik incrementeel vernieuwen om de vernieuwingsduur en het resourceverbruik te verminderen.
- Voer het testen vroeg en vaak uit tijdens de ontwikkelingsfase.
Gegevensstroom en semantisch model vernieuwen
Een gegevensstroom is een gegevensbron voor semantische modellen. In de meeste gevallen zijn er meerdere schema's voor het vernieuwen van gegevens betrokken: één voor elke gegevensstroom en één voor elk semantisch model. U kunt ook DirectQuery van het semantische model gebruiken naar de gegevensstroom, waarvoor Power BI Premium en de verbeterde berekeningsengine (niet in het scenariodiagram) is vereist.
Azure Data Lake Storage Gen2
Een ADLS Gen2-account is een specifiek type Azure-opslagaccount waarvoor de hiërarchische naamruimte is ingeschakeld. ADLS Gen2 heeft prestatie-, beheer- en beveiligingsvoordelen voor het uitvoeren van analytische workloads. Power BI-gegevensstromen maken standaard gebruik van interne opslag. Dit is een ingebouwd Data Lake-account dat wordt beheerd door de Power BI-service. Organisaties kunnen desgewenst hun eigen data lake meenemen door verbinding te maken met een ADLS Gen2-account in hun organisatie.
Hier volgen enkele voordelen van het gebruik van uw eigen Data Lake:
- Gebruikers (of processen) hebben rechtstreeks toegang tot de gegevensstroomgegevens die zijn opgeslagen in de data lake. Dit is handig wanneer gegevensstromen opnieuw worden gebruikt buiten Power BI. Azure Data Factory heeft bijvoorbeeld toegang tot de gegevensstroomgegevens.
- Andere hulpprogramma's of systemen kunnen de gegevens in de data lake beheren. In dit geval kan Power BI de gegevens gebruiken in plaats van deze te beheren (niet weergegeven in het scenariodiagram).
Wanneer u gekoppelde tabellen of berekende tabellen gebruikt, moet u ervoor zorgen dat elke werkruimte is toegewezen aan hetzelfde ADLS Gen2-opslagaccount.
Notitie
Gegevensstroomgegevens in ADLS Gen2 worden opgeslagen in een Power BI-specifieke container. Deze container wordt weergegeven in het scenariodiagram voor selfservicegegevensvoorbereiding .
Instellingen voor de beheerportal
Er zijn twee belangrijke instellingen om te beheren in de beheerportal:
- Azure-verbindingen: de sectie Azure-verbindingen van de beheerportal bevat een instelling voor het instellen van een verbinding met een ADLS Gen2-account. Met deze instelling kan een Power BI-beheerder uw eigen data lake overbrengen naar gegevensstromen. Zodra deze is geconfigureerd, kunnen werkruimten dat Data Lake-account gebruiken voor opslag.
- opslag op werkruimteniveau: een Power BI-beheerder kan opslagmachtigingen op werkruimteniveau instellen. Wanneer deze optie is ingeschakeld, kunnen werkruimtebeheerders een ander opslagaccount gebruiken voor het account dat is ingesteld op tenantniveau. Het inschakelen van deze instelling is handig voor gedecentraliseerde bedrijfseenheden die hun eigen data lake in Azure beheren.
Gateway instellen
Normaal gesproken is een on-premises gegevensgateway vereist voor het maken van verbinding met gegevensbronnen die zich in een particulier organisatienetwerk of een virtueel netwerk bevinden.
Een gegevensgateway is vereist wanneer:
- Een gegevensstroom ontwerpen in Power Query Online die verbinding maakt met persoonlijke organisatiegegevens.
- Een gegevensstroom vernieuwen die verbinding maakt met persoonlijke organisatiegegevens.
Tip
Voor gegevensstromen is een gecentraliseerde gegevensgateway in de standaardmodus vereist. Een gateway in de persoonlijke modus wordt niet ondersteund bij het werken met gegevensstromen.
Systeemtoezicht
In het activiteitenlogboek worden gebruikersactiviteiten vastgelegd die plaatsvinden in de Power BI-service. Power BI-beheerders kunnen de verzamelde activiteitenlogboekgegevens gebruiken om controle uit te voeren om inzicht te krijgen in gebruikspatronen en acceptatie. Het activiteitenlogboek is ook waardevol voor het ondersteunen van governance-inspanningen, beveiligingscontroles en nalevingsvereisten. In het scenario voor geavanceerde gegevensvoorbereiding zijn de activiteitenlogboekgegevens handig om het beheer en het gebruik van gegevensstromen bij te houden.
Gerelateerde inhoud
Zie het artikel over power BI-gebruiksscenario's voor andere nuttige scenario's om u te helpen bij het nemen van beslissingen over power BI-implementaties.