Power BI-forbrugsscenarier: Avanceret dataforberedelse
Bemærk
Denne artikel er en del af power BI-implementeringsplanlægningsserierne. I denne serie fokuseres der primært på Power BI-oplevelsen i Microsoft Fabric. Du kan få en introduktion til serien under Planlægning af implementering af Power BI.
Dataforberedelse (også kaldet ETL, som er et akronym for aktiviteter af typen Extract, Transform og Load), involverer ofte en stor indsats. Den tid, de færdigheder og den indsats, der er forbundet med at indsamle, rense, kombinere og forbedre data, afhænger af kvaliteten og strukturen af kildedataene.
Investering af tid og kræfter i central dataforberedelse hjælper med at:
- Gør genbrug nemmere, og få maksimal værdi ved at forberede data.
- Gør det nemmere at levere ensartede data til flere teams.
- Reducer det indsatsniveau, der kræves af andre indholdsoprettere.
- Opnå skalering og ydeevne.
Det avancerede forbrugsscenarie for dataforberedelse udvides i scenariet med selvbetjent dataforberedelse . Avanceret dataforberedelse handler om at øge genbrug af dataflow for flere brugere på tværs af forskellige teams og til forskellige use cases.
Separate arbejdsområder, der er organiseret efter dataflowformål, er nyttige, når dataflowoutput leveres til flere semantiske modeloprettere, især når de er i forskellige teams i organisationen. Separate arbejdsområder er også nyttige til administration af sikkerhedsroller, når de personer, der opretter og administrerer dataflow, adskiller sig fra de personer, der forbruger dem.
Bemærk
Scenariet for avanceret dataforberedelse er det andet af scenarierne for dataforberedelse. Dette scenarie bygger på, hvad der kan gøres med centraliserede dataflow, som beskrevet i scenariet med selvbetjent dataforberedelse .
Scenariet for avanceret dataforberedelse er et af BI-scenarierne med selvbetjening. Et centraliseret teammedlem kan dog bruge teknikkerne på samme måde som det, der er beskrevet i det administrerede selvbetjenings-BI-scenarie . Du kan se en komplet liste over selvbetjeningsscenarier i artiklen Power BI-forbrugsscenarier .
Nogle aspekter, der er beskrevet i emnet om indholdssamarbejde og leveringsscenarier , beskrives ikke kort i denne artikel. Du kan få fuld dækning ved at læse disse artikler først.
Scenariediagram
Tip
Vi anbefaler, at du gennemser brugsscenariet for selvbetjent dataforberedelse , hvis du ikke kender det. Det avancerede scenarie for selvbetjent dataforberedelse bygger på dette scenarie.
I dette scenarie for avanceret dataforberedelse fokuseres der på:
- Brugen af separate dataflow baseret på formål: midlertidig lagring, transformation eller endelig. Vi anbefaler, at du bruger komponenter, der kan bygges , for at opnå større genbrug i forskellige kombinationer for at understøtte specifikke brugerkrav. Komponenter, der kan skrives, beskrives senere i denne artikel.
- Brugen af separate arbejdsområder, der understøtter dataflowoprettere eller forbrugere af dataflow. Dataudformere, der forbruger dataflow, kan være i forskellige teams og/eller have forskellige use cases.
- Brugen af sammenkædede tabeller (også kaldet sammenkædede objekter), beregnede tabeller (også kendt som beregnede enheder) og det forbedrede beregningsprogram.
Bemærk
Nogle gange bruges begreberne semantisk model og datamodel i flæng. Fra et Power BI-tjeneste perspektiv kaldes det generelt semantisk model. Fra et udviklingsperspektiv kaldes det for en datamodel (eller model for korte). I denne artikel har begge ord samme betydning. På samme måde har en semantisk modelopretter og en dataudformer den samme betydning.
I følgende diagram vises en oversigt på højt niveau over de mest almindelige brugerhandlinger og Power BI-komponenter, der understøtter scenariet for avanceret dataforberedelse.
Tip
Vi opfordrer dig til at downloade scenariediagrammet , hvis du vil integrere det i din præsentation, dokumentation eller dit blogindlæg – eller udskrive det som en vægplakat. Da det er et SVG-billede (Scalable Vector Graphics), kan du skalere det op eller ned uden tab af kvalitet.
Scenariediagrammet viser følgende brugerhandlinger, værktøjer og funktioner:
Vare | Beskrivelse |
---|---|
Opretteren af dataflowet udvikler en samling tabeller i et dataflow. I forbindelse med et dataflow, der er beregnet til genbrug, er det almindeligt (men ikke påkrævet), at forfatteren tilhører et centraliseret team, der understøtter brugere på tværs af organisatoriske grænser (f.eks. it, enterprise BI eller Center of Excellence). | |
Dataflowet opretter forbindelse til data fra en eller flere datakilder. | |
Nogle datakilder kan kræve en datagateway i det lokale miljø eller en VNet-gateway til opdatering af data, f.eks. dem, der er placeret i et privat organisationsnetværk. Disse gateways bruges både til at oprette dataflowet i Power Query Online og til at opdatere dataflowet. | |
Alle de involverede arbejdsområder har deres licenstilstand angivet til Fabric-kapacitet, Premium-kapacitet, Premium pr. bruger eller Embedded. Disse licenstilstande gør det muligt at bruge sammenkædede tabeller og beregnede tabeller på tværs af arbejdsområder, hvilket er påkrævet i dette scenarie. | |
Oprettere af dataflow udvikler dataflow ved hjælp af Power Query Online, som er en webbaseret version af Power Query. | |
Der oprettes et midlertidigt dataflow i et arbejdsområde, der er dedikeret til central administration af dataflow. Et midlertidigt dataflow kopierer de rå data, som de er fra kilden. Der anvendes kun få transformationer, hvis der er nogen. | |
Der oprettes et transformationsdataflow (også kaldet et renset dataflow) i det samme arbejdsområde. Den henter data ved hjælp af sammenkædede tabeller til det midlertidige dataflow. Beregnede tabeller omfatter transformationstrin , der forbereder, renser og omformer dataene. | |
Oprettere af dataflow har adgang til at administrere indhold i arbejdsområdet, der er dedikeret til central administration af dataflow. | |
Der findes et eller flere andre arbejdsområder, der er beregnet til at give adgang til det endelige dataflow, som leverer produktionsklare data til datamodeller. | |
Det endelige dataflow oprettes i et arbejdsområde, der er tilgængeligt for dataudformere. Den henter data ved hjælp af sammenkædede tabeller til transformationsdataflowet. Beregnede tabel(er) repræsenterer det forberedte output, der er synligt for dataudformere, der har fået tildelt rollen som arbejdsområdefremviser. | |
Semantiske modeloprettere (der bruger dataflowoutputtet) har seeradgang til det arbejdsområde, der indeholder det endelige dataflowoutput. Oprettere af dataflow har også adgang til at administrere og publicere indhold i arbejdsområdet (ikke afbildet i scenariediagrammet). | |
Semantiske modeloprettere bruger det endelige dataflow som datakilde , når de udvikler en datamodel i Power BI Desktop. Når den semantiske modelopretter er klar, publicerer den Power BI Desktop-fil (.pbix), der indeholder datamodellen, til Power BI-tjeneste (ikke afbildet i scenariediagrammet). | |
Fabric-administratorer administrerer indstillinger på administrationsportalen. | |
På administrationsportalen kan Power BI-administratorer konfigurere Azure-forbindelser til at gemme dataflowdata på deres AdLS Gen2-konto (Azure Data Lake Storage Gen2). Indstillingerne omfatter tildeling af en lagerkonto på lejerniveau og aktivering af lagertilladelser på arbejdsområdeniveau. | |
Dataflow gemmer som standard data ved hjælp af internt lager, der administreres af Power BI-tjeneste. Dataoutput fra dataflowet kan eventuelt gemmes på organisationens ADLS Gen2-konto. | |
Fabric-administratorer fører tilsyn med og overvåger aktivitet på Fabric-portalen. |
Vigtige punkter
Følgende er nogle vigtige punkter, der skal understreges om scenariet for avanceret dataforberedelse.
Dataflows
Et dataflow består af en samling tabeller (også kaldet enheder). Hver tabel er defineret af en forespørgsel, som indeholder de trin til dataforberedelse, der kræves for at indlæse tabellen med data. Alt arbejde med at oprette et dataflow udføres i Power Query Online. Du kan oprette et dataflow i flere produkter, herunder Power Apps, Dynamics 365 Customer Insights og Power BI.
Bemærk
Du kan ikke oprette dataflow i et personligt arbejdsområde i Power BI-tjeneste.
Typer af dataflow
Brug af komponenter, der kan bygges , er et designprincip, der giver dig mulighed for at administrere, udrulle og sikre systemkomponenter og derefter bruge dem i forskellige kombinationer. Oprettelse af modulære, selvstændige dataflow, der er specifikke for et formål, er bedste praksis. De hjælper med at opnå genbrug af data og skalering i virksomheden. Modulære dataflow er også nemmere at administrere og teste.
Der vises tre typer dataflow i scenariediagrammet: midlertidig dataflow, transformationsdataflow og endeligt dataflow.
Midlertidig dataflow
Et midlertidigt dataflow (også kaldet et dataudtrækningsdataflow) kopierer rådata, som de er fra kilden. Hvis rådata udtrækkes med minimal transformation, betyder det, at downstream-transformationsdataflow (beskrevet næste) kan bruge det midlertidige dataflow som deres kilde. Denne modularitet er nyttig, når:
- Adgang til en datakilde er begrænset til begrænsede tidvinduer og/eller til nogle få brugere.
- Der ønskes tidskonsistens for at sikre, at alle downstreamdataflow (og relaterede semantiske modeller) leverer data, der blev udtrukket fra datakilden på samme tid.
- Det er nødvendigt at reducere antallet af forespørgsler, der sendes til datakilden, på grund af kildesystembegrænsninger eller muligheden for at understøtte analytiske forespørgsler.
- En kopi af kildedataene er nyttig til afstemningsprocesser og kontrol af datakvalitet.
Transformationsdataflow
Et transformationsdataflow (også kaldet et renset dataflow) henter dataene fra sammenkædede tabeller, der opretter forbindelse til det midlertidige dataflow. Det er bedste praksis at adskille transformationer fra dataudtrækningsprocessen.
Et transformationsdataflow indeholder alle de transformationstrin, der kræves for at forberede og omstrukturere dataene. Der er dog stadig fokus på genbrug på dette lag for at sikre, at dataflowet er egnet til flere use cases og -formål.
Endeligt dataflow
Et endeligt dataflow repræsenterer det forberedte output. Der kan forekomme yderligere transformationer baseret på use case og purpose. I forbindelse med analyser er en stjerneskematabel (dimension eller fakta) det foretrukne design af det endelige dataflow.
Beregnede tabeller er synlige for dataudformere, der tildeles rollen som arbejdsområdefremviser. Denne tabeltype er beskrevet i emnet typer af dataflowtabeller nedenfor.
Bemærk
Datasøer har ofte zoner, f.eks. bronze, sølv og guld. De tre typer dataflow repræsenterer et lignende designmønster. Hvis du vil træffe de bedst mulige beslutninger om dataarkitektur, skal du overveje, hvem der skal vedligeholde dataene, den forventede brug af dataene og det kompetenceniveau, der kræves af personer, der tilgår dataene.
Arbejdsområder til dataflow
Hvis du skulle oprette alle dataflow i et enkelt arbejdsområde, ville det begrænse omfanget af genbrug betydeligt. Brug af et enkelt arbejdsområde begrænser også de tilgængelige sikkerhedsindstillinger, når der understøttes flere typer brugere på tværs af teams og/eller til forskellige use cases. Vi anbefaler, at du bruger flere arbejdsområder. De giver bedre fleksibilitet, når du har brug for at understøtte selvbetjeningsforfattere fra forskellige områder i organisationen.
De to typer arbejdsområder, der vises i scenariediagrammet, omfatter:
- arbejdsområde 1: Det gemmer centralt administrerede dataflow (også kaldet et backendarbejdsområde). Den indeholder både dataflow til midlertidig lagring og transformation, fordi de administreres af de samme personer. Oprettere af dataflow kommer ofte fra et centraliseret team, f.eks. IT, BI eller Center of Excellence. De skal tildeles til rollen som administrator af arbejdsområdet, medlem eller bidragyder.
- arbejdsområde 2: Det gemmer og leverer det endelige dataflowoutput til forbrugere af dataene (også kaldet et brugerarbejdsområde). Semantiske modeloprettere er ofte selvbetjente analytikere, superbrugere eller datateknikere for borgere. De skal tildeles rollen som arbejdsområdefremviser, fordi de kun skal bruge outputtet fra det endelige dataflow. Hvis du vil understøtte semantiske modeloprettere fra forskellige områder i organisationen, kan du oprette mange arbejdsområder som denne baseret på brugscase og sikkerhedsbehov.
Tip
Vi anbefaler, at du gennemser måder, der understøtter semantiske modeloprettere som beskrevet i brugsscenariet for selvbetjent dataforberedelse . Det er vigtigt at forstå, at semantiske modeloprettere stadig kan bruge de fulde funktioner i Power Query i Power BI Desktop. De kan vælge at tilføje forespørgselstrin for yderligere at transformere dataflowdataene eller flette dataflowoutputtet med andre kilder.
Typer af dataflowtabeller
Tre typer dataflowtabeller (også kaldet enheder) er afbildet i scenariediagrammet.
- standardtabel: Forespørger en ekstern datakilde, f.eks. en database. I scenariediagrammet afbildes standardtabeller i det midlertidige dataflow.
-
sammenkædet tabel: Refererer til en tabel fra et andet dataflow. En sammenkædet tabel duplikerer ikke dataene. Det gør det i stedet muligt at genbruge en standardtabel flere gange til flere formål. Sammenkædede tabeller er ikke synlige for brugere af arbejdsområdet, da de nedarver tilladelser fra det oprindelige dataflow. I scenariediagrammet afbildes sammenkædede tabeller to gange:
- I transformationsdataflowet for at få adgang til dataene i det midlertidige dataflow.
- I det endelige dataflow for at få adgang til dataene i transformationsdataflowet.
-
beregnet tabel: Udfører yderligere beregninger ved hjælp af et andet dataflow som kilde. Beregnede tabeller gør det muligt at tilpasse outputtet efter behov for individuelle use cases. I scenariediagrammet afbildes beregnede tabeller to gange:
- I transformationsdataflowet til udførelse af almindelige transformationer.
- I det endelige dataflow til levering af output til semantiske modeloprettere. Da beregnede tabeller bevares dataene igen (efter opdateringen af dataflowet), kan dataudformere få adgang til de beregnede tabeller i det endelige dataflow. I dette tilfælde skal dataudformere have adgang med rollen som arbejdsområdefremviser.
Bemærk
Der er mange designteknikker, mønstre og bedste praksis , der kan tage dataflow fra selvbetjening til klar til virksomhed. Dataflow i et arbejdsområde, hvor licenstilstanden er angivet til Premium pr. bruger eller Premium-kapacitet, kan også drage fordel af avancerede funktioner. Sammenkædede tabeller og beregnede tabeller (også kaldet objekter) er to avancerede funktioner, der er vigtige for at øge genbrug af dataflow.
Forbedret beregningsprogram
Det forbedrede beregningsprogram er en avanceret funktion, der er tilgængelig med Power BI Premium.
Vigtigt
Denne artikel henviser til tider Power BI Premium eller dens kapacitetsabonnementer (P-SKU'er). Vær opmærksom på, at Microsoft i øjeblikket konsoliderer købsmuligheder og udfaser Power BI Premium pr. kapacitets-SKU'er. Nye og eksisterende kunder bør overveje at købe Fabric-kapacitetsabonnementer (F SKU'er) i stedet.
Du kan få flere oplysninger under Vigtige opdateringer, der kommer til Power BI Premium-licenser og Ofte stillede spørgsmål om Power BI Premium.
Det forbedrede beregningsprogram forbedrer ydeevnen for sammenkædede tabeller (i det samme arbejdsområde), der refererer til (link til) dataflowet. Sådan får du maksimalt udbytte af det forbedrede beregningsprogram:
- Opdel dataflowet for midlertidig lagring og transformation.
- Brug det samme arbejdsområde til at gemme dataflows til midlertidig lagring og transformation.
- Anvend komplekse handlinger, der kan forespørge om fold tidligt i forespørgselstrinnene. Prioritering af foldbare handlinger kan hjælpe med at opnå den bedste opdateringsydeevne.
- Brug trinvis opdatering til at reducere opdateringsvarigheden og ressourceforbruget.
- Udfør test tidligt og ofte i udviklingsfasen.
Opdatering af dataflow og semantisk model
Et dataflow er en datakilde til semantiske modeller. I de fleste tilfælde er der flere tidsplaner for opdatering af data: én for hvert dataflow og én for hver semantisk model. Alternativt er det muligt at bruge DirectQuery fra den semantiske model til dataflowet, som kræver Power BI Premium og det forbedrede beregningsprogram (ikke afbildet i scenariediagrammet).
Azure Data Lake Storage Gen2
En ADLS Gen2-konto er en bestemt type Azure Storage-konto, hvor det hierarkiske navneområde er aktiveret. ADLS Gen2 har fordele i forbindelse med ydeevne, administration og sikkerhed i forbindelse med drift af analysearbejdsbelastninger. Power BI-dataflow bruger som standard internt lager, som er en indbygget data lake-konto, der administreres af Power BI-tjeneste. Organisationer kan eventuelt medbringe deres egne datasøer ved at oprette forbindelse til en ADLS Gen2-konto i deres organisation.
Her er nogle fordele ved at bruge din egen datasø:
- Brugere (eller processer) kan få direkte adgang til de dataflowdata, der er gemt i datasøen. Det er nyttigt, når genbrug af dataflow sker ud over Power BI. Azure Data Factory kan f.eks. få adgang til dataflowdataene.
- Andre værktøjer eller systemer kan administrere dataene i datasøen. I dette tilfælde kan Power BI bruge dataene i stedet for at administrere dem (ikke afbildet i scenariediagrammet).
Når du bruger sammenkædede tabeller eller beregnede tabeller, skal du sørge for, at hvert arbejdsområde er tildelt den samme ADLS Gen2-lagerkonto.
Bemærk
Dataflowdata i ADLS Gen2 gemmes i en Power BI-specifik objektbeholder. Denne objektbeholder er afbildet i forbrugsscenariet for selvbetjent dataforberedelse .
Indstillinger for administrationsportal
Der er to vigtige indstillinger, der skal administreres på administrationsportalen:
- Azure-forbindelser: Afsnittet Azure-forbindelser på administrationsportalen indeholder en indstilling til at konfigurere en forbindelse til en ADLS Gen2-konto. Denne indstilling gør det muligt for En Power BI-administrator at overføre din egen data lake til dataflow. Når arbejdsområderne er konfigureret, kan de bruge denne data lake-konto til lagring.
- lager på arbejdsområdeniveau: En Power BI-administrator kan angive lagertilladelser på arbejdsområdeniveau. Når indstillingen er aktiveret, giver indstillingen administratorer af arbejdsområder mulighed for at bruge en anden lagerkonto til den, der er angivet på lejerniveau. Aktivering af denne indstilling er nyttig for decentraliserede afdelinger, der administrerer deres egne datasøer i Azure.
Konfiguration af gateway
Der kræves typisk en datagateway i det lokale miljø for at oprette forbindelse til datakilder, der er placeret i et privat organisationsnetværk eller et virtuelt netværk.
Der kræves en datagateway, når:
- Oprettelse af et dataflow i Power Query Online, der opretter forbindelse til private organisationsdata.
- Opdatering af et dataflow, der opretter forbindelse til private organisationsdata.
Tip
Dataflow kræver en central datagateway i standardtilstand. En gateway i personlig tilstand understøttes ikke, når du arbejder med dataflow.
Systemtilsyn
Aktivitetsloggen registrerer brugeraktiviteter, der forekommer i Power BI-tjeneste. Power BI-administratorer kan bruge de aktivitetslogdata, der indsamles, til at udføre overvågning for at hjælpe dem med at forstå forbrugsmønstre og indførelse. Aktivitetsloggen er også værdifuld til at understøtte styringstiltag, sikkerhedsrevisioner og krav til overholdelse af angivne standarder. I scenariet med avanceret dataforberedelse er aktivitetsloggens data nyttige til at spore administration og brug af dataflow.
Relateret indhold
Du kan finde andre nyttige scenarier, der kan hjælpe dig med power BI-implementeringsbeslutninger, i artiklen Power BI-forbrugsscenarier .