Introduktion

Fuldført

Oprettelse af en fantastisk semantisk model er en af de vigtigste opgaver, som en dataanalytiker kan udføre i Microsoft Power BI. Når du er god til det, kan du gøre det nemmere for andre at forstå dine data, hvilket vil gøre det nemmere for både brugerne og dig selv at bygge værdifulde Power BI-rapporter.

Siderne i dette modul er kun vejledende. Der er ingen datafiler. Du har en chance for at arbejde med rigtige data i laboratorierne.

En god semantisk model giver følgende fordele:

  • Udforskning af data er hurtigere.

  • Det er nemmere at oprette sammenlægninger.

  • Rapporter er mere nøjagtige.

  • Det er hurtigere at skrive rapporter.

  • Det er nemmere at vedligeholde rapporter fremover.

Det er svært at angive regler for, hvad der gør en god semantisk model, fordi alle data er forskellige, og brugen af disse data varierer. Generelt er en mindre semantisk model bedre, fordi den fungerer hurtigere og er nemmere at bruge. Det er dog lige så problematisk at definere, hvad en mindre semantisk model indebærer, fordi det er et heuristisk og subjektivt koncept.

En mindre semantisk model består typisk af færre tabeller og færre kolonner i hver tabel, som brugeren kan se. Hvis du importerer alle de nødvendige tabeller fra en salgsdatabase, men det samlede antal tabeller er 30 tabeller, vil brugeren ikke finde den intuitiv. Hvis du skjuler disse tabeller i fem tabeller, bliver den semantiske model mere intuitiv for brugeren, hvorimod den kan være overvældende, hvis brugeren åbner en tabel og finder 100 kolonner. Hvis du fjerner unødvendige kolonner for at give et mere håndterbart antal, øges sandsynligheden for, at brugeren læser alle kolonnenavne. For at opsummere skal du stræbe efter enkelhed, når du designer dine semantiske modeller.

Følgende billede er et eksempel på en semantisk model. Felterne indeholder tabeller med data, hvor hvert linjeelement i feltet er en kolonne. De linjer, der forbinder felterne, repræsenterer relationer mellem tabellerne. Disse relationer kan være komplekse, selv i en sådan forenklet model. Den semantiske model kan nemt blive uorganiseret, og det samlede antal tabeller i modellen kan gradvist stige. Det kræver en konstant indsats at holde din semantiske model enkel, omfattende og præcis.

Relationer defineres mellem tabeller via primære og fremmede nøgler. Primære nøgler er kolonner, der identificerer hver entydig datarække, der ikke er null. Hvis du f. eks. har tabellen Customers, kan du have et indeks, der identificerer hver enkelt kunde. Den første række har id'et 1, den anden række et id på 2 osv. Hver række tildeles en entydig værdi, som denne enkle værdi kan referere til: den primære nøgle. Denne proces bliver vigtig, når du refererer til rækker i en anden tabel, hvilket er det, fremmede nøgler gør. Der dannes relationer mellem tabeller, når forskellige tabeller har primære og fremmede nøgler tilfælles.

Power BI gør det muligt at bygge relationer på basis af tabeller med forskellige datakilder, en effektiv funktion, der gør det muligt for dig at hente én tabel fra Microsoft Excel og en anden fra en relationsdatabase. Du skal derefter oprette relationen mellem disse to tabeller og behandle dem som en samlet semantisk model.

Nu, hvor du har lært om de relationer, der udgør dataskemaet, kan du udforske en bestemt type skemadesign, stjerneskemaet, som er optimeret til høj ydeevne og anvendelighed.

Stjerneskemaer

Du kan designe et stjerneskema for at forenkle dine data. Det er ikke den eneste måde at forenkle dine data på, men det er en populær metode. Derfor skal alle Power BI-dataanalytiker kende den. I et stjerneskema er hver tabel i din semantiske model defineret som en dimension eller en faktatabel, som vist i følgende visualisering.

Faktatabeller indeholder observatoriske dataværdier eller hændelsesdataværdier: salgsordrer, produktoptællinger, priser, transaktionsdatoer og -klokkeslæt samt antal. Faktatabeller kan indeholde flere gentagne værdier. Et produkt kan f. eks. optræde flere gange i flere rækker for forskellige kunder på forskellige datoer. Disse værdier kan samles i visuals. Et visual for de samlede salgsordrer er f. eks. en sammenlægning af alle salgsordrer i faktatabellen. I faktatabeller er det almindeligt at se kolonner, der er udfyldt med tal og datoer. Tallene kan være måleenheder, f. eks. salgsbeløb, eller de kan være nøgler, f. eks. et kunde-id. Datoerne repræsenterer den tid, der registreres, f. eks. ordredato eller afsendelsesdato.

Dimensionstabeller indeholder oplysninger om dataene i faktatabeller: produkter, placeringer, medarbejdere og ordretyper. Disse tabeller har forbindelse til faktatabellen vha. nøglekolonner. Dimensionstabeller bruges til at filtrere og gruppere dataene i faktatabeller. Faktatabellerne indeholder derimod de målbare data, f.eks. salg og indtægt, og hver række repræsenterer en entydig kombination af værdier fra dimensionstabellerne. Du kan gruppere dataene i visual'et for de samlede salgsordrer, så du kan se de samlede salgsordrer efter produkt, hvor produktet er data i dimensionstabellen.

Faktatabeller er meget større end dimensionstabeller, fordi der forekommer mange hændelser i faktatabeller, f.eks. individuelt salg. Dimensionstabeller er typisk mindre, da du er begrænset til det antal elementer, du kan filtrere og gruppere på. Et år indeholder f.eks. kun så mange måneder, og USA består kun af et bestemt antal stater.

Nu hvor du har fået disse oplysninger om faktatabeller og dimensionstabeller, tænker du måske på, hvordan du kan bygge dette visual i Power BI.

De relevante data findes i to tabeller, Employee og Sales, som vist i følgende semantiske model. Da tabellen Sales indeholder salgsordreværdierne, der kan samles, anses den for at være en faktatabel. Tabellen Employees indeholder det specifikke medarbejdernavn, som filtrerer salgsordrerne, og den er derfor en dimensionstabel. Den kolonne, de to tabeller har tilfælles, hvilket er den primære nøgle i tabellen Employee, er EmployeeID, og du kan oprette en relation mellem de to tabeller på basis af denne kolonne.

Når du opretter denne relation, kan du bygge visual'et i henhold til kravene, som vist i følgende figur. Hvis du ikke oprettede denne relation, samtidig med at du er opmærksom på den kolonne, de to tabeller har tilfælles, ville det være sværere at oprette visual'et.

Stjerneskemaer og den underliggende semantiske model er grundlaget for organiserede rapporter. Jo mere tid du bruger på at oprette disse forbindelser og designe, jo nemmere er det at oprette og vedligeholde rapporter.