Profilera data i Power BI

Slutförd

Profilering av data handlar om att studera olika aspekter av dem: att upptäcka avvikelser, undersöka och utveckla underliggande datastrukturer och köra frågor mot datastatistik som antal rader, fördelningar av värden, lägsta och högsta värden och medelvärden. Det här är viktigt eftersom det gör att du kan forma och organisera dina data så att det blir enklare att interagera med dem och identifiera deras fördelning, vilket gör det enklare att arbeta med data i klienterna och utveckla rapportelement.

Anta att du utvecklar rapporter åt säljteamet i din organisation.  Du är osäker på hur data är strukturerade i tabellerna, så du vill profilera data bakom kulisserna innan du börjar skapa de visuella objekten.  Power BI har funktioner som gör det enkelt att utföra de här uppgifterna.

Undersöka datastrukturer

Innan du börjar undersöka data i Power Query-redigeraren bör du först lära dig om de underliggande datastrukturer som data är ordnade i. Du kan visa den aktuella semantikmodellen under fliken Modell på Power BI Desktop.

På fliken Modell kan du redigera specifika kolumn- och tabellegenskaper genom att välja en tabell eller kolumner, och du kan transformera data med hjälp av knappen Transformera data, som tar dig till Power Query-redigeraren. Dessutom kan du hantera, skapa, redigera och ta bort relationer mellan olika tabeller med hjälp av Hantera relationer, som finns i menyfliksområdet.

Hitta avvikelser och datastatistik

När du har skapat en anslutning till en datakälla och har valt Transformera data kommer du till Power Query-redigeraren där du kan avgöra om det finns starkt avvikande värden i dina data.  Sådana avvikelser är extremvärden i datamängden. Genom att fastställa sådana avvikelser kan du identifiera den normala fördelningen och se om det finns vissa datapunkter du måste undersöka ytterligare. Power Query-redigeraren avgör dataavvikelser med hjälp av funktionen Kolumndistribution.

Välj Visa i menyfliksområdet och under Dataförhandsgranskning kan du välja bland några alternativ. Om du vill förstå dataavvikelser och statistik väljer du alternativen Kolumndistribution, Kolumnkvalitet och Kolumnprofil .  Statistiken visas som i följande bild.

Kolumnkvalitet och Kolumndistribution visas i graferna ovanför datakolumnerna. Kolumnkvaliteten visar de procentandelar data som är giltiga, i fel och tomma. I en perfekt värld skulle 100 procent av dina data vara giltiga.

Anteckning

Som standard undersöker Power Query de första 1 000 raderna i datauppsättningen. Om du vill ändra detta väljer du profileringsstatus i statusfältet och väljer Kolumnprofilering baserat på hela datauppsättningen. ]

Kolumnfördelning visar fördelningen av data i kolumnen och räknar antalet distinkta och unika värden, vilket ger information om antalet datapunkter. Distinkta värden är alla olika värden i en kolumn, inklusive dubbletter och nullvärden, medan unika värden inte innehåller dubbletter eller nullvärden. Därför visar distinkt i den här tabellen det totala antalet värden för hur många värden som finns, medan unikt anger hur många av dessa värden som bara visas en gång.

Med kolumnprofilen får du en mer djupgående titt på statistiken i kolumnerna för de första 1 000 dataraderna. Den här kolumnen innehåller flera olika värden, bland annat antalet rader vilket är viktigt när du verifierar om importen av dina data lyckades. Om den ursprungliga databasen innehåller 100 rader kan du till exempel använda det här radantalet till att se om 100 rader faktiskt importerades. Dessutom visar det här radantalet hur många rader som Power BI har bedömt som extremvärden, tomma rader och strängar samt minsta och högsta, vilket visar det minsta respektive största värdet i en kolumn. Den här skillnaden är särskilt viktig när det gäller numeriska data eftersom den omedelbart meddelar dig om du har ett högsta värde som är utöver vad ditt företag identifierar som ett "maximum". Det här värdet uppmärksammar dig på dessa värden, vilket innebär att du sedan kan fokusera dina ansträngningar när du fördjupar dig i data.  Om data finns i textkolumnen som i föregående bild används alfabetisk ordning till att avgöra det minsta (första) och största (sista) värdet.

Dessutom visar diagrammet Värdedistribution antalet för varje distinkt värde i den specifika kolumnen. När du tittar på diagrammet i föregående bild ser du att värdefördelningen anger att "Anthony Gross" visas flest gånger i kolumnen SalesPerson och att "Lily Code" visas minst antal gånger. Den här informationen är särskilt viktig eftersom den anger avvikande värden.  Om ett värde förekommer mycket oftare än andra värden i en kolumn kan du hitta rätt ställe att börja undersöka det med funktionen Värdefördelning.

I en numerisk kolumn innehåller kolumnstatistik också hur många noller och nullvärden som finns, tillsammans med det genomsnittliga värdet i kolumnen, standardavvikelsen för värdena i kolumnen och hur många jämna och udda värden som finns i kolumnen. Den här statistiken ger dig en uppfattning om kolumnens datafördelning, och det här är viktigt eftersom det ger en sammanfattning av data i kolumnen och fungerar som utgångspunkt när du ska hitta extremvärden.

När du till exempel tittar igenom fakturadata ser du att diagrammet Värdedistribution visar att några säljare i kolumnen SalesPerson visas samma antal gånger i data. Dessutom ser du att samma situation har inträffat i kolumnen Vinst och i några andra tabeller också. Din undersökning visar att du har använt felaktiga data som måste uppdateras, så du går genast vidare med uppdateringen. Om du inte hade sett det här diagrammet kanske du inte hade upptäckt felet lika snabbt, och det är därför värdefördelningen är så viktig.

När du har slutfört dina redigeringar i Power Query-redigeraren och är redo att börja skapa visuella objekt går du tillbaka till Start i Power Query-redigeraren menyfliksområdet. Välj Stäng & Använd, som returnerar dig till Power BI Desktop och eventuella kolumnredigeringar/transformeringar tillämpas också.

Nu har du fastställt vilka element som utgör profilering av data i Power BI, som inkluderar inläsning av data i Power BI, frågekörning av kolumnegenskaper för att få klarhet i och göra ytterligare ändringar i typen och formatet för data i kolumner, hitta dataavvikelser och visa datastatistik i Power Query-redigeraren. Sammantaget har du fått ett nytt verktyg för att studera dina data effektivt.