Bruk innsikt i Power BI for å finne ut hvor distribusjonene varierer
GJELDER FOR: Power BI Desktop Power Bi-tjeneste
Ofte i visualobjekter ser du et datapunkt og lurer på om distribusjonen vil være den samme for ulike kategorier. Med innsikt i Power BI kan du finne det ut med bare noen få klikk.
Vurder følgende visualobjekt, som viser TotalSalg etter CountryName. De fleste salgene kommer fra USA, og står for 57 % av alle salg med mindre bidrag fra andre land/regioner. Det er ofte interessant i slike tilfeller å undersøke om den samme fordelingen vil bli sett for ulike delutfyllinger. Er dette for eksempel det samme for alle år, alle salgskanaler og alle produktkategorier? Selv om du kan bruke forskjellige filtre og sammenligne resultatene visuelt, kan det være tidkrevende og feilutsatt å gjøre dette.
Du kan be Power BI finne ut hvor en distribusjon er annerledes, og få rask, automatisert og innsiktsfull analyse om dataene dine. Høyreklikk på et datapunkt, og velg Analyser>søk der denne distribusjonen er forskjellig, og en innsikt leveres til deg i et brukervennlig vindu.
I dette eksemplet viser den automatiserte analysen at andelen salg for tursykler i USA og Canada er lavere enn andelen som kommer fra de andre landene/områdene.
Bruksinnsikt
Hvis du vil bruke innsikt til å finne ut hvor distribusjoner som vises i diagrammer, er forskjellige, høyreklikker du bare på et datapunkt eller på visualobjektet som helhet. Velg deretter Analyser>søk der denne fordelingen er forskjellig.
Power BI kjører maskinlæringsalgoritmene over dataene. Det fyller deretter ut et vindu med et visualobjekt og en beskrivelse av hvilke kategorier (kolonner) og hvilke verdier i disse kategoriene som resulterer i den mest signifikant forskjellige fordelingen. Innsikt er angitt som et stolpediagram, som vist i følgende bilde:
Verdiene med det valgte filteret som brukes, har standardfargen. De totale verdiene, som vist på det opprinnelige startvisualobjektet, vises i grått for enkel sammenligning. Opptil tre forskjellige filtre kan inkluderes (tursykler, terrengsykler og landeveissykler i dette eksemplet), og ulike filtre kan velges ved å velge et datapunkt eller ved å bruke ctrl-klikk for å velge flere.
For enkle additive mål, for eksempel Totalt salg i dette eksemplet, er sammenligningen basert på relative verdier, i stedet for absolutte verdier. Salget for tursykler er lavere enn det totale salget for alle kategorier. Visualobjektet bruker imidlertid som standard en dobbel akse for å tillate sammenligning mellom andelen salg på tvers av ulike land/områder. Dette er for tursykler kontra alle kategorier av sykler. Hvis du bytter veksleknappen under visualobjektet, kan de to verdiene vises i samme akse, slik at absoluttverdiene enkelt kan sammenlignes, som vist på følgende bilde:
Den beskrivende teksten angir også viktighetsnivået som kan knyttes til en filterverdi, gitt antall poster som samsvarer med filteret. I dette eksemplet ser du at selv om distribusjonen for tursykler kan være annerledes, står de bare for 16,6 % av postene.
Tommel opp og tommel ned ikoner øverst på siden finnes slik at du kan gi tilbakemelding om visualobjektet og funksjonen. Dette lærer imidlertid ikke opp algoritmen til å påvirke resultatene som returneres neste gang du bruker funksjonen.
Det er viktig + at knappen øverst i visualobjektet lar deg legge til det valgte visualobjektet i rapporten som om du opprettet visualobjektet manuelt. Deretter kan du formatere eller justere det ekstra visualobjektet på samme måte som med andre visualobjekter i rapporten. Du kan bare legge til et valgt visualobjekt for innsikt når du redigerer en rapport i Power BI.
Du kan bruke innsikt når rapporten er i lese- eller redigeringsmodus. Dette gjør den allsidig for både å analysere data og for å opprette visualobjekter du kan legge til i rapportene.
Detaljer om de returnerte resultatene
Du kan tenke på algoritmen som å ta alle de andre kolonnene i modellen og, for alle verdiene i disse kolonnene, bruke dem som filtre på det opprinnelige visualobjektet. Algoritmen finner deretter hvilke av disse filterverdiene som gir det mest forskjellige resultatet fra originalen.
Du lurer sannsynligvis på hva annet betyr. Si for eksempel at den totale delingen av salg mellom USA og Canada er følgende:
Land/område | Salg ($M) |
---|---|
USA | sept. |
Canada | 5 |
Deretter, for en bestemt kategori av produktet "Road Bike", kan delingen av salg være:
Land/område | Salg ($M) |
---|---|
USA | 3 |
Canada | 1 |
Selv om tallene er forskjellige i hver av disse tabellene, er de relative verdiene mellom USA og Canada identiske: 75 % og 25 % totalt og for landeveissykler. Derfor anses ikke disse som forskjellige. For enkle additive mål som dette ser algoritmen etter forskjeller i den relative verdien.
Vurder derimot et mål som margin beregnet som fortjeneste/kostnad. Hvis de totale marginene for USA og Canada var følgende:
Land/område | Marg (%) |
---|---|
USA | sept. |
Canada | 5 |
Deretter, for en bestemt kategori av produktet "Road Bike", kan delingen av salg være:
Land/område | Marg (%) |
---|---|
USA | 3 |
Canada | 1 |
Gitt arten av slike tiltak, er dette interessant annerledes. For ikke-additive mål som dette margeksemplet ser algoritmen etter forskjeller i den absolutte verdien.
Visualobjektene som vises, er derfor ment å vise forskjellene mellom den generelle fordelingen, som vist i det opprinnelige visualobjektet, og verdien der det bestemte filteret brukes.
For additive mål, for eksempel Salg i forrige eksempel, brukes et stolpe- og linjediagram. Der er bruken av en dobbel akse med riktig skalering slik at de relative verdiene kan sammenlignes. Kolonnene viser verdien der filteret er brukt, og linjen viser den totale verdien. Kolonneaksen er til venstre, og linjeaksen er til høyre, som normalt. Linjen vises ved hjelp av en trinnvis stil, med en stiplet linje, fylt med grått. Hvis maksimumsverdien for kolonneaksen for forrige eksempel er 4, og maksimumsverdien for linjeaksen er 20, vil den tillate enkel sammenligning av de relative verdiene mellom USA og Canada for de filtrerte og generelle verdiene.
På samme måte, for ikke-additive mål som marg i forrige eksempel, brukes et stolpe- og linjediagram, der bruken av én enkelt akse betyr at absoluttverdiene enkelt kan sammenlignes. Linjen fylt med grått viser den totale verdien. Enten du sammenligner faktiske eller relative tall, er fastsettelsen av i hvilken grad to fordelinger er forskjellige, ikke bare et spørsmål om å beregne forskjellen i verdiene. Eksempel:
Når størrelsen på populasjonen er tatt med i faktoren, er en forskjell mindre statistisk signifikant og mindre interessant når den gjelder for en mindre andel av den totale populasjonen. Distribusjonen av salg på tvers av land/områder kan for eksempel være forskjellig for et bestemt produkt. Dette ville ikke vært interessant hvis det var tusenvis av produkter, slik at det bestemte produktet utgjorde bare en liten prosentandel av det totale salget.
Forskjeller for de kategoriene der de opprinnelige verdiene var høye eller nær null, vektes høyere enn andre. Hvis for eksempel et land eller område totalt bidrar med bare 1 % av salget, men for en bestemt type produkt bidrar 6 %, er dette mer statistisk signifikant, og derfor mer interessant, enn et land eller område der bidraget endret seg fra 50 % til 55 %.
Ulike heuristikker velger de mest meningsfulle resultatene, for eksempel ved å vurdere andre relasjoner mellom dataene.
Når du har undersøkt forskjellige kolonner og verdiene for hver av disse kolonnene, velges verdisettet som gir de største forskjellene. For enkel forståelse blir disse deretter utdata og gruppert etter kolonne, med kolonnen med verdiene som gir den største forskjellen oppført først. Opptil tre verdier vises per kolonne, men mindre kan vises enten hvis det var færre enn tre verdier som har stor effekt, eller hvis noen verdier er mye mer virkningsfulle enn andre.
Det er ikke nødvendigvis slik at alle kolonnene i modellen undersøkes i den tilgjengelige tiden, så det er ikke garantert at de mest virkningsfulle kolonnene og verdiene vises. Ulike heuristikk sikrer imidlertid at de mest sannsynlige kolonnene undersøkes først. Si for eksempel at når du har undersøkt alle kolonnene, er det fastslått at følgende kolonner/verdier har størst innvirkning på fordelingen, fra størst innvirkning til minst:
Subcategory = Touring Bikes
Channel = Direct
Subcategory = Mountain Bikes
Subcategory = Road Bikes
Subcategory = Kids Bikes
Channel = Store
Disse får utdata i kolonnerekkefølge, som følger:
Underkategori: Tursykler, terrengsykler, landeveissykler (bare tre oppført, med teksten inkludert "... blant andre" for å indikere at mer enn tre har en betydelig innvirkning)
Kanal = Direkte (bare direkte oppført, hvis innvirkningsnivået var større enn Store)
Hensyn og begrensninger
Følgende liste er samlingen av scenarioer som ikke støttes for innsikt:
- TopN-filtre
- Målfiltre
- Ikke-numeriske mål
- Bruk av «Vis verdi som»
- Filtrerte mål – filtrerte mål er beregninger på visuelt nivå med et bestemt filter som brukes, for eksempel Totalt salg for Frankrike, og brukes på noen av visualobjektene som er opprettet av innsiktsfunksjonen
I tillegg støttes ikke følgende modelltyper og datakilder for øyeblikket for innsikt:
- DirectQuery
- Live connect
- Lokale Reporting Services
- Bygge inn
Relatert innhold
Hvis du vil ha mer informasjon, kan du se: