Del via


Opprett visualiseringer for viktige påvirkere

GJELDER FOR: Power BI Desktop Power Bi-tjeneste

Visualobjektet for viktige påvirkere hjelper deg med å forstå faktorene som driver en metrikkverdi som interesserer deg. Den analyserer dataene dine, rangerer faktorene som betyr noe, og viser dem som viktige påvirkere. Anta for eksempel at du vil finne ut hva som påvirker ansattes omsetning, som også kalles frafall. En faktor kan være lengden på ansettelseskontrakten, og en annen faktor kan være pendlingstid.

Når du skal bruke viktige påvirkere

Visualobjektet for viktige påvirkere er et godt valg hvis du vil:

  • Se hvilke faktorer som påvirker måleverdien som analyseres.
  • Sammenlign den relative betydningen av disse faktorene. Påvirker for eksempel kortsiktige kontrakter frafall mer enn langsiktige kontrakter?

Funksjoner i visualobjektet for viktige påvirkere

Skjermbilde av de nummererte funksjonene i visualobjektet for viktige påvirkere.

  1. Faner: Velg en fane, og bytt mellom visninger. Viktige påvirkere viser deg de viktigste bidragsyterne til den valgte metriske verdien. De øverste segmentene viser deg de øverste segmentene som bidrar til den valgte metriske verdien. Et segment består av en kombinasjon av verdier. Ett segment kan for eksempel være forbrukere som er langsiktige kunder og bor i det vestlige området.

  2. Rullegardinboks: Verdien av metrikkverdien som undersøkes. I dette eksemplet kan du se på metrisk vurdering. Den valgte verdien er Lav.

  3. Omskriving: Det hjelper deg med å tolke visualobjektet i den venstre ruten.

  4. Venstre rute: Ruten til venstre inneholder ett visualobjekt. I dette tilfellet viser den venstre ruten en liste over de viktigste påvirkerne.

  5. Omskriving: Det hjelper deg med å tolke visualobjektet i ruten til høyre.

  6. Høyre rute: Ruten til høyre inneholder ett visualobjekt. I dette tilfellet viser stolpediagrammet alle verdiene for det viktige påvirkertemaet som ble valgt i ruten til venstre. Den spesifikke verdien av brukervennlighet fra den venstre ruten vises i grønt. Alle de andre verdiene for tema vises i svart.

  7. Gjennomsnittslinje: Gjennomsnittet beregnes for alle mulige verdier for Tema unntatt brukervennlighet (som er den valgte påvirkeren). Beregningen gjelder derfor for alle verdiene i svart. Den forteller deg hvilken prosentandel av de andre temaene som hadde en lav vurdering. I dette tilfellet hadde 11,35 % en lav vurdering (vist av den prikkede linjen).

  8. Avmerkingsboks: Filtrerer ut visualobjektet i ruten til høyre for bare å vise verdier som er påvirkere for dette feltet. I dette eksemplet filtreres visualobjektet for å vise brukervennlighet, sikkerhet og navigasjon.

Analysere en metrikkverdi som er kategorisk

  1. Produktsjefen vil at du skal finne ut hvilke faktorer som fører til at kundene legger igjen negative vurderinger om skytjenesten. Hvis du vil følge med i Power BI Desktop, åpner du PBIX-filen for tilbakemelding fra kunder.

Merk

Datasettet kundetilbakemelding er basert på [Moro et al., 2014] S. Moro, P. Cortez og P. Rita. "En datadrevet tilnærming til å forutsi suksessen til banktelemarketing." Beslutningsstøttesystemer, Elsevier, 62:22-31, juni 2014.

  1. Velg ikonet Viktige påvirkere under Bygg visualobjekt i Visualiseringer-ruten.

    Skjermbilde av ikonet Viktige påvirkere i Visualiseringer-ruten.

  2. Flytt måleverdien du vil undersøke, til Analyser-feltet . Hvis du vil se hva som driver en kundevurdering av tjenesten til å være lav, velger du Kundetabellvurdering>.

  3. Flytt felt som du tror kan påvirke vurdering til Forklar etter-feltet . Du kan flytte så mange felt du vil. I dette tilfellet begynner du med:

    • Country-Region
    • Rolle i organisasjonen
    • Abonnementstype
    • Firmastørrelse
    • Tema
  4. La Utvid etter-feltet stå tomt. Dette feltet brukes bare når du analyserer et mål eller et summert felt.

  5. Hvis du vil fokusere på de negative vurderingene, velger du Lav i rullegardinlisten Hva påvirker vurdering som skal være.

    Skjermbilde av rullegardinlisten med alternativer for høy og lav.

Analysen kjører på tabellnivået i feltet som analyseres. I dette tilfellet er det metrikkverdien for vurdering . Denne måleverdien er definert på kundenivå. Hver kunde gir enten en høy poengsum eller en lav poengsum. Alle forklarende faktorer må defineres på kundenivå for at visualobjektet skal kunne benytte seg av dem.

I det forrige eksemplet har alle forklarende faktorer enten en en-til-en eller en mange-til-en-relasjon med metrikkverdien. I dette tilfellet tilordnet hver kunde et enkelt tema til vurderingen. På samme måte kommer kunder fra ett land eller område, har én medlemstype og har én rolle i organisasjonen. Forklarende faktorer er allerede attributter for en kunde, og ingen transformasjoner er nødvendig. Visualobjektet kan gjøre umiddelbar bruk av dem.

Senere i opplæringen ser du på mer komplekse eksempler som har én-til-mange-relasjoner. I slike tilfeller må kolonnene først aggregeres ned til kundenivået før du kan kjøre analysen.

Mål og aggregater som brukes som forklarende faktorer, evalueres også på tabellnivå i analysemetrikken . Noen eksempler vises senere i denne artikkelen.

Tolke kategoriske viktige påvirkere

La oss ta en titt på de viktigste påvirkerne for lave vurderinger.

Topp enkeltfaktor som påvirker sannsynligheten for en lav vurdering

Kunden i dette eksemplet kan ha tre roller: forbruker, administrator og utgiver. Å være forbruker er den viktigste faktoren som bidrar til en lav vurdering.

Skjermbilde av viktige påvirkere, med Rolle i organisasjonen valgt.

Mer nøyaktig, forbrukerne er 2,57 ganger mer sannsynlig å gi tjenesten en negativ score. Diagrammet for viktige påvirkere viser rolle i organisasjonen som forbruker først i listen til venstre. Ved å velge Rolle i organisasjonen er forbruker, viser Power BI flere detaljer i ruten til høyre. Den komparative effekten av hver rolle på sannsynligheten for en lav vurdering vises.

  • 14,93% av forbrukerne gir en lav score.
  • I gjennomsnitt gir alle andre roller en lav poengsum 5,78 % av tiden.
  • Forbrukerne er 2,57 ganger mer sannsynlig å gi en lav score sammenlignet med alle andre roller. Du kan bestemme denne poengsummen ved å dele den grønne linjen med den røde prikkede linjen.

Andre enkeltfaktor som påvirker sannsynligheten for en lav vurdering

Visualobjektet for viktige påvirkere sammenligner og rangerer faktorer fra mange forskjellige variabler. Den andre påvirkeren har ingenting å gjøre med Role in Org. Velg den andre påvirkeren i listen, som er Tema er brukervennlighet.

Skjermbilde av viktige påvirkere, med Tema er brukervennlighet valgt.

Den nest viktigste faktoren er relatert til temaet for kundens gjennomgang. Kunder som kommenterte brukervennligheten til produktet, hadde 2,55 ganger større sannsynlighet for å gi en lav poengsum sammenlignet med kunder som kommenterte andre temaer, for eksempel pålitelighet, design eller hastighet.

Mellom visualobjektene ble gjennomsnittet, som vises av den røde prikkede linjen, endret fra 5,78 % til 11,35 %. Gjennomsnittet er dynamisk fordi det er basert på gjennomsnittet av alle andre verdier. For den første påvirkeren ekskluderte gjennomsnittet kunderollen. For den andre påvirkeren utelukket det brukervennlighetstemaet.

Merk av for Vis bare verdier som er påvirkere for å filtrere ved hjelp av bare de innflytelsesrike verdiene. I dette tilfellet er de rollene som driver en lav poengsum. Tolv temaer reduseres til de fire som Power BI identifiserte som temaene som driver lave vurderinger.

Skjermbilde av avmerkingsboksen for bare å vise verdier som er påvirkere.

Samhandle med andre visualobjekter

Hver gang du velger en slicer, et filter eller et annet visualobjekt på lerretet, kjører visualobjektet for viktige påvirkere analysen på nytt på den nye delen av dataene. Du kan for eksempel flytte firmastørrelse til rapporten og bruke den som slicer. Bruk den til å se om de viktigste påvirkerne for bedriftskundene er annerledes enn den generelle populasjonen. En bedriftsstørrelse er større enn 50 000 ansatte.

Velg >50 000 for å kjøre analysen på nytt, og du kan se at påvirkerne endret seg. For store bedriftskunder har den beste påvirkeren for lave vurderinger et tema relatert til sikkerhet. Det kan være lurt å undersøke nærmere for å se om det finnes bestemte sikkerhetsfunksjoner som de store kundene er misfornøyde med.

Skjermbilde av visualobjektet som skal velges etter firmastørrelse.

Tolke kontinuerlige viktige påvirkere

Så langt har du lært hvordan du bruker visualobjektet til å utforske hvordan ulike kategoriske felt påvirker lave vurderinger. Det er også mulig å ha kontinuerlige faktorer som alder, høyde og pris i Forklar etter-feltet . La oss se på hva som skjer når Tenure flyttes fra kundetabellen til Explain by. Tenure viser hvor lenge en kunde bruker tjenesten.

Etter hvert som perioden øker, øker sannsynligheten for å få en lavere vurdering også. Denne trenden tyder på at de langsiktige kundene er mer sannsynlig å gi en negativ score. Denne innsikten er interessant, og en som du kanskje vil følge opp senere.

Visualiseringen viser at hver gang perioden går opp med 13,44 måneder, øker sannsynligheten for en lav vurdering i gjennomsnitt med 1,23 ganger. I dette tilfellet viser 13,44 måneder standardavviket for tid. Så innsikten du får, ser på hvordan økende periode med et standardbeløp, som er standardavviket for tid, påvirker sannsynligheten for å motta en lav vurdering.

Punkttegningen i den høyre ruten tegner inn den gjennomsnittlige prosentandelen av lave vurderinger for hver verdi av tid. Det uthever skråningen med en trendlinje.

Skjermbilde av punkttegning for anseelse.

Binned kontinuerlige viktige påvirkere

I noen tilfeller kan det hende at kontinuerlige faktorer automatisk ble gjort om til kategoriske faktorer. Hvis relasjonen mellom variablene ikke er lineær, kan vi ikke beskrive relasjonen som ganske enkelt å øke eller redusere (som vi gjør i forrige eksempel).

Vi kjører korrelasjonstester for å finne ut hvor lineær påvirkeren er sammenlignet med målet. Hvis målet er kontinuerlig, kjører vi Pearson-korrelasjon, og hvis målet er kategorisk, kjører vi punktbierialkorrelasjonstester. Hvis vi oppdager at relasjonen ikke er tilstrekkelig lineær, utfører vi overvåket binning og genererer maksimalt fem hyller. Hvis du vil finne ut hvilke hyller som gir mest mening, bruker vi en binningsmetode med tilsyn. Binning-metoden med tilsyn ser på relasjonen mellom forklarende faktor og målet som analyseres.

Tolke mål og aggregater som viktige påvirkere

Du kan bruke mål og aggregater som forklarende faktorer i analysen. Hvilken effekt har for eksempel antallet kundestøtteforespørsler på poengsummen du mottar. Eller hvilken effekt har gjennomsnittlig varighet for en åpen billett på poengsummen du mottar.

I dette tilfellet vil du se om antall støtteforespørsler som en kunde har påvirker poengsummen de gir. Nå henter du inn støtteforespørsels-ID fra støttebilletttabellen. Siden en kunde kan ha flere støtteforespørsler, aggregerer du ID-en til kundenivået. Aggregasjon er viktig fordi analysen kjører på kundenivå, så alle drivere må defineres på dette nivået av detaljnivå.

La oss se på antall ID-er. Hver kunderad har et antall støtteforespørsler som er knyttet til den. I dette tilfellet, etter hvert som antall støttebilletter øker, går sannsynligheten for at vurderingen er lav opp 4,08 ganger. Skjermbildet viser gjennomsnittlig antall støtteforespørsler etter ulike vurderingsverdier evaluert på kundenivå.

Skjermbilde som viser påvirkning av støtteforespørsels-ID.

Tolke resultatene: De øverste segmentene

Du kan bruke fanen Viktige påvirkere til å vurdere hver faktor enkeltvis. Du kan også bruke fanen Øverste segmenter for å se hvordan en kombinasjon av faktorer påvirker måleverdien du analyserer.

De øverste segmentene viser først en oversikt over alle segmentene som Power BI oppdaget. Følgende eksempel viser at seks segmenter ble funnet. Prosentandelen av lave vurderinger i segmentet bestemmer rangeringen. Segment 1 har for eksempel 74,3 % kundevurderinger som er lave. Jo høyere boblen er, jo høyere er andelen lave vurderinger. Størrelsen på boblen representerer hvor mange kunder som er innenfor segmentet.

Skjermbilde av fanen Øverste segmenter valgt.

Hvis du velger en boble, vises detaljene for segmentet. Hvis du for eksempel velger Segment 1, ser du at det representerer etablerte kunder. De har vært kunder i over 29 måneder og har mer enn fire støttebilletter. Til slutt er de ikke utgivere, så de er enten forbrukere eller administratorer.

I denne gruppen ga 74,3 % av kundene en lav vurdering. Den gjennomsnittlige kunden ga en lav vurdering 11,7% av tiden, så dette segmentet har en større andel av lave vurderinger. Det er 63 prosentpoeng høyere. Segment 1 inneholder også omtrent 2,2 % av dataene, så det representerer en adresserbar del av populasjonen.

Skjermbilde av det øverste segmentet i henhold til vurdering.

Legge til antall

Noen ganger kan en påvirker ha en betydelig effekt, men representerer lite av dataene. Tema er for eksempel brukervennlighet er den tredje største påvirkeren for lave vurderinger. Det kan imidlertid bare ha vært en håndfull kunder som klaget over brukervennlighet. Antall kan hjelpe deg med å prioritere hvilke påvirkere du vil fokusere på.

Du kan aktivere antall gjennom Analyse-kortet i formateringsruten.

Skjermbilde av glidebryteren for aktivering av antall i Format-ruten.

Når antall er aktivert, ser du en ring rundt boblen til hver påvirker, som representerer den omtrentlige prosentandelen av data som påvirkeren inneholder. Jo mer av boblen ringsirklene er, jo mer data inneholder den. Vi kan se at tema er brukervennlighet inneholder en liten andel data.

Skjermbilde av ringer rundt påvirkerbobler som representerer antall.

Du kan også bruke veksleknappen Sorter etter nederst til venstre i visualobjektet for å sortere boblene etter antall først i stedet for innvirkning. Abonnementstype er Premier er den beste påvirkeren basert på antall.

Skjermbilde av Sorter etter-veksleknappen for å sortere etter antall først.

Å ha en full ring rundt sirkelen betyr at påvirkeren inneholder 100 % av dataene. Du kan endre antalltypen slik at den er relativ til den maksimale påvirkeren ved hjelp av rullegardinlisten Antall typer i Analyse-kortet i formateringsruten. Nå er påvirkeren med mest data representert med en full ring, og alle andre tellinger er i forhold til den.

Skjermbilde som viser rullegardinmenyen relative antall.

Analysere en metrikkverdi som er numerisk

Hvis du flytter et usammendragsfelt til Analyser-feltet , har du et valg om hvordan du skal håndtere dette scenarioet. Du kan endre virkemåten til visualobjektet ved å gå inn i formateringsruten og bytte mellom kategorisk analysetype og kontinuerlig analysetype.

Skjermbilde av rullegardinmenyen for å endre fra kategorisk til kontinuerlig.

En kategorisk analysetype er beskrevet tidligere i denne artikkelen. Hvis du for eksempel ser på undersøkelsesresultater fra 1 til 10, kan du spørre «Hvilke påvirkninger undersøkelsesresultater er 1?»

En kontinuerlig analysetype endrer spørsmålet til en kontinuerlig. Ved hjelp av det forrige eksemplet er det nye spørsmålet «Hva påvirker undersøkelsesresultatene til å øke/redusere?»

Dette skillet er nyttig når du har mange unike verdier i feltet du analyserer. I det neste eksemplet ser vi på boligprisene. Det er ikke meningsfylt å spørre "Hva påvirker husprisen til å være 156 214?" som det er spesifikt, og vi vil sannsynligvis ikke ha nok data til å utlede et mønster.

I stedet vil vi kanskje spørre: "Hva påvirker husprisen til å øke," som tillater oss å behandle boligprisene som et område i stedet for distinkte verdier.

Skjermbilde av rullegardinalternativer for å velge påvirkere.

Tolke resultatene: Viktige påvirkere

Merk

Eksemplene i denne delen bruker offentlige husprisdata. Du kan laste ned eksempeldatasettet hvis du vil følge med.

I dette scenariet ser vi på "Hva påvirker husprisen til å øke." En rekke forklarende faktorer kan påvirke en huspris som Year Built (år huset ble bygget), KitchenQual (kjøkkenkvalitet) og YearRemodAdd (år huset ble ombygd).

I eksemplet nedenfor ser vi på vår beste påvirker, som er kjøkkenkvalitet er utmerket. Resultatene ligner på de vi så da vi analyserte kategoriske måledata med noen viktige forskjeller:

  • Stolpediagrammet til høyre ser på gjennomsnittene i stedet for prosentdeler. Det viser oss derfor hva den gjennomsnittlige husprisen på et hus med et utmerket kjøkken er (grønn bar) sammenlignet med den gjennomsnittlige husprisen på et hus uten et utmerket kjøkken (prikket linje)
  • Tallet i boblen er fortsatt forskjellen mellom den røde prikkede linjen og den grønne linjen, men det uttrykkes som et tall ($158.49K) i stedet for en sannsynlighet (1,93x). Så i gjennomsnitt er hus med utmerkede kjøkken nesten $ 160 K dyrere enn hus uten gode kjøkken.

Skjermbilde av numeriske målkategoriske påvirkere.

I eksemplet nedenfor ser vi på virkningen en kontinuerlig faktor (året huset ble ombygd) har på huspris. Forskjellene i forhold til hvordan vi analyserer kontinuerlige påvirkere for kategoriske måledata, er som følger:

  • Punkttegningen i den høyre ruten tegner inn den gjennomsnittlige husprisen for hver distinkte verdi av året som er ombygd.
  • Verdien i boblen viser hvor mye den gjennomsnittlige boligprisen øker (i dette tilfellet $ 2.87k) når året huset ble ombygd øker med standardavviket (i dette tilfellet 20 år)

Skjermbilde av kontinuerlige påvirkere for numerisk mål.

Til slutt, når det gjelder tiltak, ser vi på det gjennomsnittlige året et hus ble bygget. Analysen er som følger:

  • Punktplottet i den høyre ruten tegner inn den gjennomsnittlige husprisen for hver distinkte verdi i tabellen
  • Verdien i boblen viser hvor mye den gjennomsnittlige husprisen øker (i dette tilfellet USD 1,35 K) når gjennomsnittsåret øker med standardavviket (i dette tilfellet 30 år)

Skjermbilde av viktige påvirkere for boligpriser med påvirkere til venstre og punktplottet til høyre.

Tolke resultatene: Øverste segmenter

De øverste segmentene for numeriske mål viser grupper der boligprisene i gjennomsnitt er høyere enn i det totale datasettet. Nedenfor kan vi for eksempel se at Segment 1 består av hus der GarageCars (antall biler garasjen kan passe) er større enn 2 og RoofStyle er Hip. Hus med disse egenskapene har en gjennomsnittspris på $ 355 K sammenlignet med det totale gjennomsnittet i dataene som er $ 180 K.

Skjermbilde som viser de øverste segmentene for huspriser.

Analysere en metrikkverdi som er et mål eller en oppsummert kolonne

For et mål eller en summert kolonne er analysen som standard den kontinuerlige analysetypen som er beskrevet tidligere i denne artikkelen. Verdien kan endres. Den største forskjellen mellom å analysere en mål-/summert kolonne og en ikke-summert numerisk kolonne er nivået som analysen kjører på.

For ikke-summerte kolonner kjører analysen alltid på tabellnivå. I boligpriseksempelet analyserte vi husprismålingen for å se hva som påvirker en huspris for å øke/redusere. Analysen kjøres automatisk på tabellnivå. Tabellen vår har en unik ID for hvert hus, slik at analysen kjører på et husnivå.

Skjermbilde som viser tabellnivåanalysen for eksempelet på huspris.

For mål og summerte kolonner vet vi ikke umiddelbart hvilket nivå vi skal analysere dem på. Hvis husprisen ble oppsummert som et gjennomsnitt, må vi vurdere hvilket nivå vi ønsker at denne gjennomsnittlige husprisen skal beregnes. Er det den gjennomsnittlige husprisen på et nabolagsnivå? Eller kanskje et regionalt nivå?

Mål og summerte kolonner analyseres automatisk på nivået i Explain by-feltene som brukes. Tenk deg at vi ønsker å undersøke tre felt i Explain By: Kjøkkenkvalitet, bygningstype og klimaanlegg. Gjennomsnittlig huspris beregnes for hver unike kombinasjon av disse tre feltene. Det er ofte nyttig å bytte til en tabellvisning for å ta en titt på hvordan dataene som evalueres, ser ut.

Skjermbilde som viser de tre kolonnene og den gjennomsnittlige husprisen.

Denne analysen er svært oppsummert, og det kan derfor være vanskelig for regresjonsmodellen å finne mønstre i dataene den kan lære av. Vi bør kjøre analysen på et mer detaljert nivå for å få bedre resultater. Hvis vi ønsker å analysere husprisen på husnivå, må vi eksplisitt legge til ID-feltet i analysen. Likevel vil vi ikke at hus-ID-en skal betraktes som en påvirker. Det er ikke nyttig å lære at når hus-ID øker, øker prisen på et hus. Alternativet Utvid etter-feltet er nyttig her. Du kan bruke Utvid etter til å legge til felt du vil bruke til å angi analysenivået uten å lete etter nye påvirkere.

Ta en titt på hvordan visualiseringen ser ut når vi legger til ID-en i Utvid etter. Når du definerer nivået du vil at målet skal evalueres på, er tolkning av påvirkere nøyaktig det samme som for ikke-summerte numeriske kolonner.

Skjermbilde som viser husprisvisualiseringen som avhenger av de tre kolonnene som er beskrevet i denne delen.

Hvis du vil lære hvordan Power BI bruker ML.NET bak kulissene til å forstå data og overflateinnsikt på en naturlig måte, kan du se Power BI identifisere viktige påvirkere ved hjelp av ML.NET.

Hensyn og feilsøking

Hva er begrensningene for visualobjektet?

Visualobjektet for viktige påvirkere har noen begrensninger:

  • Direktespørring støttes ikke
  • Live-tilkobling til Azure Analysis Services og SQL Server Analysis Services støttes ikke
  • Publisering på nettet støttes ikke
  • .NET Framework 4.6 eller nyere kreves
  • Innebygging av SharePoint Online støttes ikke

Skjermbilde av rullegardinmenyvalg for numerisk spørsmål

Jeg ser en feil om at ingen påvirkere eller segmenter ble funnet. Hvorfor det?

Skjermbilde av feilmeldingen finner ingen påvirkere.

Denne feilen oppstår når du inkluderte felt i Explain by , men ingen påvirkere ble funnet.

  • Du inkluderte måleverdien du analyserte i både Analyser og Forklar etter. Fjern den fra Explain by.
  • De forklarende feltene har for mange kategorier med få observasjoner. Denne situasjonen gjør det vanskelig for visualiseringen å avgjøre hvilke faktorer som er påvirkere. Det er vanskelig å generalisere basert på bare noen få observasjoner. Hvis du analyserer et numerisk felt, kan det være lurt å bytte fra kategorisk analyse til kontinuerlig analyse i formateringsruten under Analyse-kortet .
  • Dine forklarende faktorer har nok observasjoner til å generalisere, men visualiseringen fant ingen meningsfulle korrelasjoner å rapportere.

Jeg ser en feil som måleverdien jeg analyserer, ikke har nok data til å kjøre analysen på. Hvorfor det?

Skjermbilde av feilmeldingen ikke nok data.

Visualiseringen fungerer ved å se på mønstre i dataene for én gruppe sammenlignet med andre grupper. Det ser for eksempel ut for kunder som ga lave vurderinger sammenlignet med kunder som ga høye vurderinger. Hvis dataene i modellen bare har noen få observasjoner, er mønstre vanskelige å finne. Hvis visualiseringen ikke har nok data til å finne meningsfulle påvirkere, angir den at mer data er nødvendig for å kjøre analysen.

Vi anbefaler at du har minst 100 observasjoner for den valgte tilstanden. I dette tilfellet er staten kunder som churn. Du trenger også minst 10 observasjoner for statene du bruker til sammenligning. I dette tilfellet er sammenligningstilstanden kunder som ikke faller fra.

Hvis du analyserer et numerisk felt, kan det være lurt å bytte fra kategorisk analyse til kontinuerlig analyse i formateringsruten under Analyse-kortet .

Jeg ser en feilmelding om at når Analyser ikke oppsummeres, kjører analysen alltid på radnivå i den overordnede tabellen. Det er ikke tillatt å endre dette nivået via «Utvid etter»-felt. Hvorfor det?

Når du analyserer en numerisk eller kategorisk kolonne, kjører analysen alltid på tabellnivå. Hvis du for eksempel analyserer huspriser og tabellen inneholder en ID-kolonne, kjøres analysen automatisk på hus-ID-nivå.

Når du analyserer et mål eller en oppsummert kolonne, må du eksplisitt angi hvilket nivå du vil at analysen skal kjøre på. Du kan bruke Utvid ved å endre analysenivået for mål og summerte kolonner uten å legge til nye påvirkere. Hvis husprisen ble definert som et mål, kan du legge til hus-ID-kolonnen til Utvid ved å endre nivået på analysen.

Jeg ser en feilmelding om at et felt i Explain by ikke er unikt relatert til tabellen som inneholder metrikkverdien jeg analyserer. Hvorfor det?

Analysen kjører på tabellnivået i feltet som analyseres. Hvis du for eksempel analyserer tilbakemeldinger fra kunder for tjenesten, kan det hende du har en tabell som forteller deg om en kunde ga en høy vurdering eller en lav vurdering. I dette tilfellet kjører analysen på kundetabellnivå.

Hvis du har en relatert tabell definert på et mer detaljert nivå enn tabellen som inneholder metrikkverdien, ser du denne feilen. Her er et eksempel:

  • Du analyserer hva som driver kundene til å gi lave vurderinger av tjenesten.
  • Du vil se om enheten kunden bruker tjenesten på, påvirker vurderingene de gir.
  • En kunde kan bruke tjenesten på flere forskjellige måter.
  • I eksemplet nedenfor bruker kunde 100000000 både en nettleser og et nettbrett til å samhandle med tjenesten.

Skjermbilde av en relatert tabell som er definert på et mer detaljert nivå enn tabellen som inneholder metrikkverdien.

Hvis du prøver å bruke enhetskolonnen som en forklarende faktor, ser du følgende feil:

Skjermbilde av feil kolonnefeilmelding.

Denne feilen vises fordi enheten ikke er definert på kundenivå. Én kunde kan bruke tjenesten på flere enheter. For at visualiseringen skal kunne finne mønstre, må enheten være et attributt for kunden. Det finnes flere løsninger som avhenger av din forståelse av virksomheten:

  • Du kan endre sammendraget av enheter til å telle. Bruk for eksempel antall hvis antall enheter kan påvirke poengsummen som en kunde gir.
  • Du kan pivotere enhetskolonnen for å se om bruk av tjenesten på en bestemt enhet påvirker kundens vurdering.

I dette eksemplet ble dataene pivotert for å opprette nye kolonner for nettleser, mobil og nettbrett (sørg for at du sletter og oppretter relasjonene dine på nytt i modelleringsvisningen etter at du har pivotert dataene). Du kan nå bruke disse bestemte enhetene i Explain by. Alle enheter viser seg å være påvirkere, og nettleseren har størst effekt på kundepoengsummen.

Mer nøyaktig, kunder som ikke bruker nettleseren til å bruke tjenesten er 3,79 ganger mer sannsynlig å gi en lav score enn kundene som gjør. Nederst ned i listen, for mobil er den inverse sann. Kunder som bruker mobilappen, har større sannsynlighet for å gi en lav poengsum enn kundene som ikke gjør det.

Skjermbilde som viser at mobilappen er mer sannsynlig å gi en lav poengsum.

Jeg ser en advarsel om at mål ikke var inkludert i analysen min. Hvorfor det?

Skjermbilde som viser mål som ikke er inkludert i feilmeldingen.

Analysen kjører på tabellnivået i feltet som analyseres. Hvis du analyserer kundefrafall, kan det hende du har en tabell som forteller deg om en kunde frafaller eller ikke. I dette tilfellet kjører analysen på kundetabellnivå.

Mål og aggregater analyseres som standard på tabellnivå. Hvis det var et mål for gjennomsnittlig månedlig forbruk, analyseres det på kundetabellnivå.

Hvis kundetabellen ikke har en unik identifikator, kan du ikke evaluere målet, og det ignoreres av analysen. Hvis du vil unngå denne situasjonen, må du kontrollere at tabellen med måleverdien har en unik identifikator. I dette tilfellet er det kundetabellen, og den unike identifikatoren er kunde-ID. Det er også enkelt å legge til en indekskolonne ved hjelp av Power Query.

Jeg ser en advarsel om at måleverdien jeg analyserer, har mer enn 10 unike verdier, og at dette beløpet kan påvirke kvaliteten på analysen. Hvorfor det?

Visualiseringen av kunstig intelligens kan analysere kategoriske felt og numeriske felt. For kategoriske felt kan et eksempel være Frafall er Ja eller Nei, og kundetilfredshet er høy, middels eller lav. Hvis du øker antall kategorier som skal analyseres, er det færre observasjoner per kategori. Denne situasjonen gjør det vanskeligere for visualiseringen å finne mønstre i dataene.

Når du analyserer numeriske felt, har du et valg mellom å behandle de numeriske feltene, for eksempel tekst, i så fall kjører du den samme analysen som du gjør for kategoriske data (kategorisk analyse). Hvis du har mange distinkte verdier, anbefaler vi at du bytter analysen til Kontinuerlig analyse , da det betyr at vi kan utlede mønstre fra når tallene øker eller reduseres i stedet for å behandle dem som distinkte verdier. Du kan bytte fra kategorisk analyse til kontinuerlig analyse i formateringsruten under Analyse-kortet .

Hvis du vil finne sterkere påvirkere, anbefaler vi at du grupperer lignende verdier i én enkelt enhet. Hvis du for eksempel har en metrikkverdi for pris, får du sannsynligvis bedre resultater ved å gruppere lignende priser i kategoriene Høy, Middels og Lav kontra individuelle prispunkter.

Skjermbilde som viser mer enn 10 unike faktorer advarsel.

Det er faktorer i dataene mine som ser ut som de bør være viktige påvirkere, men det er de ikke. Hvordan kan det skje?

I eksemplet nedenfor gir kunder som er forbrukere lave vurderinger, med 14,93 % av vurderingene som er lave. Administratorrollen har også en høy andel lave vurderinger, på 13,42 %, men den regnes ikke som en påvirker.

Årsaken til denne avgjørelsen er at visualiseringen også vurderer antall datapunkter når den finner påvirkere. Følgende eksempel har mer enn 29 000 forbrukere og 10 ganger færre administratorer, omtrent 2900. Bare 390 av dem ga en lav vurdering. Visualobjektet har ikke nok data til å avgjøre om det fant et mønster med administratorvurderinger eller om det bare er en sjanse for å finne.

Skjermbilde som viser hvordan påvirkere bestemmes.

Hva er datapunktgrensene for viktige påvirkere? Vi kjører analysen på et utvalg på 10 000 datapunkter. Boblene på den ene siden viser alle påvirkerne som ble funnet. Stolpediagrammene og punktplotene på den andre siden overholder samplingsstrategiene for disse kjernevisualobjektene.

Hvordan beregner du viktige påvirkere for kategorisk analyse?

Ai-visualiseringen bruker ML.NET til å kjøre en logistisk regresjon for å beregne viktige påvirkere bak kulissene. En logistisk regresjon er en statistisk modell som sammenligner forskjellige grupper med hverandre.

Hvis du vil se hva som driver lave vurderinger, ser den logistiske regresjonen på hvordan kunder som ga en lav poengsum, skiller seg fra kundene som ga en høy poengsum. Hvis du har flere kategorier, for eksempel høye, nøytrale og lave poengsummer, ser du på hvordan kundene som ga en lav vurdering, skiller seg fra kundene som ikke ga en lav vurdering. I dette tilfellet, hvordan skiller kundene som ga en lav poengsum, seg fra kundene som ga en høy vurdering eller en nøytral vurdering?

Den logistiske regresjonen søker etter mønstre i dataene og ser etter hvordan kunder som ga en lav vurdering, kan avvike fra kundene som ga en høy vurdering. Det kan for eksempel hende at kunder med flere støtteforespørsler gir en høyere prosentandel av lave vurderinger enn kunder med få eller ingen støtteforespørsler.

Den logistiske regresjonen vurderer også hvor mange datapunkter som finnes. Hvis for eksempel kunder som spiller en administratorrolle gir proporsjonalt flere negative poengsummer, men det bare er noen få administratorer, anses ikke denne faktoren som innflytelsesrik. Denne avgjørelsen gjøres fordi det ikke er nok datapunkter tilgjengelig til å utlede et mønster. En statistisk test, kjent som en Wald-test, brukes til å avgjøre om en faktor regnes som en påvirker. Visualobjektet bruker en p-verdi på 0,05 til å bestemme terskelen.

Hvordan beregner du viktige påvirkere for numerisk analyse?

I bakgrunnen bruker AI-visualiseringen ML.NET til å kjøre en lineær regresjon for å beregne viktige påvirkere. En lineær regresjon er en statistisk modell som ser på hvordan resultatet av feltet analyserer endringer basert på forklarende faktorer.

Hvis vi for eksempel analyserer boligprisene, ser en lineær regresjon på effekten av at det å ha et utmerket kjøkken hAs på husprisen. Har hus med utmerkede kjøkken generelt lavere eller høyere boligpriser sammenlignet med hus uten gode kjøkken?

Den lineære regresjonen vurderer også antall datapunkter. For eksempel, hvis hus med tennisbaner har høyere priser, men vi har få hus med en tennisbane, anses ikke denne faktoren som innflytelsesrik. Denne avgjørelsen gjøres fordi det ikke er nok datapunkter tilgjengelig til å utlede et mønster. En statistisk test, kjent som en Wald-test, brukes til å avgjøre om en faktor regnes som en påvirker. Visualobjektet bruker en p-verdi på 0,05 til å bestemme terskelen.

Hvordan beregner du segmenter?

I bakgrunnen bruker AI-visualiseringen ML.NET til å kjøre et beslutningstre for å finne interessante undergrupper. Målet med beslutningstreet er å ende opp med en undergruppe med datapunkter som er relativt høy i måleverdien du er interessert i. Det kan være kunder med lave rangeringer eller hus med høye priser.

Beslutningstreet tar hver forklarende faktor og prøver å resonnere hvilken faktor som gir den den beste splitten. Hvis du for eksempel filtrerer dataene slik at de bare inkluderer store bedriftskunder, skiller dette ut kunder som gav en høy vurdering kontra en lav vurdering? Eller er det kanskje bedre å filtrere dataene slik at de bare inkluderer kunder som kommenterte sikkerhet?

Når beslutningstreet har delt seg, tar det undergruppen med data og bestemmer den nest beste delingen for disse dataene. I dette tilfellet er undergruppen kunder som kommenterte sikkerheten. Etter hver deling vurderer beslutningstreet også om det har nok datapunkter for denne gruppen til å være representativt nok til å utlede et mønster. Hvis ikke, er det en anomali i dataene og ikke et reelt segment. En annen statistisk test brukes til å kontrollere den statistiske betydningen av den delte betingelsen med p-verdien 0,05.

Når beslutningstreet er ferdig med å kjøre, tar det alle delingene, for eksempel sikkerhetskommentarer og store virksomheter, og oppretter Power BI-filtre. Denne kombinasjonen av filtre pakkes opp som et segment i visualobjektet.

Hvorfor blir visse faktorer påvirkere eller slutter å være påvirkere når jeg flytter flere felt til Forklar etter-feltet?

Visualiseringen evaluerer alle forklarende faktorer sammen. En faktor kan være en påvirker av seg selv, men når det vurderes med andre faktorer, kan det ikke. La oss si at du vil analysere hva som driver en huspris til å være høy, med soverom og husstørrelse som forklarende faktorer:

  • I seg selv kan flere soverom være en sjåfør for boligprisene å være høy.
  • Inkludert husstørrelse i analysen betyr at du nå ser på hva som skjer med soverom mens husstørrelsen forblir konstant.
  • Hvis husstørrelsen er fast på 1500 kvadratmeter, er det lite sannsynlig at en kontinuerlig økning i antall soverom dramatisk øker husprisen.
  • Soverom er kanskje ikke så viktig for en faktor som det var før husstørrelsen ble vurdert.

Deling av rapporten med en Power BI-kollega krever at dere begge har individuelle Power BI Pro-lisenser eller at rapporten lagres i Premium-kapasitet. Se delingsrapporter.