Visualisaties van belangrijke beïnvloeders maken
VAN TOEPASSING OP: Power BI Desktop-Power BI-service
De visual belangrijkste beïnvloeders helpt u inzicht te hebben in de factoren die een metrische waarde stimuleren die u interesseert. Het analyseert uw gegevens, rangschikt de factoren die belangrijk zijn en geeft ze weer als belangrijkste beïnvloeders. Stel dat u wilt achterhalen wat invloed heeft op de omzet van werknemers, ook wel verloop genoemd. De ene factor kan de duur van het arbeidscontract zijn en een andere factor kan de reistijd zijn.
Wanneer belangrijkste beïnvloeders gebruiken
De visual belangrijkste beïnvloeders is een uitstekende keuze als u het volgende wilt doen:
- Bekijk welke factoren van invloed zijn op de metrische gegevens die worden geanalyseerd.
- Vergelijk het relatieve belang van deze factoren. Zijn contracten op korte termijn bijvoorbeeld van invloed op het verloop meer dan langetermijncontracten?
Functies van de visual belangrijkste beïnvloeders
Tabbladen: Selecteer een tabblad en schakel tussen weergaven. Belangrijke beïnvloeders tonen u de belangrijkste inzenders voor de geselecteerde metrische waarde. Topsegmenten tonen u de topsegmenten die bijdragen aan de geselecteerde metrische waarde. Een segment bestaat uit een combinatie van waarden. Een segment kan bijvoorbeeld consumenten zijn die langetermijnklanten zijn en wonen in de regio West.
Vervolgkeuzelijst: De waarde van de metrische waarde die wordt onderzocht. In dit voorbeeld bekijkt u de metrische waardering. De geselecteerde waarde is Laag.
Aanpassing: Hiermee kunt u de visual interpreteren in het linkerdeelvenster.
Linkerdeelvenster: het linkerdeelvenster bevat één visual. In dit geval wordt in het linkerdeelvenster een lijst weergegeven met de belangrijkste beïnvloeders.
Aanpassing: Hiermee kunt u de visual in het rechterdeelvenster interpreteren.
Rechterdeelvenster: het rechterdeelvenster bevat één visual. In dit geval worden in het kolomdiagram alle waarden weergegeven voor het thema van de belangrijkste beïnvloeder die is geselecteerd in het linkerdeelvenster. De specifieke waarde van bruikbaarheid in het linkerdeelvenster wordt groen weergegeven. Alle andere waarden voor Thema worden zwart weergegeven.
Gemiddelde regel: Het gemiddelde wordt berekend voor alle mogelijke waarden voor Thema , behalve bruikbaarheid (de geselecteerde beïnvloeder). De berekening is dus van toepassing op alle waarden in het zwart. Er wordt aangegeven welk percentage van de andere thema's een lage waardering heeft. In dit geval had 11,35% een lage waardering (weergegeven door de stippellijn).
Selectievakje: filtert de visual uit in het rechterdeelvenster om alleen waarden weer te geven die beïnvloeders voor dat veld zijn. In dit voorbeeld wordt de visual gefilterd om bruikbaarheid, beveiliging en navigatie weer te geven.
Een metrische waarde analyseren die categorisch is
- Uw productmanager wil dat u weet welke factoren ertoe leiden dat klanten negatieve beoordelingen over uw cloudservice achterlaten. Als u mee wilt doen in Power BI Desktop, opent u het PBIX-bestand klantenfeedback.
Notitie
De gegevensset Feedback van klanten is gebaseerd op [Moro et al., 2014] S. Moro, P. Cortez en P. Rita. "Een gegevensgestuurde benadering om het succes van banktelemarketing te voorspellen." Decision Support Systems, Elsevier, 62:22-31, juni 2014.
Selecteer onder Visual Bouwen in het deelvenster Visualisaties het pictogram Belangrijkste beïnvloeders.
Verplaats de metrische waarde die u wilt onderzoeken naar het veld Analyseren . Als u wilt zien wat de waardering van de klant van de service laag maakt, selecteert u Classificatie van klanttabellen>.
Verplaats velden die u denkt, mogelijk invloed hebben op waardering in het veld Uitleg per. U kunt zoveel velden verplaatsen als u wilt. In dit geval begint u met:
- Land-regio
- Rol in organisatie
- Abonnementstype
- Bedrijfsgrootte
- Thema
Laat het veld Uitvouwen op leeg. Dit veld wordt alleen gebruikt bij het analyseren van een meting of een samengevat veld.
Als u zich wilt richten op de negatieve waarderingen, selecteert u Laag in de vervolgkeuzelijst Wat invloed heeft op waardering.
De analyse wordt uitgevoerd op het tabelniveau van het veld dat wordt geanalyseerd. In dit geval is dit de metrische waarde Rating . Deze metrische waarde wordt gedefinieerd op klantniveau. Elke klant geeft een hoge score of een lage score. Alle verklarende factoren moeten worden gedefinieerd op klantniveau, zodat de visual deze kan gebruiken.
In het vorige voorbeeld hebben alle verklarende factoren ofwel een een-op-een- of een veel-op-een-relatie met de metrische waarde. In dit geval heeft elke klant één thema toegewezen aan hun beoordeling. Op dezelfde manier komen klanten uit één land of regio, hebben één lidmaatschapstype en hebben ze één rol in hun organisatie. De verklarende factoren zijn al kenmerken van een klant en er zijn geen transformaties nodig. De visual kan er direct gebruik van maken.
Verderop in de zelfstudie bekijkt u complexere voorbeelden met een-op-veel-relaties. In die gevallen moeten de kolommen eerst worden samengevoegd tot het niveau van de klant voordat u de analyse kunt uitvoeren.
Metingen en aggregaties die als verklarende factoren worden gebruikt, worden ook geëvalueerd op tabelniveau van de metrische waarde Analyseren . Verderop in dit artikel worden enkele voorbeelden weergegeven.
Categorische belangrijkste beïnvloeders interpreteren
Laten we eens kijken naar de belangrijkste beïnvloeders voor lage waarderingen.
Belangrijkste enkele factor die de kans op een lage waardering beïnvloedt
De klant in dit voorbeeld kan drie rollen hebben: consument, beheerder en uitgever. Een consument is de belangrijkste factor die bijdraagt aan een lage waardering.
Om precies te zijn, zijn uw consumenten 2,57 keer vaker geneigd om uw service een negatieve score te geven. De grafiek belangrijkste beïnvloeders vermeldt rol in de organisatie als eerste in de lijst aan de linkerkant. Als u Rol in organisatie selecteert, wordt in Power BI meer details weergegeven in het rechterdeelvenster. Het vergelijkende effect van elke rol op de waarschijnlijkheid van een lage waardering wordt weergegeven.
- 14,93% van de consumenten geeft een lage score.
- Gemiddeld geven alle andere rollen een lage score van 5,78% van de tijd.
- Consumenten hebben 2,57 keer meer kans om een lage score te geven in vergelijking met alle andere rollen. U kunt deze score bepalen door de groene balk te delen door de rode stippellijn.
Tweede enkele factor die de kans op een lage waardering beïnvloedt
De visual belangrijkste beïnvloeders vergelijkt en rangschikt factoren uit veel verschillende variabelen. De tweede beïnvloeder heeft niets te maken met Role in Org. Selecteer de tweede beïnvloeder in de lijst, namelijk Thema is bruikbaarheid.
De tweede belangrijkste factor is gerelateerd aan het thema van de beoordeling van de klant. Klanten die commentaar hebben gegeven over de bruikbaarheid van het product, waren 2,55 keer vaker geneigd een lage score te geven in vergelijking met klanten die opmerkingen hadden over andere thema's, zoals betrouwbaarheid, ontwerp of snelheid.
Tussen de visuals is het gemiddelde, dat wordt weergegeven door de rode stippellijn, gewijzigd van 5,78% in 11,35%. Het gemiddelde is dynamisch omdat het is gebaseerd op het gemiddelde van alle andere waarden. Voor de eerste beïnvloeder heeft het gemiddelde de rol van de klant uitgesloten. Voor de tweede beïnvloeder werd het bruikbaarheidsthema uitgesloten.
Schakel het selectievakje Alleen waarden weergeven die beïnvloeders zijn in om te filteren met behulp van alleen de invloedrijke waarden. In dit geval zijn dit de rollen die een lage score aansturen. Twaalf thema's worden gereduceerd tot de vier thema's die door Power BI zijn geïdentificeerd als de thema's die lage waarderingen stimuleren.
Interactie met andere visuals
Telkens wanneer u een slicer, filter of andere visual op het canvas selecteert, voert de visual belangrijkste beïnvloeders de analyse opnieuw uit op het nieuwe gedeelte van de gegevens. U kunt bijvoorbeeld bedrijfsgrootte naar het rapport verplaatsen en als slicer gebruiken. Gebruik deze om te zien of de belangrijkste beïnvloeders voor uw zakelijke klanten afwijken van de algemene populatie. Een bedrijfsgrootte is groter dan 50.000 werknemers.
Selecteer >50.000 om de analyse opnieuw uit te voeren en u kunt zien dat de beïnvloeders zijn gewijzigd. Voor grote zakelijke klanten heeft de belangrijkste beïnvloeder voor lage waarderingen een thema met betrekking tot beveiliging. Mogelijk wilt u verder onderzoeken of er specifieke beveiligingsfuncties zijn waar uw grote klanten ongelukkig over zijn.
Continue belangrijkste beïnvloeders interpreteren
Tot nu toe hebt u geleerd hoe u de visual kunt gebruiken om te verkennen hoe verschillende categorische velden van invloed zijn op lage waarderingen. Het is ook mogelijk om doorlopende factoren te hebben, zoals leeftijd, hoogte en prijs in het veld Uitleg per . Laten we eens kijken wat er gebeurt wanneer Tenure wordt verplaatst van de tabel Klant naar Uitleg door. Tenure geeft weer hoe lang een klant gebruikmaakt van de service.
Naarmate de gebruiksduur toeneemt, neemt de kans op een lagere waardering ook toe. Deze trend geeft aan dat de langere termijn klanten waarschijnlijk een negatieve score zullen geven. Dit inzicht is interessant en een die u mogelijk later wilt opvolgen.
In de visualisatie ziet u dat elke periode met 13,44 maanden toeneemt, gemiddeld de kans op een lage waardering met 1,23 keer toeneemt. In dit geval geven 13,44 maanden de standaarddeviatie van de diensttijd weer. Het inzicht dat u ontvangt, kijkt dus naar hoe het verhogen van de gebruiksduur met een standaardbedrag, de standaarddeviatie van de diensttijd, van invloed is op de kans dat een lage waardering wordt ontvangen.
In het spreidingsplot in het rechterdeelvenster wordt het gemiddelde percentage lage waarderingen voor elke waarde van duur uitgezet. De helling wordt gemarkeerd met een trendlijn.
Binned continuous key influencers
In sommige gevallen is het mogelijk dat uw doorlopende factoren automatisch zijn omgezet in categorische factoren. Als de relatie tussen de variabelen niet lineair is, kunnen we de relatie niet als gewoon vergroten of verlagen beschrijven (zoals in het vorige voorbeeld).
We voeren correlatietests uit om te bepalen hoe lineair de beïnvloeder wordt vergeleken met het doel. Als het doel continu is, voeren we Pearson-correlatie uit en als het doel categorisch is, voeren we Point Biserial-correlatietests uit. Als we detecteren dat de relatie niet voldoende lineair is, voeren we binning onder supervisie uit en genereren we maximaal vijf bins. Om erachter te komen welke bins het meest zinvol zijn, gebruiken we een binning-methode onder supervisie. De methode binning onder supervisie kijkt naar de relatie tussen de verklarende factor en het doel dat wordt geanalyseerd.
Metingen en aggregaties interpreteren als belangrijkste beïnvloeders
U kunt metingen en aggregaties gebruiken als verklarende factoren in uw analyse. Welk effect heeft bijvoorbeeld het aantal klantondersteuningstickets op de score die u ontvangt. Of welk effect heeft de gemiddelde duur van een open ticket op de score die u ontvangt.
In dit geval wilt u zien of het aantal ondersteuningstickets dat een klant heeft invloed heeft op de score die ze geven. Nu haalt u de ondersteuningsticket-id op uit de tabel met ondersteuningstickets. Omdat een klant meerdere ondersteuningstickets kan hebben, voegt u de id samen op klantniveau. Aggregatie is belangrijk omdat de analyse wordt uitgevoerd op klantniveau, dus alle stuurprogramma's moeten worden gedefinieerd op dat granulariteitsniveau.
Laten we eens kijken naar het aantal id's. Aan elke klantrij is een aantal ondersteuningstickets gekoppeld. Naarmate het aantal ondersteuningstickets toeneemt, neemt de kans dat de waardering laag is 4,08 keer toe. In de schermopname ziet u het gemiddelde aantal ondersteuningstickets op basis van verschillende waarderingswaarden die op klantniveau worden geëvalueerd.
De resultaten interpreteren: Topsegmenten
U kunt het tabblad Belangrijkste beïnvloeders gebruiken om elke factor afzonderlijk te beoordelen. U kunt ook het tabblad Topsegmenten gebruiken om te zien hoe een combinatie van factoren van invloed is op de metrische gegevens die u analyseert.
Topsegmenten geven in eerste instantie een overzicht weer van alle segmenten die door Power BI zijn gedetecteerd. In het volgende voorbeeld ziet u dat er zes segmenten zijn gevonden. Het percentage lage waarderingen binnen het segment bepaalt de rangorde. Segment 1 heeft bijvoorbeeld 74,3% klantbeoordelingen die laag zijn. Hoe hoger de bel, hoe hoger het aandeel lage waarderingen. De grootte van de bel geeft aan hoeveel klanten zich in het segment bevinden.
Als u een bel selecteert, worden de details van dat segment weergegeven. Als u bijvoorbeeld Segment 1 selecteert, ziet u dat het gevestigde klanten vertegenwoordigt. Ze zijn al meer dan 29 maanden klanten en hebben meer dan vier ondersteuningstickets. Ten slotte zijn ze geen uitgevers, dus ze zijn consumenten of beheerders.
In deze groep gaf 74,3% van de klanten een lage waardering. De gemiddelde klant gaf een lage waardering van 11,7% van de tijd, dus dit segment heeft een groter aandeel lage waarderingen. Het is 63 procent hoger. Segment 1 bevat ook ongeveer 2,2% van de gegevens, dus het vertegenwoordigt een adresseerbaar deel van de populatie.
Aantallen toevoegen
Soms kan een beïnvloeder een aanzienlijk effect hebben, maar weinig van de gegevens vertegenwoordigen. Thema is bijvoorbeeld de derde grootste beïnvloeder voor lage waarderingen. Er is echter mogelijk slechts een handvol klanten geweest die klaagden over bruikbaarheid. Aantallen kunnen u helpen prioriteit te geven aan de beïnvloeders waarop u zich wilt richten.
U kunt tellingen inschakelen via de analysekaart van het opmaakvenster.
Nadat het aantal is ingeschakeld, ziet u een ring rond de bel van elke beïnvloeder, die het geschatte percentage gegevens vertegenwoordigt dat de beïnvloeder bevat. Hoe meer van de bel de cirkels zijn, hoe meer gegevens deze bevat. We kunnen zien dat thema bruikbaarheid een klein deel van de gegevens bevat.
U kunt ook de wisselknop Sorteren op in de linkerbenedenhoek van de visual gebruiken om de bellen eerst te sorteren op telling in plaats van impact. Abonnementstype is Premier is de belangrijkste beïnvloeder op basis van het aantal.
Een volledige ring rond de cirkel betekent dat de beïnvloeder 100% van de gegevens bevat. U kunt het aantaltype wijzigen in verhouding tot de maximale beïnvloeder met behulp van de vervolgkeuzelijst Aantaltype in de analysekaart van het opmaakvenster. De beïnvloeder met de meeste hoeveelheid gegevens wordt nu weergegeven door een volledige ring en alle andere aantallen zijn relatief.
Een metrische waarde analyseren die numeriek is
Als u een niet-samengevat numeriek veld naar het veld Analyseren verplaatst, kunt u kiezen hoe u dat scenario kunt afhandelen. U kunt het gedrag van de visual wijzigen door naar het opmaakvenster te gaan en te schakelen tussen categorisch analysetype en doorlopend analysetype.
Een categorisch analysetype wordt eerder in dit artikel beschreven. Als u bijvoorbeeld enquêtescores bekijkt, variërend van 1 tot 10, kunt u vragen 'Welke invloed heeft de enquêtescores op 1?'
Een type continue analyse wijzigt de vraag in een doorlopend type. In het vorige voorbeeld is onze nieuwe vraag 'Wat is van invloed op enquêtescores om te verhogen/verlagen?'
Dit onderscheid is handig wanneer u veel unieke waarden in het veld hebt dat u analyseert. In het volgende voorbeeld kijken we naar huizenprijzen. Het is niet zinvol om te vragen "Welke invloed heeft de huizenprijs op 156.214?" omdat dat specifiek is en we waarschijnlijk niet voldoende gegevens hebben om een patroon af te leiden.
In plaats daarvan willen we misschien vragen: "Wat beïnvloedt huizenprijs om te verhogen", waardoor we huizenprijzen als een bereik kunnen behandelen in plaats van afzonderlijke waarden.
De resultaten interpreteren: Belangrijkste beïnvloeders
Notitie
In de voorbeelden in deze sectie worden gegevens over de prijzen van openbare domeinen gebruikt. U kunt de voorbeeldgegevensset downloaden als u mee wilt doen.
In dit scenario kijken we naar 'Wat is van invloed op de huizenprijs om te verhogen'. Een aantal verklarende factoren kan van invloed zijn op een woningprijs zoals Year Built (jaar dat het huis werd gebouwd), KitchenQual (keukenkwaliteit) en YearRemodAdd (jaar dat het huis werd gerenoveerd).
In het onderstaande voorbeeld kijken we naar onze belangrijkste beïnvloeder, die keukenkwaliteit Uitstekend is. De resultaten zijn vergelijkbaar met de resultaten die we zagen toen we categorische metrische gegevens analyseerden met enkele belangrijke verschillen:
- Het kolomdiagram aan de rechterkant bekijkt de gemiddelden in plaats van percentages. Het laat ons daarom zien wat de gemiddelde woningprijs van een huis met een uitstekende keuken is (groene bar) vergeleken met de gemiddelde woningprijs van een huis zonder een uitstekende keuken (stippellijn)
- Het getal in de bel is nog steeds het verschil tussen de rode stippellijn en de groene balk, maar wordt uitgedrukt als een getal ($ 158,49K) in plaats van een waarschijnlijkheid (1,93x). Huizen met uitstekende keukens zijn dus gemiddeld bijna $ 160 K duurder dan huizen zonder uitstekende keukens.
In het onderstaande voorbeeld kijken we naar de impact die een doorlopende factor (jaar huis is hermodelleerd) heeft op de woningprijs. De verschillen ten opzichte van hoe we continue beïnvloeders analyseren voor categorische metrische gegevens zijn als volgt:
- In het spreidingsplot in het rechterdeelvenster wordt de gemiddelde huizenprijs voor elke afzonderlijke waarde van het jaar opnieuw ingericht.
- De waarde in de bel laat zien hoeveel de gemiddelde huizenprijs toeneemt (in dit geval $ 2,87k) wanneer het jaar waarop het huis is gerenoveerd, toeneemt met de standaarddeviatie (in dit geval 20 jaar)
Ten slotte kijken we in het geval van metingen naar het gemiddelde jaar dat er een huis is gebouwd. De analyse is als volgt:
- In het spreidingsdiagram in het rechterdeelvenster wordt de gemiddelde huizenprijs voor elke afzonderlijke waarde in de tabel uitgebouwd
- De waarde in de bel laat zien hoeveel de gemiddelde huizenprijs toeneemt (in dit geval $ 1,35 K) wanneer het gemiddelde jaar toeneemt met de standaarddeviatie (in dit geval 30 jaar)
De resultaten interpreteren: Topsegmenten
Topsegmenten voor numerieke doelen tonen groepen waar de huizenprijzen gemiddeld hoger zijn dan in de algemene gegevensset. Hieronder ziet u bijvoorbeeld dat Segment 1 bestaat uit huizen waarin GarageCars (aantal auto's dat de garage kan passen) groter is dan 2 en de RoofStyle Hip is. Huizen met deze kenmerken hebben een gemiddelde prijs van $ 355 K in vergelijking met het totale gemiddelde in de gegevens die $ 180 K zijn.
Een metrische waarde analyseren die een meting of een samengevatte kolom is
Voor een meting of samengevatte kolom wordt de analyse standaard ingesteld op het type continue analyse dat eerder in dit artikel is beschreven. Deze waarde kan niet worden gewijzigd. Het grootste verschil tussen het analyseren van een meting/samengevatte kolom en een niet-samengevatte numerieke kolom is het niveau waarop de analyse wordt uitgevoerd.
Voor niet-samengevatte kolommen wordt de analyse altijd uitgevoerd op tabelniveau. In het voorbeeld van de woningprijs hebben we de metrische woningprijs geanalyseerd om te zien wat invloed heeft op een woningprijs om te stijgen/dalen. De analyse wordt automatisch uitgevoerd op tabelniveau. Onze tabel heeft een unieke id voor elk huis, zodat de analyse op huisniveau wordt uitgevoerd.
Voor metingen en samengevatte kolommen weten we niet meteen op welk niveau ze moeten worden geanalyseerd. Als de woningprijs als gemiddelde is samengevat, moeten we overwegen welk niveau we zouden willen berekenen voor deze gemiddelde woningprijs. Is het de gemiddelde woningprijs op wijkniveau? Of misschien een regionaal niveau?
Metingen en samengevatte kolommen worden automatisch geanalyseerd op het niveau van de uitleg door velden die worden gebruikt. Stel dat we drie velden willen onderzoeken in Uitleg door: Keukenkwaliteit, Bouwtype en Airconditioning. De gemiddelde woningprijs wordt berekend voor elke unieke combinatie van deze drie velden. Het is vaak handig om over te schakelen naar een tabelweergave om te kijken hoe de gegevens eruitzien die worden geëvalueerd.
Deze analyse is zeer samengevat en het kan dus moeilijk zijn voor het regressiemodel om patronen te vinden in de gegevens waaruit ze kunnen leren. We moeten de analyse op een gedetailleerder niveau uitvoeren om betere resultaten te krijgen. Als we de woningprijs op huisniveau willen analyseren, moeten we het id-veld expliciet toevoegen aan de analyse. Toch willen we niet dat de huis-id als beïnvloeder wordt beschouwd. Het is niet handig om te leren dat als huis-id toeneemt, de prijs van een huistoename. De optie Uitvouwen op veldbron komt hier van pas. U kunt Uitbreiden door gebruiken om velden toe te voegen die u wilt gebruiken voor het instellen van het niveau van de analyse zonder dat u op zoek bent naar nieuwe beïnvloeders.
Bekijk hoe de visualisatie eruitziet zodra we de id hebben toegevoegd om uit te vouwen door. Zodra u het niveau definieert waarop de meting moet worden geëvalueerd, is het interpreteren van beïnvloeders precies hetzelfde als voor niet-samengevatte numerieke kolommen.
Als u wilt weten hoe Power BI ML.NET achter de schermen gebruikt om gegevens en inzichten op een natuurlijke manier te berekent, raadpleegt u power BI belangrijke beïnvloeders identificeert met behulp van ML.NET.
Overwegingen en probleemoplossing
Wat zijn de beperkingen voor de visual?
De visual belangrijkste beïnvloeders heeft enkele beperkingen:
- Direct Query wordt niet ondersteund
- Liveverbinding met Azure Analysis Services en SQL Server Analysis Services wordt niet ondersteund
- Publiceren op internet wordt niet ondersteund
- .NET Framework 4.6 of hoger is vereist
- Insluiten in SharePoint Online wordt niet ondersteund
Er wordt een foutbericht weergegeven dat er geen beïnvloeders of segmenten zijn gevonden. Waarom is dat?
Deze fout treedt op wanneer u velden in Uitleg door hebt opgenomen, maar er geen beïnvloeders zijn gevonden.
- U hebt de metrische gegevens opgenomen die u analyseerde in zowel Analyseren als Uitleggen door. Verwijder het uit Uitleg door.
- Uw verklarende velden hebben te veel categorieën met weinig waarnemingen. Deze situatie maakt het moeilijk voor de visualisatie om te bepalen welke factoren beïnvloeders zijn. Het is moeilijk om te generaliseren op basis van slechts een paar waarnemingen. Als u een numeriek veld analyseert, kunt u overschakelen van categorische analyse naar continue analyse in het opmaakdeelvenster onder de analysekaart.
- Uw verklarende factoren hebben voldoende waarnemingen om te generaliseren, maar de visualisatie heeft geen zinvolle correlaties gevonden om te rapporteren.
Er wordt een fout weergegeven waarop de metrische gegevens die ik analyseer, onvoldoende gegevens bevatten om de analyse uit te voeren. Waarom is dat?
De visualisatie werkt door patronen in de gegevens voor de ene groep te bekijken in vergelijking met andere groepen. Het zoekt bijvoorbeeld naar klanten die lage waarderingen hebben gegeven in vergelijking met klanten die hoge waarderingen hebben gegeven. Als de gegevens in uw model slechts enkele waarnemingen bevatten, zijn patronen moeilijk te vinden. Als de visualisatie onvoldoende gegevens heeft om zinvolle beïnvloeders te vinden, geeft deze aan dat er meer gegevens nodig zijn om de analyse uit te voeren.
U wordt aangeraden ten minste 100 waarnemingen voor de geselecteerde status te hebben. In dit geval is de status klanten die het verloop hebben. U hebt ook ten minste 10 waarnemingen nodig voor de statussen die u voor vergelijking gebruikt. In dit geval is de vergelijkingsstatus klanten die geen verloop hebben.
Als u een numeriek veld analyseert, kunt u overschakelen van categorische analyse naar continue analyse in het opmaakdeelvenster onder de analysekaart.
Ik zie een fout dat wanneer Analyseren niet wordt samengevat, de analyse altijd wordt uitgevoerd op rijniveau van de bovenliggende tabel. Het wijzigen van dit niveau via velden Uitvouwen op is niet toegestaan. Waarom is dat?
Bij het analyseren van een numerieke of categorische kolom wordt de analyse altijd uitgevoerd op tabelniveau. Als u bijvoorbeeld huizenprijzen analyseert en uw tabel een id-kolom bevat, wordt de analyse automatisch uitgevoerd op huis-id-niveau.
Wanneer u een meting of samengevatte kolom analyseert, moet u expliciet aangeven op welk niveau de analyse moet worden uitgevoerd. U kunt Uitbreiden gebruiken om het niveau van de analyse voor metingen en samengevatte kolommen te wijzigen zonder nieuwe beïnvloeders toe te voegen. Als de woningprijs is gedefinieerd als een meting, kunt u de kolom huis-id toevoegen aan Uitbreiden door het niveau van de analyse te wijzigen.
Ik zie een fout dat een veld in Uitleg door niet uniek is gerelateerd aan de tabel die de metrische waarde bevat die ik analyseer. Waarom is dat?
De analyse wordt uitgevoerd op het tabelniveau van het veld dat wordt geanalyseerd. Als u bijvoorbeeld feedback van klanten voor uw service analyseert, hebt u mogelijk een tabel die aangeeft of een klant een hoge waardering of een lage waardering heeft gegeven. In dit geval wordt uw analyse uitgevoerd op het niveau van de klanttabel.
Als u een gerelateerde tabel hebt gedefinieerd op een gedetailleerder niveau dan de tabel die uw metrische gegevens bevat, ziet u deze fout. Hier volgt een voorbeeld:
- U analyseert wat klanten ertoe aanstuurt om een lage waardering van uw service te geven.
- U wilt zien of het apparaat waarop de klant uw service gebruikt invloed heeft op de beoordelingen die ze geven.
- Een klant kan de service op verschillende manieren gebruiken.
- In het volgende voorbeeld gebruikt klant 10000000 zowel een browser als een tablet om met de service te communiceren.
Als u de apparaatkolom als verklarende factor probeert te gebruiken, ziet u de volgende fout:
Deze fout wordt weergegeven omdat het apparaat niet is gedefinieerd op klantniveau. Eén klant kan de service op meerdere apparaten gebruiken. Om patronen te kunnen vinden, moet het apparaat een kenmerk van de klant zijn. Er zijn verschillende oplossingen die afhankelijk zijn van uw kennis van het bedrijf:
- U kunt de samenvatting van apparaten wijzigen om te tellen. Gebruik bijvoorbeeld aantal als het aantal apparaten van invloed kan zijn op de score die een klant geeft.
- U kunt de kolom van het apparaat draaien om te zien of het verbruik van de service op een specifiek apparaat invloed heeft op de waardering van een klant.
In dit voorbeeld zijn de gegevens gedraaid om nieuwe kolommen te maken voor browser, mobiel en tablet (zorg ervoor dat u uw relaties in de modelweergave verwijdert en opnieuw maakt nadat u uw gegevens hebt gedraaid). U kunt deze specifieke apparaten nu gebruiken in Uitleg door. Alle apparaten blijken beïnvloeders te zijn en de browser heeft het grootste effect op de klantscore.
Klanten die de browser niet gebruiken om de service te gebruiken, zijn 3,79 keer vaker geneigd een lage score te geven dan de klanten die dat doen. Lager in de lijst, voor mobiele apparaten is de inverse waar. Klanten die de mobiele app gebruiken, geven waarschijnlijk een lage score dan de klanten die dat niet doen.
Ik zie een waarschuwing dat metingen niet zijn opgenomen in mijn analyse. Waarom is dat?
De analyse wordt uitgevoerd op het tabelniveau van het veld dat wordt geanalyseerd. Als u klantverloop analyseert, hebt u mogelijk een tabel die aangeeft of een klant al dan niet is verlopen. In dit geval wordt uw analyse uitgevoerd op het niveau van de klanttabel.
Metingen en aggregaties worden standaard geanalyseerd op tabelniveau. Als er een meting is voor de gemiddelde maandelijkse uitgaven, wordt deze geanalyseerd op het niveau van de klanttabel.
Als de klanttabel geen unieke id heeft, kunt u de meting niet evalueren en wordt deze genegeerd door de analyse. Om deze situatie te voorkomen, moet u ervoor zorgen dat de tabel met uw metrische gegevens een unieke id heeft. In dit geval is dit de klanttabel en de unieke id klant-id. Het is ook eenvoudig om een indexkolom toe te voegen met behulp van Power Query.
Ik zie een waarschuwing dat de metrische waarde die ik analyseer meer dan 10 unieke waarden heeft en dat dit bedrag van invloed kan zijn op de kwaliteit van mijn analyse. Waarom is dat?
De AI-visualisatie kan categorische velden en numerieke velden analyseren. Voor categorische velden is het verloop bijvoorbeeld Ja of Nee, en Klanttevredenheid is Hoog, Gemiddeld of Laag. Als u het aantal te analyseren categorieën verhoogt, betekent dit dat er minder waarnemingen per categorie zijn. Deze situatie maakt het moeilijker voor de visualisatie om patronen in de gegevens te vinden.
Bij het analyseren van numerieke velden kunt u kiezen tussen het behandelen van de numerieke velden, zoals tekst, in welk geval u dezelfde analyse uitvoert als voor categorische gegevens (Categorische analyse). Als u veel afzonderlijke waarden hebt, raden we u aan om de analyse over te schakelen naar Continue analyse . Dit betekent dat we patronen kunnen afleiden van wanneer getallen toenemen of afnemen in plaats van ze als afzonderlijke waarden te behandelen. U kunt overschakelen van categorische analyse naar continue analyse in het opmaakvenster onder de kaart Analyse .
Als u sterkere beïnvloeders wilt vinden, raden we u aan vergelijkbare waarden in één eenheid te groeperen. Als u bijvoorbeeld een metrische waarde voor prijs hebt, krijgt u waarschijnlijk betere resultaten door vergelijkbare prijzen te groeperen in categorieën Hoog, Gemiddeld en Laag versus het gebruik van afzonderlijke prijspunten.
Er zijn factoren in mijn gegevens die eruitzien alsof ze belangrijke beïnvloeders moeten zijn, maar dat zijn ze niet. Hoe kan dat gebeuren?
In het volgende voorbeeld stimuleren klanten die consumenten zijn lage waarderingen, met 14,93% van de waarderingen die laag zijn. De beheerdersrol heeft ook een hoog aandeel lage waarderingen, op 13,42%, maar wordt niet beschouwd als een beïnvloeder.
De reden voor deze bepaling is dat de visualisatie ook rekening houdt met het aantal gegevenspunten wanneer er beïnvloeders worden gevonden. Het volgende voorbeeld heeft meer dan 29.000 consumenten en 10 keer minder beheerders, ongeveer 2900. Slechts 390 van hen gaven een lage waardering. De visual beschikt niet over voldoende gegevens om te bepalen of er een patroon is gevonden met beheerdersclassificaties of als het slechts een kans is om te vinden.
Wat zijn de limieten voor gegevenspunten voor belangrijke beïnvloeders? We voeren de analyse uit op een steekproef van 10.000 gegevenspunten. De bellen aan de ene kant tonen alle beïnvloeders die zijn gevonden. De kolomdiagrammen en spreidingsdiagrammen aan de andere kant houden zich aan de samplingstrategieën voor die kernvisuals.
Hoe berekent u de belangrijkste beïnvloeders voor categorische analyse?
Achter de schermen gebruikt de AI-visualisatie ML.NET om een logistieke regressie uit te voeren om de belangrijkste beïnvloeders te berekenen. Een logistieke regressie is een statistisch model dat verschillende groepen met elkaar vergelijkt.
Als u wilt zien wat lage waarderingen aanstuurt, kijkt de logistieke regressie naar hoe klanten die een lage score gaven verschillen van de klanten die een hoge score gaven. Als u meerdere categorieën hebt, zoals hoge, neutrale en lage scores, bekijkt u hoe de klanten die een lage waardering gaven verschillen van de klanten die geen lage waardering gaven. In dit geval verschillen de klanten die een lage score gaven van de klanten die een hoge waardering of een neutrale waardering gaven?
De logistieke regressie zoekt naar patronen in de gegevens en zoekt naar hoe klanten die een lage waardering hebben gegeven, kunnen verschillen van de klanten die een hoge waardering hebben gegeven. Het kan bijvoorbeeld zijn dat klanten met meer ondersteuningstickets een hoger percentage lage waarderingen geven dan klanten met weinig of geen ondersteuningstickets.
De logistieke regressie houdt ook rekening met het aantal gegevenspunten. Als klanten die een beheerdersrol spelen bijvoorbeeld proportioneel negatievere scores geven, maar er slechts een paar beheerders zijn, wordt deze factor niet als invloedrijk beschouwd. Deze bepaling wordt gemaakt omdat er onvoldoende gegevenspunten beschikbaar zijn om een patroon af te leiden. Een statistische test, ook wel een Wald-test genoemd, wordt gebruikt om te bepalen of een factor wordt beschouwd als een beïnvloeder. De visual gebruikt een p-waarde van 0,05 om de drempelwaarde te bepalen.
Hoe berekent u belangrijke beïnvloeders voor numerieke analyse?
Achter de schermen gebruikt de AI-visualisatie ML.NET om een lineaire regressie uit te voeren om de belangrijkste beïnvloeders te berekenen. Een lineaire regressie is een statistisch model dat bekijkt hoe het resultaat van het veld dat u analyseert wijzigingen analyseert op basis van uw verklarende factoren.
Als we bijvoorbeeld huizenprijzen analyseren, kijkt een lineaire regressie naar het effect dat een uitstekende keuken hAs op de woningprijs heeft. Hebben huizen met uitstekende keukens over het algemeen lagere of hogere huizenprijzen in vergelijking met huizen zonder uitstekende keukens?
De lineaire regressie houdt ook rekening met het aantal gegevenspunten. Als huizen met tennisbanen bijvoorbeeld hogere prijzen hebben, maar we weinig huizen hebben met een tennisbaan, wordt deze factor niet beschouwd als invloedrijk. Deze bepaling wordt gemaakt omdat er onvoldoende gegevenspunten beschikbaar zijn om een patroon af te leiden. Een statistische test, ook wel een Wald-test genoemd, wordt gebruikt om te bepalen of een factor wordt beschouwd als een beïnvloeder. De visual gebruikt een p-waarde van 0,05 om de drempelwaarde te bepalen.
Hoe berekent u segmenten?
Achter de schermen gebruikt de AI-visualisatie ML.NET om een beslissingsstructuur uit te voeren om interessante subgroepen te vinden. Het doel van de beslissingsstructuur is om te eindigen met een subgroep van gegevenspunten die relatief hoog zijn in de metrische gegevens waarin u geïnteresseerd bent. Het kunnen klanten zijn met lage waarderingen of huizen met hoge prijzen.
De beslissingsstructuur neemt elke verklarende factor en probeert te berekent welke factor de beste splitsing geeft. Als u bijvoorbeeld de gegevens filtert om alleen grote zakelijke klanten op te nemen, wordt dat gescheiden door klanten die een hoge waardering hebben gegeven versus een lage waardering? Of misschien is het beter om de gegevens te filteren op alleen klanten die commentaar hebben gegeven over beveiliging?
Nadat de beslissingsstructuur een splitsing heeft uitgevoerd, wordt de subgroep met gegevens gebruikt en wordt de volgende beste splitsing voor die gegevens bepaald. In dit geval is de subgroep klanten die commentaar hebben gegeven op beveiliging. Na elke splitsing wordt in de beslissingsstructuur ook nagegaan of deze voldoende gegevenspunten heeft om deze groep representatief genoeg te maken om een patroon af te leiden. Zo niet, dan is het een anomalie in de gegevens en niet een echt segment. Een andere statistische test wordt toegepast om te controleren op de statistische significantie van de splitsingsvoorwaarde met p-waarde van 0,05.
Nadat de beslissingsstructuur is uitgevoerd, worden alle splitsingen, zoals beveiligingsopmerkingen en grote ondernemingen, en Power BI-filters gemaakt. Deze combinatie van filters wordt verpakt als een segment in de visual.
Waarom worden bepaalde factoren beïnvloeders of stoppen met beïnvloeders wanneer ik meer velden naar het veld Uitleg per veld verplaats?
De visualisatie evalueert alle verklarende factoren samen. Een factor kan zelf een beïnvloeder zijn, maar wanneer dit wordt overwogen met andere factoren, is dit mogelijk niet mogelijk. Stel dat u wilt analyseren wat ervoor zorgt dat een woningprijs hoog is, met slaapkamers en huisgrootte als verklarende factoren:
- Op zichzelf kunnen meer slaapkamers een chauffeur zijn voor huizenprijzen die hoog zijn.
- Inclusief huisgrootte in de analyse betekent dat u nu kijkt wat er gebeurt met slaapkamers terwijl de huisgrootte constant blijft.
- Als huisgrootte is vastgesteld op 1500 vierkante meter, is het onwaarschijnlijk dat een continue toename van het aantal slaapkamers de woningprijs aanzienlijk verhoogt.
- Slaapkamers zijn misschien niet zo belangrijk als het was voordat huisgrootte werd overwogen.
Als u uw rapport deelt met een Power BI-collega, moet u beide afzonderlijke Power BI Pro-licenties hebben of dat het rapport is opgeslagen in Premium-capaciteit. Zie rapporten delen.