Erstellen von Visualisierungen für „Wichtige Einflussfaktoren“
GILT FÜR: Power BI Desktop
Power BI-Dienst
Die Schlüssel-Influencer-Visualisierung hilft Ihnen, die Faktoren zu verstehen, die eine Metrik beeinflussen, die Sie interessiert. Es analysiert die Daten, erstellt eine Rangfolge für wichtige Faktoren und stellt diese dar. Angenommen, Sie möchten ermitteln, wodurch die Personalfluktuation oder Abwanderung beeinflusst wird. Faktoren können z. B. die Länge des Anstellungsvertrags oder die Anfahrtszeit des Mitarbeiters sein.
Wann empfiehlt sich die Verwendung des Visuals „Wichtige Einflussfaktoren“?
Das "Key Influencers"-Visual ist eine hervorragende Wahl, wenn Sie:
- Zur Übersicht über die Faktoren, die sich auf die analysierte Metrik auswirken.
- Stellen Sie die relative Wichtigkeit dieser Faktoren gegenüber. z. B. bei der Frage, ob Kurzzeitverträge sich stärker als Langzeitverträge auf die Fluktuation auswirken.
Features des Visuals „Wichtige Einflussfaktoren“
Registerkarten: Wählen Sie eine Registerkarte aus, und wechseln Sie zwischen Ansichten. Die Registerkarte Wichtige Einflussfaktoren zeigt Ihnen die Hauptverantwortlichen für den ausgewählten Metrikwert. Auf der Registerkarte Wichtigste Segmente werden die Segmente dargestellt, die den größten Einfluss auf den ausgewählten Metrikwert haben. Ein Segment besteht aus einer Kombination mehrerer Werte. Ein Segment kann beispielsweise Verbraucher sein, die langfristige Kunden sind und in der Westregion leben.
Dropdownfeld: der Wert der Metrik, die untersucht werden soll In diesem Beispiel geht es um die Metrik Bewertung. Der ausgewählte Wert lautet Niedrig.
Revision: unterstützt Sie beim Interpretieren des Visuals im linken Bereich
Linker Bereich: Im linken Bereich wird ein Visual dargestellt. In diesem Fall zeigt der linke Bereich eine Liste der wichtigsten Einflussfaktoren.
Revision: unterstützt Sie beim Interpretieren des Visuals im rechten Bereich
Rechter Bereich: Im rechten Bereich wird ein Visual dargestellt. In diesem Fall zeigt das Säulendiagramm alle Werte für den im linken Bereich ausgewählten Schlüsselfaktor Theme an. Der spezifische Wert Usability (Benutzerfreundlichkeit) im linken Bereich wird in Grün angezeigt. Alle anderen Werte für Theme (Thema) werden in Schwarz angezeigt.
Durchschnittslinie: Der Durchschnitt wird für alle möglichen Werte für Theme (Design) berechnet, außer für Usability (Benutzerfreundlichkeit) (dies ist der ausgewählte Einflussfaktor). Die Berechnung gilt also für alle schwarz dargestellten Werte. Daraus geht hervor, welcher Prozentsatz der anderen Themen eine niedrige Bewertung hatte. In diesem Fall hatten 11,35 % eine niedrige Bewertung (dargestellt durch die gepunktete Linie).
Kontrollkästchen: Filtert das Visual im rechten Bereich heraus, sodass nur Werte angezeigt werden, die Einflussfaktoren für dieses Feld sind. In diesem Beispiel wird das Visual nach Benutzerfreundlichkeit, Sicherheit und Navigation gefiltert.
Analysieren einer kategorischen Metrik
- Ihr Produkt-Manager möchte, dass Sie ermitteln, welche Faktoren dazu führen, dass Kunden negative Bewertungen zu Ihrem Clouddienst abgeben. Öffnen Sie die Datei customerfeedback.pbix in Power BI Desktop, um diesem Tutorial zu folgen.
Hinweis
Das Customer Feedback-Dataset basiert auf dem Werk [Moro et al., 2014] S. Moro, P. Cortez und P. Rita. „Eine datengesteuerte Methode, um den Erfolg von Telefonmarketing im Bankbereich vorherzusagen“. Unterstützende Systeme bei der Entscheidungsfindung, Elsevier, 62:22-31. Juni 2014.
Wählen Sie unter Visual erstellen im Bereich Visualisierungen das Symbol Wichtigste Einflussfaktoren aus.
Verschieben Sie die Metrik, die Sie analysieren möchten, in das Feld Analyse. Um festzustellen, warum Kunden den Service niedrig bewerten, wählen Sie Customer Table (Kundentabelle)>Bewertung aus.
Verschieben Sie die Felder, von denen Sie vermuten, dass sie sich auf die Bewertung auswirken, in das Feld Erläuterung nach. Sie können beliebig viele Felder verschieben. Beginnen Sie in diesem Beispiel mit den folgenden Feldern:
- Land/Region
- Role in Org (Rolle in der Organisation)
- Subscription Type (Abonnementtyp)
- Company Size (Unternehmensgröße)
- Design
Lassen Sie das Feld Erweitern um leer. Dieses Feld wird nur beim Analysieren einer Maßnahme oder eines zusammengefassten Feldes verwendet.
Um den Fokus auf die negativen Bewertungen zu richten, wählen Sie im Dropdown-Feld den Eintrag Niedrig bei Welche Faktoren beeinflussen die Bewertung? aus.
Die Analyse wird auf Tabellenebene des entsprechenden Felds ausgeführt. In diesem Beispiel wird die Metrik Bewertung verwendet. Diese Metrik wird auf Kundenebene definiert. Jeder Kunde gibt entweder eine hohe oder eine niedrige Bewertung. Alle erläuternden Faktoren müssen auf Kundenebene definiert werden, damit das Visual sie verwenden kann.
Im obigen Beispiel weisen alle erläuternden Faktoren eine 1:1- oder eine n:1-Beziehung zur Metrik auf. In diesem Fall hat jeder Kunde seiner Bewertung ein einzelnes Thema zugewiesen. Gleichermaßen stammen die Kunden aus einem Land oder einer Region, weisen einen Mitgliedschaftstyp auf und haben eine Rolle in der Organisation inne. Bei den erläuternden Faktoren handelt es sich um bereits vorhandenen Attribute eines Kunden, sodass keine Transformation nötig ist. Das Visual kann sie direkt verwenden.
Im Verlauf des Tutorials werden komplexere Beispiele mit 1:n-Beziehungen behandelt. In solchen Fällen müssen Spalten zunächst auf Kundenebene aggregiert werden, bevor die Analyse ausgeführt werden kann.
Maßnahmen und Aggregate, die als erläuternde Faktoren verwendet werden, werden ebenfalls auf der Tabellenebene der Kennzahl Analyse ausgewertet. Im weiteren Verlauf des Artikels finden Sie hierfür Beispiele.
Interpretieren von kategorischen wichtigen Einflussfaktoren
Nun sehen wir uns die wichtigsten Einflussfaktoren für niedrige Bewertungen genauer an.
Wichtigster Einzelaspekt, der höchstwahrscheinlich zu einer niedrigen Bewertung führt
Der Kunde in diesem Beispiel kann drei Rollen haben: Verbraucher, Administrator und Verleger. Konsument zu sein, ist der wichtigste Faktor, der zu einer niedrigen Bewertung beiträgt.
Genauer gesagt ist es 2,57-mal wahrscheinlicher, dass ein Verbraucher eine negative Bewertung zu Ihrem Dienst abgibt. Im Diagramm „Wichtige Einflussfaktoren“ wird Role in Org is consumer (Rolle in der Organisation ist Verbraucher) auf der linken Seite ganz oben aufgeführt. Wenn Sie Role in Org is consumer (Rolle in der Organisation ist Verbraucher) auswählen, werden im rechten Bereich von Power BI weitere Details angezeigt. Die vergleichende Wirkung der einzelnen Rollen auf die Wahrscheinlichkeit einer niedrigen Bewertung wird angezeigt.
- 14,93 % der Verbraucher geben eine niedrige Bewertung ab.
- Im Durchschnitt geben alle anderen Rollen in 5,78 % der Fälle eine niedrige Bewertung ab.
- Die Wahrscheinlichkeit, dass Verbraucher eine im Vergleich zu anderen Rollen niedrigere Bewertung abgeben, ist 2,57-mal höher. Dieser Wert kann ermittelt werden, indem Sie den grünen Balken durch die rot gestrichelte Linie dividieren.
Zweiter Einzelaspekt, der die Wahrscheinlichkeit einer niedrigen Bewertung beeinflusst
Mit dem Visual „Wichtige Einflussfaktoren“ können die Faktoren aus vielen verschiedenen Variablen verglichen und nach Rangfolge sortiert werden. Der zweite Einflussfaktor hat nichts zu tun mit Role in Org. Wählen Sie den zweiten Einflussfaktor in der Liste aus, das Thema ist Benutzerfreundlichkeit.
Der zweitwichtigste Faktor bezieht sich auf das Thema der Kundenbewertung. Verbraucher, die Feedback zur Benutzerfreundlichkeit des Produkts abgegeben haben, haben 2,55-mal wahrscheinlicher eine schlechte Bewertung abgegeben als Kunden, die Feedback zu den Themen Zuverlässigkeit, Design oder Geschwindigkeit abgegeben haben.
Zwischen den Visualisierungen hat sich der durch die rot gestrichelte Linie dargestellte Durchschnitt von 5,78 % auf 11,35 % geändert. Der Durchschnittswert ist dynamisch, da er auf dem Durchschnitt aus allen anderen Werten basiert. Beim ersten Einflussfaktor wurde die Verbraucherrolle aus dem Durchschnitt ausgeschlossen. Beim zweiten Einflussfaktor wurde das Thema Benutzerfreundlichkeit ausgeschlossen.
Aktivieren Sie das Kontrollkästchen Nur Werte anzeigen, die Einflussfaktoren sind, um nur mithilfe der beeinflussenden Werte zu filtern. In diesem Beispiel sind sie die Rollen, die für eine niedrige Bewertung verantwortlich sind. Zwölf Designs werden auf die vier Designs reduziert, die Power BI als die Designs identifiziert, die niedrige Bewertungen fördern.
Interaktion mit anderen Visuals
Immer, wenn Sie einen Slicer, einen Filter oder ein anderes Visual im Zeichenbereich auswählen, führt das Visual für wichtige Einflussfaktoren die Analyse für die neu ausgewählten Daten erneut aus. Sie können beispielsweise Company Size (Unternehmensgröße) in den Bericht verschieben und als Slicer verwenden. Verwenden Sie es, um festzustellen, ob sich die wichtigen Einflussfaktoren für Unternehmenskunden von denen der restlichen Kunden unterscheiden. Die Unternehmensgröße eines Unternehmens liegt bei mehr als 50.000 Mitarbeitern.
Wählen Sie >50.000 aus, um die Analyse noch mal auszuführen. Sie werden feststellen, dass sich die Einflussfaktoren ändern. Bei großen Unternehmenskunden ist das Thema Sicherheit der wichtigste Einflussfaktor für eine niedrige Bewertung. Sie sollten nun weiter untersuchen, ob es bestimmte Sicherheitsfeatures gibt, mit denen große Kunden nicht zufrieden sind.
Interpretieren Sie kontinuierliche Schlüsseleinflussfaktoren
Bisher haben Sie gelernt, wie Sie mithilfe des visuellen Elements untersuchen können, wie verschiedene kategorisierte Felder niedrige Bewertungen beeinflussen. Im Feld Erläuterung nach können jedoch auch kontinuierliche Faktoren wie Alter, Höhe und Preis verwendet werden. Beobachten Sie, was geschieht, wenn Tenure (Abozugehörigkeit) aus der Tabelle „Customer“ (Kunden) in Erläuterung nach verschoben wird. Tenure zeigt, wie lange ein Kunde den Dienst nutzt.
Bei einem höheren Wert für „Tenure“ (Verwendungsdauer) steigt die Wahrscheinlichkeit, dass eine niedrige Bewertung abgegeben wird. Dieser Trend lässt darauf schließen, dass Langzeitkunden häufiger eine negative Bewertung abgeben. Diese Information ist interessant. Sie sollten sie später weiterverfolgen.
An der Visualisierung ist zu erkennen, dass mit jedem Anstieg der Betriebszugehörigkeit um 13,44 Monate die Wahrscheinlichkeit einer niedrigen Bewertung im Durchschnitt um das 1,23-Fache steigt. In diesem Fall stellen 13,44 Monate die Standardabweichung der Verwendungsdauer dar. So erhalten Sie einen Einblick, wie eine Erhöhung der Verwendungsdauer um eine Standardmenge, nämlich die Standardabweichung der Verwendungsdauer, die Wahrscheinlichkeit beeinflusst, eine niedrige Bewertung zu erhalten.
Im Punktdiagramm im rechten Bereich wird der durchschnittliche Prozentsatz niedriger Bewertungen für die einzelnen Werte der Abozugehörigkeit dargestellt. Die Steigung wird mit einer Trendlinie hervorgehoben.
Klassifizierte kontinuierliche wichtige Einflussfaktoren
In einigen Fällen stellen Sie möglicherweise fest, dass Ihre kontinuierlichen Faktoren automatisch in kategorische Faktoren umgewandelt wurden. Wenn die Beziehung zwischen den Variablen nicht linear ist, können wir die Beziehung nicht so beschreiben, dass sie einfach zunimmt oder abnimmt (wie im vorherigen Beispiel).
Wir führen Korrelationstests durch, um zu bestimmen, wie linear der Influencer mit dem Ziel verglichen wird. Ist das Ziel kontinuierlich, werden Pearson-Korrelationstests ausgeführt, und ist das Ziel kategorisch, werden punktbiseriale Korrelationstests ausgeführt. Wenn wir feststellen, dass die Beziehung nicht ausreichend linear ist, führen wir überwachte Binning durch und generieren maximal fünf Container. Um herauszufinden, welche Bins am sinnvollsten sind, verwenden wir eine beaufsichtigte Binning-Methode. Die überwachte Binning-Methode untersucht die Beziehung zwischen dem erklärenden Faktor und dem zu analysierenden Ziel.
Interpretation von Messwerten und Aggregaten als wichtige Einflussfaktoren
Sie können Maßeinheiten und Aggregationen als erläuternde Faktoren in Ihrer Analyse verwenden. Welche Auswirkungen hat beispielsweise die Anzahl der Kundensupporttickets auf die erhaltenen Bewertung? Oder, welche Auswirkungen hat die durchschnittliche Dauer eines offenen Tickets auf die erhaltene Bewertung?
In diesem Fall möchten Sie sehen, ob die Anzahl der Support-Tickets eines Kunden die von ihm gegebene Bewertung beeinflusst. Hierfür beziehen Sie die Supportticket-ID aus der Tabelle „Supportticket“ ein. Da ein Kunde mehrere Supporttickets öffnen kann, aggregieren Sie die ID auf die Kundenebene. Die Aggregation ist wichtig, da die Analyse auf Kundenebene ausgeführt wird, weshalb alle Treiber auf dieser Ebene definiert werden müssen.
Betrachten wir nun die Anzahl der IDs. Jeder Kundenzeile ist eine Anzahl Supporttickets zugeordnet. In diesem Fall steigt mit der Anzahl der Support-Tickets die Wahrscheinlichkeit für eine niedrige Bewertung um das 4,08-fache. Der Screenshot zeigt die durchschnittliche Anzahl von Supporttickets nach unterschiedlichen Bewertungswerten , die auf Kundenebene ausgewertet werden.
Interpretation der Ergebnisse: Wichtigste Segmente
Mithilfe der Registerkarte Wichtige Einflussfaktoren können Sie die jeweiligen Faktoren einzeln bewerten. Sie können auch die Registerkarte Wichtigste Segmente verwenden, um zu ermitteln, wie sich eine Kombination aus verschiedenen Faktoren auf die Metrik auswirkt, die Sie analysieren.
Auf der Registerkarte „Wichtigste Segmente“ wird zunächst eine Übersicht über alle von Power BI ermittelten Segmente angezeigt. Das folgende Beispiel zeigt, dass sechs Segmente gefunden wurden. Der Prozentsatz der niedrigen Bewertungen innerhalb des Segments bestimmt die Rangfolge. Daraus geht beispielsweise hervor, dass 74,3 % aller Kundenbewertungen in Segment 1 niedrig sind. Je höher der Kreis positioniert ist, desto größer ist der Anteil der niedrigen Bewertungen. Die Größe des Kreises gibt an, wie viele Kunden in einem Segment enthalten sind.
Wenn Sie eine Blase auswählen, werden die Details dieses Segments angezeigt. Wenn Sie beispielsweise Segment 1 auswählen, stellen Sie fest, dass es etablierte Kunden darstellt. Sie sind seit mehr als 29 Monaten Kunden und haben mehr als vier Supporttickets. Außerdem handelt es sich bei diesen Benutzern nicht um Herausgeber. Daher muss es sich also um Verbraucher oder Administratoren handeln.
In dieser Gruppe haben 74,3 % der Kunden eine niedrige Bewertung abgegeben. Im Durschnitt gaben 11,7 % aller Benutzer eine negative Bewertung ab. Somit ist der Anteil der niedrigen Bewertung in diesem Segment also größer. Er ist 63 Prozentpunkte größer. Segment 1 enthält zudem 2,2 % aller Daten und stellt damit einen adressierbaren Anteil aller Benutzer dar.
Hinzufügen von Zählungen
Manchmal kann ein Einflussfaktor eine signifikante Auswirkung haben, aber nur wenige Daten darstellen. Theme (Thema) ist usability („Benutzerfreundlichkeit“) ist z. B. der drittgrößte Einflussfaktor für niedrige Bewertungen. Es gibt jedoch möglicherweise nur wenige Kunden, die sich über die Benutzerfreundlichkeit beschwert haben. Mit Zählungen können Sie priorisieren, auf welche Einflussfaktoren Sie sich konzentrieren möchten.
Sie können die Zählung über die Analysekarte im Formatierungsbereich aktivieren.
Sobald die Zählungen aktiviert sind, wird ein Ring um die Blase jedes Einflussfaktors angezeigt, der den ungefähren Prozentsatz der Daten darstellt, die der Einflussfaktor enthält. Je mehr der Kreis vom Ring eingeschlossen ist, desto mehr Daten sind in ihm enthalten. Sie sehen, dass „Theme is usability“ einen kleinen Teil der Daten enthält.
Sie können auch die Option „Sortieren nach“ unten links im Visual verwenden, um die Blasen zuerst nach Zählung anstelle von Auswirkung zu sortieren. Subscription Type (Abonnementtyp) ist Premier ist nach der Anzahl der wichtigste Einflussfaktor.
Wenn Sie einen vollständigen Ring um den Kreis sehen, bedeutet dies, dass der Einflussfaktor 100 % der Daten enthält. Sie können den Zählungstyp so ändern, dass er relativ zum maximalen Einflussfaktor ist, indem Sie die Dropdownliste Zählungstyp in der Analysekarte des Formatierungsbereichs verwenden. Nun wird der Influencer mit der meisten Datenmenge durch einen vollständigen Ring dargestellt, und alle anderen Zählungen sind relativ zu ihr.
Analysieren einer numerischen Metrik
Wenn Sie ein nicht numerisches Feld in das Feld Analyse verschieben, können Sie entscheiden, wie dieses Szenario behandelt wird. Sie können das Verhalten des Visuals ändern, indem Sie den Formatierungsbereich aufrufen und zwischen dem Analysetyp „Kategorisch“ und dem Analysetyp „Kontinuierlich“ wechseln.
Ein kategorisiererischer Analysetyp wird weiter oben in diesem Artikel beschrieben. Wenn Sie z. B. die Umfrageergebnisse von 1 bis 10 betrachten, können Sie fragen: "Welche Einflüsse führen dazu, dass Umfrageergebnisse bei 1 liegen?"
Beim Analysetyp „Kontinuierlich“ ändert sich die Fragestellung in eine kontinuierliche Frage. Im obigen Beispiel lautet die neue Frage: „Welche Faktoren bewirken, dass der Wert der Umfragebewertung ansteigt/abfällt?“.
Diese Unterscheidung ist hilfreich, wenn im zu analysierenden Feld zahlreiche Einzelwerte vorhanden sind. Im nächsten Beispiel sehen wir uns die Hauspreise an. Es ist nicht sinnvoll zu fragen, "Was beeinflusst den Hauspreis von 156.214?", da das spezifisch ist und wir wahrscheinlich nicht genügend Daten haben, um ein Muster zu erkennen.
Stattdessen möchten wir fragen: "Was beeinflusst den Anstieg der Hauspreise," was es uns ermöglicht, Hauspreise als eine Spannweite anstatt als unterschiedliche Werte zu behandeln.
Interpretation der Ergebnisse: Wichtigste Einflussfaktoren
Hinweis
In den Beispielen in diesem Abschnitt werden Immobilienpreisdaten aus der Public Domain verwendet. Sie können das Beispieldataset herunterladen, wenn Sie die Schritte nachvollziehen möchten.
In diesem Szenario untersuchen Sie, welche Faktoren einen Anstieg der Immobilienpreise bewirken. Eine Reihe von erläuternden Faktoren können sich auf den Immobilienpreis auswirken. Dazu zählen z. B. YearBuilt (das Jahr, in dem die Immobilie gebaut wurde), KitchenQual (Qualität der Küche) und YearRemodAdd (Jahr, in dem das Haus modernisiert wurde).
Im folgenden Beispiel untersuchen Sie den wichtigsten Einflussfaktor, nämlich eine herausragende Küchenqualität. Die Ergebnisse sind mit den Ergebnissen der Analyse kategorischer Metriken vergleichbar. Es gibt jedoch einige wichtige Unterschiede:
- Das Säulendiagramm rechts zeigt die Durchschnittswerte anstelle von Prozentsätzen. Es stellt den durchschnittlichen Immobilienpreis für ein Haus mit einer sehr guten Küchenqualität (grüne Säule) im Vergleich zum durchschnittlichen Immobilienpreis für ein Haus ohne sehr gute Küchenqualität (gestrichelte Linie) dar.
- Im Kreis wird auch hier die Differenz zwischen der rot gestrichelten Linie und der grünen Säule angegeben, jedoch als Zahl (USD 158.000,49) und nicht als Wahrscheinlichkeit (1,93-fach). So im Durchschnitt sind Häuser mit ausgezeichneten Küchen fast $ 160 K teurer als Häuser ohne ausgezeichnete Küchen.
Im folgenden Beispiel untersuchen wir die Auswirkungen eines kontinuierlichen Faktors (Jahr, in dem das Haus modernisiert wurde) auf den Immobilienpreis. Im Vergleich zur Analyse von kontinuierlichen Einflussfaktoren gibt es bei kategorischen Metriken folgende Unterschiede:
- Im Punktdiagramm im rechten Bereich wird der durchschnittliche Immobilienpreis für jeden einzelnen Wert für das Jahr dargestellt, in dem das Haus modernisiert wurde.
- Der Wert in der Blase zeigt, um wie viel der durchschnittliche Hauspreis steigt (in diesem Fall 2,87 Tausend US-Dollar), wenn das Jahr, in dem das Haus renoviert wurde, um die Standardabweichung erhöht wird (in diesem Fall 20 Jahre).
Abschließend betrachten wir bei den Maßnahmen das Durchschnittsjahr, in dem ein Haus gebaut wurde. Die Analyse sieht wie folgt aus:
- Im Streudiagramm im rechten Bereich wird der durchschnittliche Immobilienpreis für jeden einzelnen Wert in der Tabelle dargestellt.
- Der Wert im Kreis zeigt, wie viel der durchschnittliche Hauspreis steigt (in diesem Fall 1.350 USD), wenn das durchschnittliche Jahr um seine Standardabweichung erhöht wird (in diesem Fall 30 Jahre).
Interpretation der Ergebnisse: Wichtigste Segmente
In den wichtigsten Segmenten für numerische Zielsetzungen werden Gruppen angegeben, bei denen die Immobilienpreise im Durchschnitt höher sind als im Dataset insgesamt. Im Folgenden ist beispielsweise zu sehen, dass sich Segment 1 aus Häusern zusammensetzt, bei denen GarageCars (Anzahl der Kraftfahrzeuge, die in der Garage untergebracht werden können) größer als 2 und für RoofStyle die Option „Hip“ (Walmdach) festgelegt ist. Häuser mit diesen Merkmalen haben einen durchschnittlichen Preis von $355 Tsd. im Vergleich zum Gesamtdurchschnitt in den Daten von $180 Tsd.
Analysiere eine Metrik, die ein Maß oder eine zusammengefasste Spalte ist
Bei einer Maß- oder Zusammenfassungsspalte wird standardmäßig der
Bei nicht zusammengefassten Spalten wird die Analyse immer auf Tabellenebene ausgeführt. Im Hauspreisbeispiel haben wir die Metrik Hauspreis analysiert, um zu sehen, was zu einer Erhöhung oder Senkung eines Hauspreises führt. Die Analyse wird automatisch auf Tabellenebene ausgeführt. Unsere Tabelle verfügt über eine eindeutige ID für jedes Haus, damit die Analyse auf Hausebene ausgeführt wird.
Bei Maßnahmen und zusammengefassten Spalten wissen wir nicht sofort, auf welcher Ebene wir sie analysieren sollen. Wenn House Price (Hauspreis) als Average (Mittelwert) zusammengefasst würde, müssten wir festlegen, auf welcher Ebene dieser Durchschnittspreis für das Haus berechnet werden soll. Handelt es sich um den Durchschnittshauspreis auf Nachbarschaftsebene? Oder vielleicht auf regionaler Ebene?
Measures und zusammengefasste Spalten werden automatisch auf der Ebene der verwendeten Erläuterung nach-Felder analysiert. Stellen Sie sich vor, wir wollen drei Felder in "Explain By" untersuchen: Küchenqualität, Gebäudetyp und Klimaanlage. Der Wert Average House Price (durchschnittlicher Hauspreis) würde für jede eindeutige Kombination dieser drei Felder berechnet werden. Häufig ist es hilfreich, zu einer Tabellenansicht zu wechseln, um zu sehen, wie die auszuwertenden Daten aussehen.
Diese Analyse ist sehr zusammengefasst, sodass es für das Regressionsmodell schwierig sein könnte, muster in den Daten zu finden, aus denen sie lernen können. Wir sollten die Analyse detaillierter ausführen, um bessere Ergebnisse zu erzielen. Wenn wir den Hauspreis auf der Hausebene analysieren möchten, müssen wir das ID-Feld der Analyse explizit hinzufügen. Trotzdem möchten wir nicht, dass die Haus-ID als Einflussfaktor angesehen wird. Es hilft nicht zu erfahren, dass der Preis für ein Haus steigt, wenn die Haus-ID sich erhöht. An dieser Stelle ist die Option Erweitern um praktisch. Mithilfe der Feldoption Erweitern durch können Sie Felder hinzufügen, die Sie verwenden möchten, um die Ebene der Analyse festzulegen, ohne nach neuen Einflussfaktoren suchen zu müssen.
Sehen Sie sich an, wie das Visual aussieht, nachdem Sie die ID für die Feldoption Erweitern um hinzugefügt haben. Nachdem Sie die Ebene definiert haben, auf der Ihr Measure ausgewertet werden soll, ist die Interpretation von Influencern genau dasselbe wie bei unzusammengefassten numerischen Spalten.
Informationen dazu, wie ML.NET hinter den Kulissen von Power BI genutzt wird, um Daten zu analysieren und Erkenntnisse auf natürliche Weise zu gewinnen, finden Sie unter Power BI identifies key influencers using ML.NET (Power BI ermittelt wichtige Einflussfaktoren mit ML.NET).
Zu beachtende Aspekte und Problembehandlung
Welche Einschränkungen gibt es für das Visual?
Für das Visual „Wichtige Einflussfaktoren“ gibt es einige Einschränkungen:
- Direct Query wird nicht unterstützt.
- Liveverbindung mit Azure Analysis Services und SQL Server Analysis Services wird nicht unterstützt.
- Veröffentlichen im Web wird nicht unterstützt
- .NET Framework 4.6 oder höher ist erforderlich.
- Die SharePoint Online-Einbettung wird nicht unterstützt.
- Das Analysieren einer kategorischen Metrik wird nicht unterstützt, wenn Implizite Measures nicht berücksichtigen für das Datenmodell auf true festgelegt ist (z. B. wenn Berechnungsgruppen im Datenmodell definiert sind).
Es wird ein Fehler angezeigt, dass keine Einflussfaktoren oder Segmente gefunden wurden. Woran liegt das?
Dieser Fehler tritt auf, wenn Sie Felder in Erläuterung nach eingeschlossen haben, aber keine Einflussfaktoren gefunden wurden.
- Sie haben die analysierte Metrik in Analysieren und Erläuterung nach eingeschlossen. Entfernen Sie sie aus Erläuterung nach.
- Die erläuternden Felder enthalten zu viele Kategorien, in denen nur wenige Beobachtungen vorhanden sind. In dieser Situation ist es für das Visual schwierig zu erkennen, welche Faktoren Einflussfaktoren sind. Eine Generalisierung auf Basis weniger Beobachtungen ist schwierig. Bei der Analyse eines numerischen Felds sollten Sie im Formatierungsbereich auf der Karte Analyse von der kategorischen Analyse zur kontinuierlichen Analyse wechseln.
- Ihre erklärenden Faktoren verfügen über ausreichend Beobachtungen für eine Generalisierung, aber die Visualisierung konnte keine sinnvollen Korrelationen finden, die gemeldet werden können.
Es wird ein Fehler angezeigt, dass die zu analysierende Metrik nicht genügend Daten für eine Analyse enthält. Woran liegt das?
Das Visual funktioniert so, dass in den Daten für eine Gruppe nach Mustern gesucht und mit anderen Gruppen verglichen wird. So wird beispielsweise nach Kunden gesucht, die im Vergleich zu anderen Kunden, die hohe Bewertungen abgegeben haben, niedrige Bewertungen abgegeben haben. Wenn die Daten in Ihrem Modell nur wenige Beobachtungen enthalten, können Muster nur schwer ermittelt werden. Wenn im Visual nicht genügend Daten enthalten sind, um aussagekräftige Einflussfaktoren zu ermitteln, wird angezeigt, dass mehr Daten benötigt werden, um die Analyse durchzuführen.
Für den ausgewählten Zustand sollten mindestens 100 Beobachtungen vorhanden sein. In diesem Beispiel steht der Zustand für Kunden, die abwandern. Ferner benötigen Sie mindestens 10 Beobachtungen für die Zustände, die Sie für den Vergleich verwenden. In diesem Beispiel steht der Vergleichszustand für Kunden, die nicht abwandern.
Bei der Analyse eines numerischen Felds sollten Sie im Formatierungsbereich auf der Karte Analyse von der kategorischen Analyse zur kontinuierlichen Analyse wechseln.
Es wird eine Fehlermeldung angezeigt, dass die Analyse immer auf Zeilenebene der übergeordneten Tabelle ausgeführt wird, wenn „Analysieren“ nicht zusammengefasst ist. Das Ändern dieser Ebene über die „Erweitern durch“-Felder ist nicht zulässig. Woran liegt das?
Wenn eine numerische Spalte oder eine kategorische Spalte analysiert wird, wird die Analyse immer auf der Tabellenebene ausgeführt. Wenn Sie beispielsweise Hauspreise analysieren und Ihre Tabelle eine ID-Spalte enthält, wird die Analyse automatisch auf Haus-ID-Ebene ausgeführt.
Bei der Analyse von Maßnahmen oder zusammengefassten Spalten müssen Sie explizit angeben, auf welcher Ebene Sie die Analyse ausführen möchten. Mithilfe der Feldoption Erweitern durch können Sie die Ebene der Analyse für Measures und zusammengefasste Spalten ändern, ohne neue Einflussfaktoren hinzuzufügen. Wenn House Price (Hauspreis) als Measure definiert wurde, können Sie die Spalte „House ID“ (Haus-ID) der Feldoption Erweitern um hinzufügen, um die Analyseebene zu ändern.
Es wird ein Fehler angezeigt, dass ein Feld in Erläuterung nach keine eindeutige Beziehung zu der Tabelle aufweist, die die analysierte Metrik enthält. Woran liegt das?
Die Analyse wird auf Tabellenebene des entsprechenden Felds ausgeführt. Wenn Sie beispielsweise Kundenfeedback für Ihren Dienst analysieren, besitzen Sie möglicherweise eine Tabelle, aus der hervorgeht, ob ein Kunde eine hohe oder eine niedrige Bewertung abgegeben hat. In diesem Fall wird die Analyse auf Ebene der Kundentabelle durchgeführt.
Wenn eine verknüpfte Tabelle auf einer granulareren Ebene als die Tabelle definiert ist, die Ihre Metrik enthält, wird dieser Fehler angezeigt. Hier sehen Sie ein Beispiel:
- Sie analysieren, was Kunden dazu bewegt, eine niedrige Bewertung für Ihren Dienst abzugeben.
- Sie möchten wissen, ob sich das Gerät, auf dem Ihre Kunden den Dienst verwenden, auf die Bewertung auswirkt.
- Kunden können den Dienst auf unterschiedlichen Geräten verwenden.
- Im folgenden Beispiel verwendet Kunde 10000000 sowohl einen Browser als auch ein Tablet, um auf den Dienst zuzugreifen.
Wenn Sie versuchen, die Spalte „device“ als erläuternden Faktor zu verwenden, wird folgender Fehler angezeigt:
Dieser Fehler wird angezeigt, da das Gerät nicht auf Kundenebene definiert wurde. Kunden können den Dienst auf mehreren Geräten verwenden. Damit die Visualisierung Muster ermitteln kann, muss das Gerät ein Attribut des Kunden sein. Es gibt verschiedene Lösungen, die von Ihren Kenntnissen des Geschäfts abhängen:
- Sie können die Zusammenfassung von zu zählenden Geräten ändern. Verwenden Sie beispielsweise „count“, wenn sich die Anzahl von Geräten möglicherweise auf die Bewertung auswirkt, die ein Kunde abgibt.
- Sie können die Spalte „device“ pivotieren, um festzustellen, ob sich die Verwendung des Diensts auf einem bestimmten Gerät auf die Kundenbewertung auswirkt.
In diesem Beispiel wurden die Daten pivotiert, um neue Spalten für Browser, Mobilgeräte und Tablets zu erstellen (Sie dürfen nicht vergessen, die Beziehungen in der Modellierungsansicht zu löschen und neu zu erstellen, nachdem Sie die Daten pivotiert haben). Nun können Sie diese spezifischen Geräte in Explain by verwenden. Daraus ergibt sich, dass alle Geräte Einflussfaktoren sind, wobei der Browser jedoch die größte Auswirkung auf die Kundenbewertung hat.
Genauer gesagt ist die Wahrscheinlichkeit, dass Kunden eine niedrige Bewertung abgeben, 3,79-mal höher, wenn sie den Dienst nicht über den Browser verwenden. Für mobile Geräte weiter unten in der Liste gilt das Gegenteil. Es ist wahrscheinlicher, dass Kunden, die die mobile App nutzen, eine niedrige Bewertung abgeben, als Kunden, die sie nicht nutzen.
Es wird eine Warnung angezeigt, dass die Maßnahmen nicht in die Analyse einbezogen wurden. Woran liegt das?
Die Analyse wird auf Tabellenebene des entsprechenden Felds ausgeführt. Wenn Sie die Kundenabwanderung analysieren, haben Sie möglicherweise eine Tabelle, die Ihnen zeigt, ob ein Kunde abgewandert ist oder nicht. In diesem Fall wird die Analyse auf Ebene der Kundentabelle durchgeführt.
Measures und Aggregate werden standardmäßig auf Tabellenebene analysiert. Wenn es ein Maß für die durchschnittlichen monatlichen Ausgaben gäbe, würde es auf der Ebene der Kundentabelle analysiert werden.
Wenn die Kundentabelle keinen eindeutigen Bezeichner aufweist, kann die Maßnahme nicht ausgewertet werden und wird bei der Analyse ignoriert. Sorgen Sie zur Vermeidung dieser Situation dafür, dass die Tabelle in Ihrer Metrik einen eindeutigen Bezeichner enthält. In diesem Fall ist es die Kundentabelle, und der eindeutige Bezeichner ist die Kunden-ID. Mithilfe von Power Query können Sie zudem einfach eine Indexspalte hinzufügen.
Es wird eine Warnung angezeigt, dass die analysierte Metrik mehr als 10 Einzelwerte aufweist und somit die Qualität der Analyse beeinträchtigen kann. Woran liegt das?
Mit dem KI-Visual können Kategoriefelder und numerische Felder analysiert werden. Bei kategorischen Feldern sind „Churn“ (Abwanderung) ist „Yes“ (Ja) oder „No“ (Nein) und „Customer Satisfaction“ (Kundenzufriedenheit) ist „High“ (Hoch), „Medium“ (Mittel) oder „Low“ (Niedrig) mögliche Beispiele. Wenn Sie die Anzahl der zu analysierenden Kategorien erhöhen, gibt es weniger Beobachtungen pro Kategorie. Es erschwert es der Visualisierung, in den Daten Muster zu erkennen.
Beim Analysieren numerischer Felder haben Sie die Wahl zwischen der Behandlung der numerischen Felder wie Text, in diesem Fall führen Sie dieselbe Analyse wie bei kategorisierten Daten (Kategorisierungsanalyse) aus. Wenn viele Einzelwerte vorliegen, sollten Sie zu einer kontinuierlichen Analyse wechseln, damit die Zahlen nicht einzeln betrachtet, sondern Muster abgeleitet werden, wenn sich Zahlen erhöhen oder verringern. Sie können im Formatierungsbereich auf der Karte Analyse von der kategorischen Analyse zur kontinuierlichen Analyse wechseln.
Es wird empfohlen, ähnliche Werte in einer einzigen Einheit zu gruppieren, um aussagekräftigere Einflussfaktoren zu ermitteln. Bei einer Metrik für den Preis erhalten Sie beispielsweise bessere Ergebnisse, wenn Sie ähnliche Preise in Kategorien wie „Hoch“, „Mittel“ oder „Niedrig“ gruppieren, anstatt einzelne Preispositionen zu verwenden.
In den Daten sind Faktoren vorhanden, bei denen es sich nicht um wichtige Einflussfaktoren handelt, obwohl sie es sein sollten. Wie kann es dazu kommen?
Im folgenden Beispiel geben Kunden, die Verbraucher sind, niedrige Bewertungen ab. Dabei sind 14,93 % der Bewertungen niedrig. Der Anteil der niedrigen Bewertungen ist bei Benutzern mit der Rolle Administrator ebenfalls hoch (13,42 %), aber diese werden nicht als Einflussfaktoren gewertet.
Der Grund für diese Festlegung ist, dass die Visualisierung auch die Anzahl der Datenpunkte berücksichtigt, wenn sie Einflussfaktoren identifiziert. Im folgenden Beispiel geht es um mehr als 29.000 Verbraucher und 10-mal weniger Administratoren, also etwa 2.900. Nur 390 Administratoren haben eine niedrige Bewertung abgegeben. Die visuelle Darstellung verfügt nicht über genügend Daten, um zu erkennen, ob es bei den Administratorbewertungen ein Muster gibt oder ob es sich um einen Zufallsfund handelt.
Welche Datenpunktgrenzwerte bestehen für die wichtigsten Einflussfaktoren? Wir führen die Analyse an einer Stichprobe von 10.000 Datenpunkten durch. Die Blasen auf der einen Seite zeigen alle gefundenen Einflussfaktoren. Die Säulendiagramme und Streudiagramme auf der anderen Seite halten sich an die Stichprobenentnahmestrategien für diese wichtigen Visuals.
Wie werden wichtige Einflussfaktoren für die kategorische Analyse ermittelt?
Das KI-Visual verwendet ML.NET im Hintergrund, um eine logistische Regression zum Berechnen der wichtigen Einflussfaktoren auszuführen. Bei einer logistischen Regression handelt es sich um ein Statistikmodell, das verschiedene Gruppen miteinander vergleicht.
Wenn Sie herausfinden möchten, was zu niedrigen Bewertungen führt, untersucht die logistische Regression, wie sich die Kunden unterscheiden, die eine niedrige Bewertung abgegeben haben, von denen, die eine hohe Bewertung abgegeben haben. Bei Verwendung mehrerer Kategorien wie „Hoch“, „Neutral“ und „Niedrig“ können Sie untersuchen, wie sich die Kunden, die eine niedrige Bewertung abgegeben haben, von denjenigen Kunden unterscheiden, die keine niedrige Bewertung abgegeben haben. In diesem Fall, wie unterscheiden sich die Kunden, die eine niedrige Bewertung abgegeben haben, von denen, die eine hohe oder neutrale Bewertung abgegeben haben?
Im Rahmen der logistischen Regression wird in den Daten nach Mustern gesucht, um zu ermitteln, wie sich die Kunden, die eine niedrige abgegeben haben, von denjenigen Kunden unterscheiden, die eine hohe Bewertung abgegeben haben. So lässt sich möglicherweise feststellen, dass Kunden mit vielen Supporttickets einen höheren prozentualen Anteil an den niedrigen Bewertungen ausmachen als die Kunden mit wenigen oder keinen Supporttickets.
Bei der logistischen Regression wird auch die Anzahl der Datenpunkte berücksichtigt. Wenn Kunden mit Administratorrolle beispielsweise anteilig mehr negative Bewertungen abgeben, aber es nur sehr wenige Administratoren gibt, wird dieser Faktor nicht als Einflussfaktor gewertet, Diese Feststellung wird getroffen, weil zum Ableiten eines Musters nicht genügend Datenpunkte vorhanden sind. Es wird ein statistischer Test (Wald-Test) verwendet, um zu bestimmen, ob ein Faktor als Einflussfaktor gewertet werden kann. Im Visual wird ein p-Wert von 0,05 verwendet, um den Schwellenwert zu berechnen.
Wie werden wichtige Einflussfaktoren für die numerische Analyse ermittelt?
Das KI-Visual verwendet ML.NET im Hintergrund, um eine lineare Regression zum Ermitteln der wichtigen Einflussfaktoren auszuführen. Die lineare Regression ist ein Statistikmodell, mit dem untersucht wird, wie sich das Ergebnis des Felds, das Sie analysieren, basierend auf den erläuternden Faktoren ändert.
Wenn wir beispielsweise Hauspreise analysieren, untersucht eine lineare Regression den Effekt, den eine ausgezeichnete Küche auf den Hauspreis hat. Lassen sich mit Häusern mit einer sehr guten Küchenqualität generell niedrigere oder höhere Immobilienpreise erzielen als mit Häusern ohne sehr gute Küchenqualität?
Bei der linearen Regression wird auch die Anzahl der Datenpunkte berücksichtigt. Wenn sich mit Häusern mit Tennisplatz höhere Preise erzielen lassen, jedoch nur wenige Häuser mit einem Tennisplatz im Angebot sind, wird dieser Faktor nicht als Einflussfaktor gewertet, Diese Entscheidung wird getroffen, weil nicht genügend Datenpunkte zum Ableiten eines Musters vorhanden sind. Es wird ein statistischer Test (Wald-Test) verwendet, um zu bestimmen, ob ein Faktor als Einflussfaktor gewertet werden kann. Im Visual wird ein p-Wert von 0,05 verwendet, um den Schwellenwert zu berechnen.
Wie werden Segmente berechnet?
Das KI-Visual verwendet ML.NET im Hintergrund, um eine Entscheidungsstruktur zum Ermitteln interessanter Untergruppen auszuführen. Das Ziel der Entscheidungsstruktur besteht darin, eine Untergruppe von Datenpunkten zu ermitteln, die in der relevanten Metrik relativ stark vertreten ist. Das könnten Kunden mit niedrigen Bewertungen oder Häuser mit hohen Preisen sein.
Der Entscheidungsbaum analysiert jeden erläuternden Faktor und versucht zu ermitteln, welcher Faktor die beste Aufteilung bietet. Wenn Sie beispielsweise die Daten so filtern, dass nur große Unternehmenskunden einbezogen werden, werden dadurch Kunden getrennt, die eine hohe Bewertung im Vergleich zu einer niedrigen Bewertung erhalten haben? Weiterhin stellt sich die Frage, ob es sich als besser erweist, die Daten so zu filtern, dass nur Kunden berücksichtigt werden, die eine Bewertung zum Thema Sicherheit abgegeben haben.
Nachdem im Rahmen der Entscheidungsstruktur eine Aufteilung vorgenommen wurde, wird für die Untergruppe von Daten die nächstbeste Aufteilung für diese Daten ermittelt. In diesem Beispiel besteht die Untergruppe aus Kunden, die eine Bewertung zum Thema Sicherheit abgegeben haben. Nach jeder Aufteilung berücksichtigt der Entscheidungsbaum auch, ob genügend Datenpunkte in dieser Gruppe vorhanden sind, um repräsentativ genug zu sein, um daraus ein Muster abzuleiten. Andernfalls handelt es sich um eine Anomalie in den Daten und nicht um ein echtes Segment. Ein weiterer statistischer Test mit dem p-Wert 0,05 wird durchgeführt, um die statistische Relevanz der Aufteilungsbedingung zu überprüfen.
Nach der Ausführung der Entscheidungsstruktur werden aus allen Aufteilungen wie Feedback zum Thema Sicherheit und große Unternehmen Power BI-Filter erstellt. Diese Filter werden im Visual zu einem Segment kombiniert.
Warum werden bestimmte Faktoren zu Einflussfaktoren oder hören auf, Einflussfaktoren zu sein, wenn ich mehr Felder in das Feld Erläuterung nach verschiebe?
Das Visual wertet alle erläuternden Faktoren zusammen aus. Ein Faktor kann allein ein Influencer sein, aber wenn er mit anderen Faktoren in Betracht gezogen wird, ist er möglicherweise nicht. Angenommen, Sie möchten analysieren, wodurch der Preis eines Hauses steigt und verwenden dabei die erläuternden Faktoren „Schlafzimmer“ und „Fläche“:
- Als einzelner Faktor kann die Anzahl der Schlafzimmer den Preis eines Hauses erhöhen.
- Unter Einbeziehung der Fläche in die Analyse wird untersucht, wie sich die Anzahl der Schlafzimmer bei konstanter Fläche des Hauses auswirkt.
- Wenn die Größe des Hauses auf 1.500 Quadratmeter festgelegt ist, ist es unwahrscheinlich, dass ein kontinuierlicher Anstieg der Anzahl der Schlafzimmer dramatisch den Hauspreis erhöht.
- Die Anzahl der Schlafzimmer stellt somit kein so wichtiger Faktor mehr dar wie vor der Berücksichtigung der Hausgröße.
Eine Freigabe Ihres Berichts für einen Power BI-Kollegen erfordert, dass Sie und Ihr Kollege jeweils eine eigene Power BI Pro-Lizenz haben oder dass der Bericht in der Premium-Kapazität gespeichert wird. Weitere Informationen finden Sie unter Freigeben von Berichten.
Zugehöriger Inhalt
- Kombinationsdiagramm in Power BI
- Visualisierungstypen in Power BI
- Power BI uses ML.NET to identify key influencers (Power BI ermittelt wichtige Einflussfaktoren mit ML.NET)