Prüfen des Callcentermodells (Data Mining-Lernprogramm für Fortgeschrittene)
Nachdem Sie nun das explorative Modell erstellt haben, können Sie es verwenden, um die Daten genauer zu untersuchen. Verwenden Sie dazu die folgenden Tools, die in Business Intelligence Development Studio bereitgestellt werden.
Microsoft-Viewer für neuronale Netzwerke**:** Dieser Viewer ist im Data Mining-Designer auf der Registerkarte Miningmodell-Viewer verfügbar und wurde entworfen, um Ihnen das Experimentieren mit Interaktionen in den Daten zu ermöglichen.
Microsoft Generic Content Tree Viewer**:** Dieser Standardviewer stellt ausführliche Details zu den Mustern und Statistiken bereit, die vom Algorithmus beim Generieren des Modells ermittelt wurden.
Datenquellensicht-Designer**:** Dieser Viewer stellt Tabellen, Diagramme sowie PivotCharts und PivotTables bereit, um Sie bei der Untersuchung der Quelldaten zu unterstützen. Eine Überprüfung der Quelldaten kann sehr hilfreich sein, um die vom Modell hervorgehobenen Trends besser zu verstehen.
Microsoft-Viewer für neuronale Netzwerke
Der Viewer verfügt über drei Bereiche – Eingabe, Ausgabe und Variablen.
Im Bereich Ausgabe können Sie unterschiedliche Werte für das vorhersagbare Attribut oder die abhängige Variable auswählen. Wenn das Modell mehrere vorhersagbare Attribute enthält, können Sie das Attribut in der Liste Ausgabeattribut auswählen.
Der Bereich Variablen vergleicht die zwei Ergebnisse, die Sie durch die angegebenen Attribute oder Variablen ausgewählt haben. Die farbigen Leisten stellen visuell dar, wie stark sich die Variable auf die Zielergebnisse auswirkt. Sie können auch Liftergebnisse für die Variablen anzeigen. Ein Liftergebnis wird abhängig vom verwendeten Miningmodelltyp unterschiedlich berechnet, gibt jedoch i. d. R. Aufschluss über die Verbesserung im Modell, die beim Verwenden dieses Attributs für die Vorhersage erreicht wird.
Im Bereich Eingabe können Sie dem Modell Einflussfaktoren hinzufügen, um verschiedene Szenarien zu untersuchen.
Verwenden des Ausgabebereichs
In diesem Modell soll zuerst der Einfluss verschiedener Faktoren auf die Dienstqualität dargestellt werden. Hierzu können Sie aus der Liste der Ausgabeattribute "Service Grade" auswählen und anschließend verschiedene Dienstebenen vergleichen, indem Sie Bereiche in den Dropdownlisten für Wert 1 und Wert 2 auswählen.
So vergleichen Sie die niedrigste und die höchste Dienstqualität
Wählen Sie für Wert 1 den Bereich mit den niedrigsten Werten aus. Zum Beispiel stellt der Bereich 0-0-0,7 die niedrigsten Abbruchraten dar und damit die bestmögliche Dienstqualität.
Hinweis Die genauen Werte in diesem Bereich variieren ggf. abhängig davon, wie Sie das Modell konfiguriert haben.
Wählen Sie für Wert 2 den Bereich mit den höchsten Werten aus. Zum Beispiel stellt der Bereich mit dem Wert >= 0,12 die höchsten Abbruchraten dar und damit die schlechteste Dienstqualität. Der Wert bedeutet, dass 12% der eingehenden Kundenanrufe während dieser Schicht nicht durchgestellt werden konnten und der Kunde wieder aufgelegt hat.
Der Inhalt des Bereichs Variablen wird aktualisiert, um die Attribute vergleichen zu können, die sich auf die Ergebniswerte auswirken. Die linke Spalte zeigt die Attribute an, die der besten Dienstqualität zugeordnet sind, und die rechte Spalte die Attribute für die schlechteste Dienstqualität.
Verwenden des Variablenbereichs
In diesem Modell scheint Average Time Per Issue ein wichtiger Faktor zu sein. Diese Variable gibt die durchschnittliche Zeit an, nach der ein Aufruf beantwortet wird, unabhängig vom Anruftyp.
So können Sie Wahrscheinlichkeits- und Liftergebnisse für ein Attribut anzeigen und kopieren
Zeigen Sie mit dem Mauszeiger im Bereich Variablen auf die farbige Leiste in der ersten Zeile.
Diese farbige Leiste zeigt an, wie stark sich Average Time Per Issue auf die Dienstqualität auswirkt. Die QuickInfo zeigt das Gesamtergebnis, die Wahrscheinlichkeiten und die Liftergebnisse für jede Kombination einer Variablen mit einem Zielergebnis an.
Klicken Sie im Bereich Variablen mit der rechten Maustaste auf eine farbige Leiste, und wählen Sie Kopieren aus.
Klicken Sie in einem Excel-Arbeitsblatt mit der rechten Maustaste auf eine Zelle, und wählen Sie Einfügen aus.
Der Bericht wird als HTML-Tabelle eingefügt und zeigt nur die Ergebnisse für jede Leiste an.
Klicken Sie in einem anderen Excel-Arbeitsblatt mit der rechten Maustaste auf eine Zelle, und wählen Sie Inhalte einfügen aus.
Der Bericht wird im Textformat eingefügt und enthält die verwandten Statistiken, die im nächsten Abschnitt beschrieben werden.
Verwenden des Eingabebereichs
Angenommen, Sie interessieren sich für die Auswirkungen eines bestimmten Faktors, z. B. für die Schicht oder die Anzahl der Telefonisten. Sie können im Bereich Eingabe eine bestimmte Variable auswählen. Der Bereich Variablen wird automatisch aktualisiert und zeigt einen Vergleich der zwei zuvor ausgewählten Gruppen basierend auf der angegebenen Variable an.
So überprüfen Sie die Auswirkungen auf die Dienstqualität beim Ändern von Eingabeattributen
Wählen Sie im Bereich Eingabe für Attribut die Option "Shift" aus.
Wählen Sie für WertAM aus.
Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell für die Schicht AM an. Alle anderen Benutzerauswahlen bleiben unverändert. Es werden nach wie vor die niedrigste und die höchste Dienstqualität verglichen.
Wählen Sie für WertPM1 aus.
Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell bei einer Änderung der Schicht an.
Klicken Sie im Bereich Eingabe unter Attribut auf die nächste leere Zeile, und wählen Sie "Calls" aus. Wählen Sie für Wert den Bereich aus, der die größte Anzahl von Anrufen angibt.
Der Liste wird eine neue Eingabebedingung hinzugefügt. Der Bereich Variablen wird aktualisiert und zeigt die Auswirkungen auf das Modell für eine besondere Schicht an, wenn das Anrufaufkommen am höchsten ist.
Ändern Sie weiter die Werte für Schicht und Anrufe, um ein genaues Bild der Wechselwirkungen zwischen den Werten für Schicht, Anrufaufkommen und Dienstqualität zu bekommen.
Hinweis Wenn Sie den Bereich Eingabe löschen möchten, damit Sie andere Attribute verwenden können, klicken Sie auf Viewerinhalt aktualisieren.
Interpretieren der im Viewer bereitgestellten Statistiken
Längere Wartezeiten sind ein wesentlicher Vorhersagefaktor für eine hohe Abbruchrate und bedeuten eine schlechte Dienstqualität. Diese Schlussfolgerung scheint zunächst offensichtlich. Das Miningmodell stellt Ihnen jedoch einige zusätzliche statistische Daten bereit, mit denen Sie diese Trends umfassender interpretieren können.
Ergebnis: Wert, der die Gesamtbedeutung dieser Variablen für die Unterschiede zwischen verschiedenen Ergebnissen anzeigt. Je höher das Ergebnis, desto stärker wirkt sich die Variable auf das Ergebnis aus.
Wahrscheinlichkeit von Wert 1: Prozentsatz, der die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.
Wahrscheinlichkeit von Wert 2: Prozentsatz, der die Wahrscheinlichkeit dieses Werts bei diesem Ergebnis angibt.
Lift für Wert 1 und Lift für Wert 2: Ergebnisse, die die Auswirkungen dieser bestimmten Variablen auf die Vorhersagen für die Werte 1 und 2 angeben. Je höher das Ergebnis, desto besser sind die Ergebnisse, die mit dieser Variablen ermittelt werden können.
Die folgende Tabelle enthält einige Beispielwerte für die wichtigsten Einflussfaktoren. Angenommen, die Wahrscheinlichkeit von Wert 1 wäre 60,6% und die Wahrscheinlichkeit von Wert 2 8,3%. Das heißt, bei einer Average Time Per Issue im Bereich von 44-70 Minuten waren 60,6% der Fälle in der Schicht mit den höchsten Dienstqualitäten (Wert 1) und 8,3% der Fälle in der Schicht mit den schlechtesten Dienstqualitäten (Wert 2).
Aus diesen Informationen lassen sich mehrere Schlussfolgerungen ableiten. Kürzere Antwortzeiten (der Bereich von 44-70) wirken sich sehr stark auf eine bessere Dienstqualität (der Bereich 0,00-0,07) aus. Das Ergebnis (92,35) besagt, dass diese Variable sehr wichtig ist.
Wenn Sie jedoch die Liste der Faktoren genauer überprüfen, finden Sie einige andere Faktoren, die weniger deutliche Auswirkungen haben und schwieriger zu interpretieren sind. Zum Beispiel scheint die Schicht die Dienstqualität zu beeinflussen, aber das Liftergebnis und die relativen Wahrscheinlichkeiten geben an, dass die Schicht kein Hauptfaktor ist.
Attribut |
Wert |
Begünstigt < 0,07 |
Begünstigt >= 0,12 |
---|---|---|---|
Average Time Per Issue |
89.087 - 120.000 |
|
Ergebnis: 100
Wahrscheinlichkeit von Wert 1: 4,45 %
Wahrscheinlichkeit von Wert 2: 51,94 %
Lift für Wert 1: 0,19
Lift für Wert 2: 1,94
|
Average Time Per Issue |
44.000 - 70.597 |
Ergebnis: 92,35
Wahrscheinlichkeit von Wert 1: 60,06 %
Wahrscheinlichkeit von Wert 2: 8,30 %
Lift für Wert 1: 2,61
Lift für Wert 2: 0,31
|
|
Zurück zum Anfang
Microsoft Generic Content Tree Viewer
Mit diesem Viewer können Sie die vom Algorithmus bei der Modellverarbeitung erstellten Informationen noch ausführlicher untersuchen. Der MicrosoftGeneric Content Tree Viewer zeigt das Miningmodell als eine Reihe von Knoten an, in der jeder Knoten gelerntes Wissen über die Trainingsdaten darstellt. Dieser Viewer kann mit allen Modellen verwendet werden, die Inhalte der Knoten variieren jedoch abhängig vom Modelltyp.
Bei neuronalen Netzwerkmodellen oder logistischen Regressionsmodellen kann z. B. der marginal statistics node sehr nützlich sein. Dieser Knoten enthält abgeleitete Statistiken über die Werteverteilung in den Daten. Diese Informationen können nützlich sein, um ohne die Ausführung vieler T-SQL-Abfragen schnell eine Zusammenfassung der Daten zu erhalten. Das Diagramm mit Klassifizierungswerten im vorherigen Thema wurde aus dem Knoten für Randstatistiken abgeleitet.
So rufen Sie eine Zusammenfassung der Datenwerte aus dem Miningmodell ab
Wählen Sie im Data Mining-Designer auf der Registerkarte Miningmodell-Viewer die Option <Miningmodellname> aus.
Wählen Sie in der Liste Viewer die Option Microsoft Generic Content Tree Viewer aus.
Die Ansicht des Miningmodells wird aktualisiert und zeigt im linken Bereich eine Knotenhierarchie und im rechten Bereich eine HTML-Tabelle an.
Klicken Sie im Bereich Knotenbeschriftung auf den Knoten mit dem Namen 10000000000000000.
Der oberste Knoten in jedem Modell ist immer der Modellstammknoten. In einem neuronalen Netzwerk oder logistischen Regressionsmodell ist der Knoten direkt unter diesem der Knoten für Randstatistiken.
Führen Sie im Bereich Knotendetails einen Bildlauf nach unten bis zur Zeile NODE_DISTRIBUTION durch.
Führen Sie einen Bildlauf nach unten bis zur Tabelle NODE_DISTRIBUTION durch, um die Werteverteilung anzuzeigen, die vom Neural Network-Algorithmus berechnet wurde.
Wenn Sie diese Daten in einem Bericht verwenden möchten, können Sie die Informationen für bestimmte Zeilen auswählen und anschließend kopieren, oder Sie können mit der folgenden DMX-Abfrage (Data Mining Extensions) den gesamten Inhalt des Knotens extrahieren.
SELECT *
FROM [Call Center EQ4].CONTENT
WHERE NODE_NAME = '10000000000000000'
Sie können auch die Knotenhierarchie und die Details in der Tabelle NODE_DISTRIBUTION verwenden, um einzelne Pfade im neuronalen Netzwerk zu durchlaufen und Statistiken in der verborgenen Ebene anzuzeigen. Weitere Informationen finden Sie unter Abfragen eines neuronalen Netzwerkmodells (Analysis Services - Data Mining).
Zurück zum Anfang
Datenquellensicht-Designer
Diesen Viewer verwenden Sie beim Erstellen einer Miningstruktur oder eines Cubes. Der Viewer stellt aber auch eine Sammlung von Tools bereit, die zum besseren Verständnis der Quelldaten dienen können. Wenn das Modell z. B. einen Trend ermittelt hat, den Sie nicht vollständig verstehen, können Sie einzelne Zeilen in den zugrunde liegenden Daten überprüfen oder Zusammenfassungen und Diagramme erstellen, um die Beziehungen besser zu verdeutlichen.
Dieser Abschnitt enthält ein Beispiel dafür, wie Sie den Datenquellensicht-Designer verwenden können, um vom Modell aufgedeckte Trends zu untersuchen, ohne dass Sie dafür Daten nach Excel kopieren oder mehrere T-SQL-Abfragen auf der Datenquelle ausführen müssen.
In diesem Szenario werden Sie einige Diagramme erstellen, die die Korrelation zwischen Antwortzeit und Dienstqualität, die vom Modell ermittelt wurde, grafisch darstellen.
So erstellen Sie eine PivotChart, die einen Trend aus dem Miningmodell veranschaulicht
Doppelklicken Sie im Projektmappen-Explorer unter Datenquellensichten auf Call Center.dsv.
Klicken Sie auf der Registerkarte Call Center.dsv mit der rechten Maustaste auf die Tabelle FactCallCenter, und wählen Sie Daten durchsuchen aus.
Eine neue Registerkarte mit dem Titel FactCallCenter-Tabelle durchsuchen wird geöffnet. Diese Registerkarte enthält vier Abschnitte auf verschiedenen Registerkarten: Tabelle, PivotTable, Diagramm und PivotChart.
Klicken Sie auf die Registerkarte PivotChart.
Wählen Sie in der Diagramm-Feldliste die Option AverageTimePerIssue aus, und ziehen Sie sie dann auf die Diagrammfläche in das Feld mit der Bezeichnung Kategorienfelder hier ablegen.
Da die Quelldaten aus einer flachen Tabelle stammen, enthält die Hierarchie in der Diagramm-Feldliste die gleichen Informationen auf der Hierarchieebene und auf der Feldebene. Wenn Sie jedoch mit einem Cube oder einer Dimension arbeiten, kann die Hierarchie mehrere Elemente enthalten. Zum Beispiel könnte eine Datumshierarchie Felder wie Quartal, Monat oder Tag enthalten. Sie können entweder die ganze Hierarchie oder ein einzelnes Element der Hierarchie ins Diagramm ziehen.
Suchen Sie in der Diagramm-Feldliste nach ServiceGrade, und ziehen Sie den Eintrag in die Mitte der Diagrammfläche.
Das Diagramm wird aktualisiert, und am oberen Rand des Diagramms wird ein Feld mit der Bezeichnung Summe von ServiceGrade hinzugefügt.
Klicken Sie in der Symbolleiste auf das Sigma-Symbol, und wählen Sie Mittelwert aus.
Der Titel wird zu Durchschnitt von ServiceGrade aktualisiert.
Wählen Sie "Shift" in der Diagramm-Feldliste aus, und ziehen Sie den Eintrag anschließend auf die Diagrammfläche in das Feld mit der Bezeichnung Filterfelder hierher ziehen. Ziehen Sie WageType aus der Diagramm-Feldliste, und legen Sie den Eintrag neben "Shift" ab.
Jetzt können Sie nach Schicht filtern, um zu überprüfen, ob sich der Trend abhängig von der Schicht oder abhängig davon ändert, ob der Tag ein Feiertag oder ein Arbeitstag ist.
Wählen Sie AverageTimePerIssue am unteren Rand des Diagramms aus, und ziehen Sie es zurück in die Diagramm-Feldliste.
Wählen Sie in der Diagramm-Feldliste den Eintrag AverageTimePerLevelTwoOperators aus, und ziehen Sie ihn dann auf die Diagrammfläche in das Feld mit der Bezeichnung Kategorienfelder hier ablegen.
Das Diagramm wird aktualisiert, um die Korrelation zwischen einer Erhöhung der Telefonisten und der durchschnittlichen Dienstqualität anzuzeigen. Es scheint sich nicht um eine lineare Beziehung zu handeln. Sie können weiter experimentieren, indem Sie neue Felder im Diagramm ablegen oder den Diagrammtyp ändern.
Beachten Sie jedoch, dass diese Diagramme normalerweise nur einige wenige Attribute gleichzeitig darstellen können. Der Neural Network-Algorithmus hingegen analysiert zahlreiche komplexe Interaktionen zwischen einer Vielzahl von Eingaben. Das neuronale Netzwerkmodell erkennt außerdem viele Korrelationen, die für die Darstellung in einem Diagramm nicht deutlich genug sind.
Wenn Sie die Diagramme exportieren oder eine Präsentation eines komplexen neuronalen Netzwerkmodells erstellen möchten, können Sie auch die Data Mining-Vorlagen für Visio verwenden. Dieses frei verfügbare Add-In für Visio 2007 stellt ausgereifte, vom Benutzer anpassbare Diagramme für Data Mining-Modelle bereit, die Sie für Präsentationen oder Berichte verwenden können. Weitere Informationen finden Sie unter Data Mining Add-ins for Office 2007.
Zurück zum Anfang
Nächste Aufgabe in der Lektion
Siehe auch