Erstellen einer neuronalen Netzwerkstruktur und eines neuronalen Netzwerkmodells (Data Mining-Lernprogramm für Fortgeschrittene)
Gilt für: SQL Server 2016 Preview
Um ein Data Mining-Modell zu erstellen, müssen Sie zuerst mithilfe des Data Mining-Assistenten eine neue Miningstruktur auf Grundlage der neuen Datenquellensicht erstellen. In diesem Task erstellen Sie mit dem Assistenten eine Miningstruktur und zugleich ein zugehöriges Miningmodell auf Grundlage des Microsoft Neural Network-Algorithmus.
Da neuronale Netzwerke äußerst flexibel sind und viele Kombinationen von Eingaben und Ausgaben analysieren können, sollten Sie mit mehreren Methoden der Datenverarbeitung experimentieren, um optimale Ergebnisse zu erhalten. Möglicherweise möchten z. B. die Methode anpassen, das numerische Ziel für Dienstqualität klassifiziert, oder gruppiert werden, um bestimmte geschäftsanforderungen zu erfüllen. Hierzu fügen Sie der Miningstruktur eine neue Spalte hinzu, die numerische Daten auf eine andere Weise gruppiert, und erstellen dann ein Modell, das die neue Spalte verwendet. Mithilfe dieser Miningmodelle werden Daten durchsucht.
Wenn Sie vom neuronalen Netzwerkmodell dann gelernt haben, welche Faktoren sich am stärksten auf Ihre geschäftliche Fragestellung auswirken, erstellen Sie ein separates Modell für die Vorhersage und Bewertung. Sie verwenden hierzu den Microsoft Logistic Regression-Algorithmus, der auf dem neuronalen Netzwerkmodell basiert, aber für das Suchen nach einer Lösung auf Grundlage von bestimmten Eingaben optimiert ist.
Schritte
Erstellen der standardmäßigen Miningstruktur und des Miningmodells
Verwenden der Diskretisierung zum Klassifizieren der vorhersagbaren Spalte
Kopieren der Spalte und Ändern der Diskretisierungsmethode für ein anderes Modell
Erstellen eines Alias für die vorhersagbare Spalte, damit Modelle verglichen werden können
Verarbeiten Sie aller Modelle
Erstellen der Callcenter-Standardstruktur
Im Projektmappen-Explorer SQL Server Data Tools (SSDT), mit der rechten Maustaste Miningstrukturen und wählen Sie Neue Miningstruktur.
Klicken Sie auf der Seite Willkommen auf Weiter.
Auf der Definitionsmethode auswählen Überprüfen Sie, ob Seite aus vorhandener relationaler Datenbank oder vorhandenem Data Warehouse ausgewählt ist, und klicken Sie dann auf Weiter.
Auf der Data Mining-Struktur erstellen Seite, überprüfen Sie, ob die Option Miningstruktur mit Miningmodell erstellen ausgewählt ist.
Klicken Sie auf die Dropdownliste für die Option welche Datamining-Technik möchten Sie verwenden?, und wählen Sie dann Microsoft Neural Networks.
Da die logistischen Regressionsmodelle auf den neuronalen Netzwerken basieren, können Sie die gleiche Struktur wiederverwenden und ein neues Miningmodell hinzufügen.
Klicken Sie auf Weiter.
Die Datenquellensicht auswählen Seite wird angezeigt.
Unter Verfügbare Datenquellensichten, Option Call Center, und klicken Sie auf Weiter.
Auf der Tabellentypen angeben Seite der Fall das Kontrollkästchen neben der FactCallCenter Tabelle. Wählen Sie nichts für DimDate. Klicken Sie auf Weiter.
Auf der Trainingsdaten angeben Seite Schlüssel neben der Spalte FactCallCenterID.
Wählen Sie die Predict und Eingabe Kontrollkästchen.
Wählen Sie die Schlüssel, Eingabe, und Predict Kontrollkästchen wie in der folgenden Tabelle dargestellt:
Tabellen/Spalten Schlüssel/Eingabe/Vorhersagen AutomaticResponses Eingabe AverageTimePerIssue Eingabe/Vorhersagen Aufrufe Eingabe DateKey Nicht verwenden DayOfWeek (TagderWoche) Eingabe FactCallCenterID Key IssuesRaised Eingabe LevelOneOperators Eingabe/Vorhersagen LevelTwoOperators Eingabe Orders Eingabe/Vorhersagen ServiceGrade Eingabe/Vorhersagen Shift Eingabe TotalOperators Nicht verwenden WageType Eingabe Beachten Sie, dass mehrere vorhersagbare Spalten ausgewählt wurden. Eine der Stärken des Neural Network-Algorithmus besteht in seiner Fähigkeit, alle möglichen Kombinationen von Eingabe- und Ausgabeattributen zu analysieren. Für ein großes Dataset ist dies nicht empfehlenswert, da es die Verarbeitungszeit exponentiell verlängern könnte.
Auf der Inhalt und Datentyp der Spalten angeben Seite überprüfen, ob das Raster die Spalten, Inhaltstypen und Datentypen, wie in der folgenden Tabelle gezeigt enthält, und klicken Sie dann auf Weiter.
Spalten Inhaltstyp Datentypen AutomaticResponses Continuous Long AverageTimePerIssue Continuous Long Aufrufe Continuous Long DayOfWeek (TagderWoche) Discrete Text FactCallCenterID Key Long IssuesRaised Continuous Long LevelOneOperators Continuous Long LevelTwoOperators Continuous Long Orders Continuous Long ServiceGrade Continuous Double Shift Discrete Text WageType Discrete Text Auf der Erstellen Tests festgelegten Seite, deaktivieren Sie das Textfeld für die Option Prozentsatz der zu testenden Daten. Klicken Sie auf Weiter.
Auf der der Assistent Seite für die Miningstrukturname, Typ Call Center.
Für die Miningmodellname, Typ Callcenterstandard NN, und klicken Sie dann auf Fertig stellen.
Die Drillthrough zulassen Feld ist deaktiviert, da Daten mit neuronalen netzwerkmodellen kein Drillthrough kann nicht.
Im Projektmappen-Explorer mit der rechten Maustaste des Namens der Datamining-Struktur, die Sie gerade erstellt haben, und wählen Sie Prozess.
Verwenden der Diskretisierung zum Klassifizieren der Zielspalte
Wenn Sie ein neuronales Netzwerkmodell erstellen, das über ein numerisches vorhersagbares Attribut verfügt, behandelt der Microsoft Neural Network-Algorithmus das Attribut in der Standardeinstellung als kontinuierliche Zahl. Zum Beispiel ist das ServiceGrade-Attribut eine Zahl, die theoretisch zwischen 0,00 (alle Anrufe werden beantwortet) und 1,00 (alle Anrufer hängen auf) liegt. In diesem Dataset verfügen die Werte über die folgende Verteilung:
Bei der Verarbeitung des Modells könnten die Ausgaben daher anders als erwartet gruppiert werden. Wenn Sie mithilfe der Clusterfunktion um die beste Gruppen von Werten zu ermitteln, unterteilt der Algorithmus die Werte in ServiceGrade z. B. in Bereiche wie folgt: 0,0748051948 - 0,09716216215. Obwohl diese Gruppierung mathematisch korrekt ist, sind solche Bereiche für Geschäftsbenutzer möglicherweise weniger sinnvoll.
In diesem Schritt gestalten Sie das Ergebnis intuitiver, indem Sie die numerischen Werte anders gruppieren und Kopien der numerischen Datenspalte erstellen.
Funktionsweise der Diskretisierung
Analysis Services stellt eine Vielzahl von Methoden zur Klasseneinteilung oder zur Verarbeitung numerischer Daten bereit. In der folgenden Tabelle werden die Unterschiede zwischen den Ergebnissen veranschaulicht, wenn das ServiceGrade-Ausgabeattribut mit drei verschiedenen Methoden verarbeitet wurde:
Behandlung als kontinuierliche Zahl.
Ermittlung der besten Anordnung von Werten durch Verwendung von Clustering durch den Algorithmus.
Angabe, dass die Zahlen durch die Equal Areas-Methode klassifiziert werden.
Standardmodell (kontinuierlich) | Klassifiziert durch Clustering | Klassifiziert durch gleiche Bereiche |
---|---|---|
Wert: fehlt Unterstützung: 0 WERT: 0.09875 UNTERSTÜTZUNG: 120 |
WERT: < 0,0748051948 UNTERSTÜTZUNG: 34 WERT: 0,0748051948 - 0,09716216215 UNTERSTÜTZUNG: 27 WERT: 0,09716216215 - 0.13297297295 UNTERSTÜTZUNG: 39 WERT: 0.13297297295 - 0.167499999975 UNTERSTÜTZUNG: 10 WERT: > = 0.167499999975 UNTERSTÜTZUNG: 10 |
WERT: < 0,07 UNTERSTÜTZUNG: 26 WERT: 0,07 - 0,00 UNTERSTÜTZUNG: 22 WERT: 0,09 - 0,11 UNTERSTÜTZUNG: 36 WERT: > = 0,12 UNTERSTÜTZUNG: 36 |
Hinweis
Diese Statistik kann nach der Verarbeitung aller Daten vom Knoten für Randstatistik des Modells abgerufen werden. Weitere Informationen zu randstatistik finden Sie unter Miningmodellinhalt für neuronale Netzwerkmodelle ( Analysis Services – Datamining ).
In dieser Tabelle zeigt die Spalte VALUE an, wie die Zahl für ServiceGrade behandelt wurde. Die Spalte SUPPORT zeigt Ihnen, wie viele Fälle über diesen Wert verfügen oder in diesen Bereich fallen.
Verwenden von fortlaufenden Nummern (Standard)
Wenn Sie die Standardmethode verwenden, berechnet der Algorithmus Ergebnisse für 120 unterschiedliche Werte, deren Mittelwert 0.09875 ist. Sie können auch die Anzahl der fehlenden Werte sehen.
Klassifizieren durch Clustering
Wenn Sie den Microsoft Clustering-Algorithmus die optionale Gruppierung von Werten bestimmen lassen, gruppiert der Algorithmus die Werte für ServiceGrade in fünf (5) Bereiche. Die Anzahl von Fällen in jedem Bereich ist nicht gleichmäßig verteilt, wie Sie in der Unterstützungsspalte sehen können.
Klassifizieren durch gleiche Bereiche
Wenn Sie diese Methode auswählen, zwingt der Algorithmus die Werte in Buckets gleicher Größe, die dann die Ober- und die Untergrenzen jedes Bereichs ändern. Sie können die Anzahl der Buckets angeben, sollten aber vermeiden, dass ein Bucket zu wenige Werte enthält.
Weitere Informationen zu klassifizierungsoptionen finden Sie unter Diskretisierungsmethoden ( Data Mining ).
Alternativ können Sie statt die numerischen Werte zu verwenden, könnten, fügen Sie eine separate abgeleitete Spalte, die die Dienstqualitäten in vordefinierte Zielbereiche, z. B. klassifiziert bewährte (ServiceGrade < = 0,05), annehmbar (0,10 > ServiceGrade > 0,05), und schlechte (ServiceGrade > = 0,10).
Erstellen Sie eine Kopie einer Spalte und Ändern der Diskretisierungsmethode
Sie stellen eine Kopie der Miningspalte, die das ServiceGrade-Zielattribut enthält und die Art der Zahlen gruppiert werden. Sie können mehrere Kopien einer Spalte in einer Miningstruktur erstellen, einschließlich des vorhersagbaren Attributs.
Für dieses Lernprogramm verwenden Sie die Equal Areas-Methode der Diskretisierung und geben vier Buckets an. Die Gruppierungen, die sich aus dieser Methode ergeben, liegen relativ nah an den Zielwerten, die für Ihre Geschäftsbenutzer von Interesse sind.
So erstellen Sie eine benutzerdefinierte Kopie einer Spalte in der Miningstruktur
Doppelklicken Sie im Projektmappen-Explorer auf die soeben erstellte Miningstruktur.
Klicken Sie auf der Registerkarte Miningstruktur Miningstrukturspalte hinzufügen.
In der Spalte Option ServiceGrade aus der Liste im Dialogfeld Quellspalte, klicken Sie dann auf OK.
Der Liste der Miningstrukturspalten wird eine neue Spalte hinzugefügt. In der Standardeinstellung hat die neue Miningspalte den gleichen Namen wie die vorhandene Spalte mit einem numerischen Postfix: z. B. ServiceGrade 1. Sie können den Namen dieser Spalte in einen aussagekräftigeren Namen ändern.
Geben Sie auch die Diskretisierungsmethode an.
Mit der rechten Maustaste ServiceGrade 1, und wählen Sie Eigenschaften.
In der Eigenschaften Fenster Suchen den Namen -Eigenschaft, und ändern Sie den Namen in Dienstqualität-Klassifizierung .
Im angezeigten Dialogfeld können Sie auswählen, ob Sie die gleiche Änderung für die Namen aller zugehörigen Miningmodellspalten übernehmen möchten. Klicken Sie auf Nein.
In der Eigenschaften Fenster, suchen Sie den Abschnitt Datentyp und erweitern Sie ihn bei Bedarf.
Ändern Sie den Wert der Eigenschaft Content aus fortlaufend zu Discretized.
Die folgenden Eigenschaften sind nun verfügbar. Ändern Sie die Werte der Eigenschaften, wie in der folgenden Tabelle angezeigt:
Eigenschaft Standardwert Neuer Wert DiscretizationMethod Continuous EqualAreas DiscretizationBucketCount Kein Wert 4 Hinweis
Der Standardwert von DiscretizationBucketCount tatsächlich ist 0, was bedeutet, dass der Algorithmus die optimale Anzahl der Buckets automatisch bestimmt. Geben Sie daher 0 ein, wenn Sie den Wert dieser Eigenschaft auf den Standardwert zurücksetzen möchten.Klicken Sie im Data Mining-Designer auf die Miningmodelle Registerkarte.
Beachten Sie, dass wenn Sie eine Kopie einer Miningstrukturspalte hinzufügen, das verwendungsflag der Kopie automatisch auf ignorieren. Wenn Sie einer Miningstruktur eine Spaltenkopie hinzufügen, werden Sie in der Regel nicht die Kopie zusammen mit der ursprünglichen Spalte für eine Analyse verwenden. Denn wenn der Algorithmus eine starke Korrelation zwischen den beiden Spalten feststellt, können andere Beziehungen leicht übersehen werden.
Die Miningstruktur ein neues Miningmodell hinzufügen
Sie haben nun eine neue Gruppierung für das Zielattribut erstellt und müssen ein neues Miningmodell hinzufügen, das die diskretisierte Spalte verwendet. Wenn dies abgeschlossen ist, verfügt die Callcenter-Miningstruktur über zwei Miningmodelle:
Das Miningmodell Callcenterstandard NN behandelt die ServiceGrade-Werte als kontinuierlichen Bereich.
Erstellen Sie ein neues Miningmodell Callcenterklassifizierung NN, die als Zielergebnisse die Werte der Spalte ServiceGrade in vier Buckets gleicher Größe verteilt verwendet.
So fügen Sie ein Miningmodell auf Grundlage der neuen diskretisierten Spalte hinzu
Im Projektmappen-Explorer mit der rechten Maustaste der Miningstruktur, die Sie gerade erstellt haben, und wählen Sie Öffnen.
Klicken Sie auf die Registerkarte Miningmodelle .
Klicken Sie auf ein verknüpftes Miningmodell erstellen.
In der Neues Miningmodell im Dialogfeld für Modellname, Typ Callcenterklassifizierung NN. In der der Name des Algorithmus Dropdownliste Microsoft Neural Network.
Suchen Sie in der Liste von Spalten in das neue Miningmodell ServiceGrade, und ändern Sie die Verwendung von Predict zu ignorieren.
Auf ähnliche Weise suchen ServiceGrade-Klassifizierung, und ändern Sie die Verwendung von ignorieren zu Predict.
Erstellen eines Alias für die Zielspalte
In der Regel können Sie keine Miningmodelle vergleichen, die unterschiedliche vorhersagbare Attribute verwenden. Sie können jedoch einen Alias für eine Miningmodellspalte erstellen. Also können Sie die Spalte ServiceGrade-Klassifizierung im Miningmodell umbenennen, so, dass sie den gleichen Namen wie die ursprüngliche Spalte. Anschließend können Sie diese beiden Modelle trotz der unterschiedlichen Diskretisierung der Daten in einem Genauigkeitsdiagramm direkt vergleichen.
So fügen Sie einen Alias für eine Miningstrukturspalte in einem Miningmodell hinzu
In der Miningmodelle Registerkarte Struktur, wählen Sie die ServiceGrade-Klassifizierung.
Beachten Sie, dass die Eigenschaften Fenster zeigt die Eigenschaften des ScalarMiningStructureColumn-Objekts.
Klicken Sie unter der Spalte ServiceGrade-Klassifizierung NN für das Miningmodell auf die Zelle, die der Spalte ServiceGrade-Klassifizierung entspricht.
Beachten Sie, das jetzt die Eigenschaften Fenster zeigt die Eigenschaften des MiningModelColumn-Objekts.
Suchen Sie den Namen -Eigenschaft, und ändern Sie den Wert auf ServiceGrade.
Suchen Sie die Beschreibung Eigenschaft, und geben temporärer Spaltenalias.
Die Eigenschaften Fenster sollten die folgende Informationen enthalten:
Eigenschaft Wert Description Temporärer Spaltenalias ID ServiceGrade-Klassifizierung Modellierungsflags Name Service Grade SourceColumn-ID Service Grade 1 Verwendung Vorhersagen Klicken Sie auf eine beliebige Stelle der Miningmodell Registerkarte.
Das Raster wird aktualisiert, um die neue temporäre Spaltenalias ServiceGrade, neben der Spaltenverwendung. Das Raster mit der Miningstruktur und zwei Miningmodellen sollte wie folgt aussehen:
Struktur Call Center Default NN Callcenterklassifizierung NN Microsoft Neural Network Microsoft Neural Network AutomaticResponses Eingabe Eingabe AverageTimePerIssue Vorhersagen Vorhersagen Aufrufe Eingabe Eingabe DayOfWeek (TagderWoche) Eingabe Eingabe FactCallCenterID Key Key IssuesRaised Eingabe Eingabe LevelOneOperators Eingabe Eingabe LevelTwoOperators Eingabe Eingabe Orders Eingabe Eingabe ServiceGrade-Klassifizierung Ignorieren Vorhersagen (ServiceGrade) ServiceGrade Vorhersagen Ignorieren Shift Eingabe Eingabe Gesamtzahl Telefonisten Eingabe Eingabe WageType Eingabe Eingabe
Verarbeiten aller Modelle
Um abschließend sicherzustellen, dass die erstellten Modelle einfach vergleichbar sind, legen Sie den Parameter für den Zurückhaltungsausgangswert für den Standard und die klassifizierten Modelle fest. Durch das Festlegen eines Ausgangswerts wird sichergestellt, dass in allen Modellen die Verarbeitung der Daten von der gleichen Position aus gestartet wird.
Hinweis
Wenn Sie keinen numerischen Wert für den Ausgangswertparameter angeben, wird dieser in SQL Server Analysis Services anhand des Modellnamens generiert. Da die Modelle immer andere Namen haben, müssen Sie einen Ausgangswert festlegen und so sicherstellen, dass sie die Daten in der gleichen Reihenfolge verarbeiten.
So geben Sie den Ausgangswert an und verarbeiten die Modelle
In der Miningmodell Registerkarte, mit der rechten Maustaste der Spalte, für das Modell mit dem Namen Callcenter - LR aus, und wählen Algorithmusparameter festlegen.
Klicken Sie in der Zeile für den HOLDOUT_SEED-Parameter, auf die leere Zelle unter Wert, und geben Sie 1. Klicken Sie auf OK. Wiederholen Sie diesen Schritt für jedes der Struktur zugeordnete Modell.
Hinweis
Welchen Wert Sie als Ausgangswert auswählen, ist gleichgültig, solange für alle verwandten Modelle der gleiche Ausgangswert verwendet wird.In der Miningmodelle Klicken Sie im Menü Miningstruktur verarbeiten und alle Modelle. Klicken Sie auf Ja , um das aktualisierte Data Mining-Projekt auf dem Server bereitzustellen.
Klicken Sie im Dialogfeld Miningmodell verarbeiten auf Ausführen.
Klicken Sie auf Schließen , um das Dialogfeld Verarbeitungsstatus zu schließen, und klicken Sie im Dialogfeld Miningmodell verarbeiten erneut auf Schließen .
Nachdem Sie nun die zwei zugehörigen Miningmodelle erstellt haben, durchsuchen Sie die Daten auf ihre Beziehungen.
Nächste Aufgabe in der Lektion
Untersuchen des Callcentermodells ( Datamining-Lernprogramm für fortgeschrittene )