Data Mining-Assistent (Analysis Services - Data Mining)
Der Data Mining-Assistent in MicrosoftSQL ServerAnalysis Services wird immer dann gestartet, wenn Sie einem Data Mining-Projekt eine neue Miningstruktur hinzufügen. Der Assistent unterstützt Sie dabei, neue Miningstrukturen zu definieren, und wählt die Datenquellen aus, die Sie für das Data Mining verwenden. Der Assistent kann auch die Daten in der Miningstruktur in Trainings- und Testsätze partitionieren und Sie dabei unterstützen, ein erstes Miningmodell für jede Struktur hinzuzufügen.
Der Inhalt einer Miningstruktur wird von einer vorhandenen Datenquellensicht oder einem Cube abgeleitet. Sie können wählen, welche Spalten in die Miningstruktur aufgenommen werden. Alle auf dieser Struktur basierenden Modelle können diese Spalten verwenden. Sie können es den Benutzern eines Data Mining-Modells ermöglichen, ein Drilldown für die Ergebnisse des Miningmodells auszuführen, um die zusätzlichen Spalten der Miningstruktur anzuzeigen, die selbst nicht im Miningmodell enthalten sind.
Sie müssen die folgenden Entscheidungen treffen, wenn Sie mit dem Data Mining-Assistenten eine Data Mining-Struktur und ein -Modell erstellen:
Ob die Data Mining-Struktur und die -Modelle von einer relationalen Datenbank oder von einem vorhandenen Cube in einer OLAP-Datenbank abgeleitet werden sollen.
Wie viele Daten für das Training verwendet und wie viele Daten für Tests zurückgehalten werden sollen. Wenn Sie die Daten einer Miningstruktur in einen Trainingssatz und einen Testsatz partitionieren, können alle auf dieser Struktur basierenden Modelle diesen Testsatz verwenden.
Welche Spalten oder Attribute für die Vorhersage und welche Spalten oder Attribute als Eingabe für die Analyse verwendet werden sollen. Jede Struktur muss auch einen Schlüssel enthalten, der einen Falldatensatz eindeutig identifiziert.
Welcher Algorithmus verwendet werden soll. Die in SQL ServerAnalysis Services bereitgestellten Algorithmen haben unterschiedliche Eigenschaften und erzeugen verschiedene Ergebnisse. Sie können mehrere Modelle mit unterschiedlichen Algorithmen erstellen oder die Parameter der Algorithmen ändern, um verschiedene Modelle zu erstellen. .
Der Data Mining-Assistent stellt Funktionalitäten bereit, die Ihnen helfen, diese Entscheidungen zu treffen:
Seiten des Assistenten, auf denen Sie die Fallmenge definieren. Sie können Falltabellen und geschachtelte Tabellen aus einer relationalen Datenquelle wählen oder eine OLAP-Datenquelle wählen, anschließend den Fallschlüssel und die Spalten auf Fallebene auswählen und optional Filter für den Cube festlegen.
Dialogfelder, die die Daten in den Spalten analysieren und eine Verwendung für die Spalten empfehlen.
Automatische Erkennung des Spalteninhalts und der Datentypen.
Automatische Aufteilung des Cubes, wenn das Miningmodell auf einer OLAP-Datenquelle basiert.
Nachdem Sie den Data Mining-Assistenten abgeschlossen haben, ändern Sie mit dem Data Mining-Designer die Miningstruktur und die -modelle, um die Genauigkeit des Modells sowie die Charakteristika der Struktur und der Modelle anzuzeigen, oder Vorhersagen mithilfe der Modelle durchzuführen.
Weitere Informationen finden Sie unterData Mining-Designer.
Verwenden des Data Mining-Assistenten
Fügen Sie eine neue Miningstruktur einem Analysis Services-Projekt hinzu, um den Data Mining-Assistenten zu starten. Verwenden Sie dazu den Projektmappen-Explorer oder in Business Intelligence Development Studio das Menü Projekt.
Der Data Mining-Assistent verfügt über zwei Zweige, abhängig davon, ob Ihre Datenquelle relational oder in einem Cube ist:
Relationale Miningmodelle
OLAP-Miningmodelle
Hinweis |
---|
Für ein Data Mining ist es nicht erforderlich, dass Sie einen Cube oder eine OLAP-Datenbank haben. Sofern Ihre Daten nicht bereits in einem Cube gespeichert sind oder Sie OLAP-Dimensionen oder die Ergebnisse von OLAP-Aggregationen oder -Berechnungen auswerten möchten, empfehlen wir die Verwendung einer relationalen Tabelle oder Datenquelle für das Data Mining. |
Relationale Miningmodelle
Wenn Sie ein Miningmodell aus einer relationalen Datenquelle in Analysis Services erstellen, geben Sie zunächst im Data Mining-Assistenten an, dass eine vorhandene relationale Datenbank zum Definieren der Modellstruktur verwendet werden soll. Sie haben auch die Möglichkeit, nur die Miningstruktur oder die Miningstruktur mit einem zugehörigen Data Mining-Modell zu erstellen. Wenn Sie sich dafür entscheiden, ein Miningmodell zu erstellen, müssen Sie die zu verwendende Data Mining-Technik angeben, indem Sie den geeignetsten Algorithmus für die gewünschte Data Mining-Analyse auswählen.
Weitere Informationen finden Sie unterData Mining-Algorithmen (Analysis Services - Data Mining).
Angeben der Datenquellensicht und der Tabellentypen
Mit den nächsten Schritten im Assistenten wählen Sie die gewünschte Datenquellensicht zum Definieren der Miningstruktur aus, und geben Sie eine Falltabelle an. Die Falltabelle wird zum Trainieren des Miningmodells und optional auch zum Testen des Modells verwendet. Sie können auch eine geschachtelte Tabelle angeben.
Die Auswahl der Falltabelle ist eine wichtige Entscheidung. Die Falltabelle sollte die Entitäten enthalten, die Sie analysieren möchten: z. B. Kunden und ihre demographischen Daten. Die geschachtelte Tabelle enthält in der Regel zusätzliche Informationen zu den Entitäten in der Falltabelle, etwa von dem Kunden durchgeführte Transaktionen oder Attribute, die eine n:1-Beziehung zu der Entität aufweisen. Eine mit der Falltabelle Kunden verknüpfte geschachtelte Tabelle könnte beispielsweise eine Liste der von jedem Kunden erworbenen Produkte oder eine Liste ihrer Hobbys enthalten. Weitere Informationen finden Sie unterGeschachtelte Tabellen (Analysis Services - Data Mining).
Angeben der Spaltenverwendung
Nachdem Sie die Falltabelle und die geschachtelten Tabellen angegeben haben, bestimmen Sie den Verwendungstyp für alle Spalten in den Tabellen, die in der Miningstruktur enthalten sein sollen. Wenn Sie keinen Verwendungstyp für eine Spalte angeben, wird die Spalte nicht in die Miningstruktur übernommen.
Es gibt vier Typen von Data Mining-Spalten: Schlüsselspalte, Eingabespalte, vorhersagbare Spalte oder eine Kombination aus Eingabespalte und vorhersagbarer Spalte. Schlüsselspalten enthalten einen eindeutigen Bezeichner für jede Zeile in einer Tabelle. Einige Miningmodelle, wie die Modelle auf der Basis von Sequenzcluster- und Zeitreihen-Algorithmen, können mehrere Schlüsselspalten enthalten. Diese mehrfachen Schlüssel sind jedoch keine Verbundschlüssel im relationalen Sinn, sondern müssen zur Unterstützung von Zeitreihen und der Analyse des Sequenzclustering ausgewählt werden. Weitere Informationen finden Sie unter Microsoft Time Series-Algorithmus oder Microsoft Sequence Clustering-Algorithmus.
Eingabespalten stellen die Informationen bereit, aus denen Vorhersagen erstellt werden. Vorhersagbare Spalten enthalten die Informationen, die im Miningmodell vorhergesagt werden sollen.
Eine Reihe von Tabellen kann z. B. Kundenbezeichner, demographische Informationen und die Geldbeträge enthalten, die jeder Kunde in einem bestimmten Laden ausgegeben hat. Durch den Kundenbezeichner werden die Kunden eindeutig identifiziert und darüber hinaus wird eine Verknüpfung der Falltabelle zu den geschachtelten Tabellen erstellt. Aus diesem Grund würden Sie diese Spalte als Schlüsselspalte verwenden. Sie könnten eine Auswahl von Spalten mit den demographischen Informationen als Eingabespalten verwenden und die Spalten, die den Geldbetrag beschreiben, den jeder Kunde ausgibt, als eine vorhersagbare Spalte. Sie könnten anschließend ein Miningmodell erstellen, das eine Beziehung zwischen demographischen Informationen und den Geldbeträgen herstellt, die ein Kunde in einem Laden ausgibt. Dieses Modell können Sie als Grundlage für gezieltes Marketing verwenden.
Der Data Mining-Assistent stellt das Feature Vorschlagen bereit, das aktiviert ist, wenn Sie eine vorhersagbare Spalte auswählen. Datasets enthalten häufig mehr Spalten als Sie für die Erstellung eines Miningmodells benötigen. Das Feature Vorschlagen berechnet einen numerischen Ergebniswert von 0 bis 1, der die Beziehung zwischen jeder Spalte im Dataset und der vorhersagbaren Spalte beschreibt. Auf Grundlage des Ergebniswerts empfiehlt das Feature Spalten, die als Eingabespalten für das Miningmodell verwendet werden können. Wenn Sie das Feature Vorschlagen verwenden, können Sie entweder die vorgeschlagenen Spalten verwenden, die Auswahl Ihren Anforderungen entsprechend anpassen oder die Vorschläge ignorieren.
Angeben der Inhalts- und Datentypen
Nachdem Sie mindestens eine vorhersagbare Spalte und Eingabespalte ausgewählt haben, können Sie für jede Spalte die Inhalts- und Datentypen angeben.
Weitere Informationen finden Sie unterDatentypen (Data Mining), Inhaltstypen (Data Mining).
Daten in Trainings- und Testsätze aufteilen
Der letzte Schritt vor dem Abschließen des Assistenten besteht im Partitionieren Ihrer Daten in Trainings- und Testsätze. Die Möglichkeit, einen Teil der Daten für den Test zurückzuhalten, ist neu in SQL Server 2008 und bietet einen leicht zu verwendenden Mechanismus, um sicherzustellen, dass für alle der Miningstruktur zugeordneten Miningmodelle ein konsistenter Satz von Testdaten zur Verfügung steht.
Sie können angeben, dass ein bestimmter Prozentsatz der Daten für den Test und die restlichen Daten für Trainingszwecke verwendet werden sollen. Sie können auch die Anzahl der für Tests zu verwendenden Fälle angeben. Die Definition der Partition wird zusammen mit der Miningstruktur gespeichert. Dadurch steht, wenn Sie basierend auf der Struktur ein neues Modell erstellen, das Testdataset für die Bewertung der Genauigkeit des Modells immer zur Verfügung.
Weitere Informationen finden Sie unterÜberprüfen von Data Mining-Modellen (Analysis Services - Data Mining), Partitionieren von Daten in Trainings- und Testsätze (Analysis Services - Data Mining).
Abschließen des Assistenten
Der letzte Schritt im Assistenten besteht aus der Benennung der Miningstruktur und dem damit verbundenen Miningmodell. Wenn Sie Drillthrough zulassen auswählen, wird die Drillthroughfunktionalität im Modell aktiviert. Auf diese Weise können Benutzer, die die entsprechenden Berechtigungen haben, die Quelldaten analysieren, die beim Erstellen des Modells verwendet wurden.
Weitere Informationen finden Sie unter Verwenden von Drillthrough für Miningmodelle und Miningstrukturen (Analysis Services - Data Mining).
Zurück zum Anfang
OLAP-Miningmodelle
Beim Erstellen eines mehrdimensionalen Miningmodells aus einer OLAP-Datenquelle in Analysis Services geben Sie zuerst im Data Mining-Assistenten an, dass Sie einen vorhandenen Cube zum Definieren der Struktur des Modells verwenden möchten. Sie haben auch die Möglichkeit, nur die Miningstruktur oder die Miningstruktur zusammen mit einem zugehörigen Data Mining-Modell zu erstellen. Wenn Sie sich dafür entscheiden, ein Miningmodell zu erstellen, dann müssen Sie die zu verwendende Data Mining-Technik angeben, indem Sie den geeignetsten Algorithmus für Ihr Geschäftsproblem auswählen.
Weitere Informationen finden Sie unterData Mining-Algorithmen (Analysis Services - Data Mining).
Angeben der Datenquelle und des Fallschlüssels
Wählen Sie dann die Cubedimension aus, die als Datenquelle zum Definieren der Miningstruktur verwendet werden soll. Wählen Sie anschließend ein Attribut aus, das als Schlüssel oder Fallschlüssel des Miningmodells verwendet werden soll.
Hinweis |
---|
Das von Ihnen erstellte OLAP-Miningmodell und der Quellcube, den Sie zum Erstellen des Modells verwenden, müssen sich in derselben Analysis Services-Datenbank befinden. |
Angeben der Spalten auf Fallebene und der Spaltenverwendung
Nachdem Sie einen Fallschlüssel ausgewählt haben, werden die Attribute und Measures, die mit dem Schlüssel verbunden sind, in einer Strukturansicht auf der nächsten Seite des Assistenten angezeigt. Wählen Sie aus dieser Liste die Attribute und Measures aus, die als Spalten der Struktur verwendet werden sollen. Diese Spalten werden Spalten auf Fallebene genannt. Wie beim relationalen Modell müssen Sie darüber hinaus angeben, wie jede Spalte in der Struktur verwendet werden soll. Diese Einstellungen nehmen Sie auf der nächsten Seite des Assistenten vor. Bei den Spalten kann es sich um Schlüssel-, Eingabe, vorhersagbare, Eingabe- und vorhersagbare und nicht ausgewählte Spalten handeln.
Hinzufügen von geschachtelten Tabellen
Der OLAP-Zweig des Data Mining-Assistenten beinhaltet die Option, geschachtelte Tabellen der Miningmodellstruktur hinzuzufügen. Klicken Sie auf der Seite Verwendung der Miningmodellspalte angeben des Assistenten auf Geschachtelte Tabellen hinzufügen, um ein weiteres Dialogfeld zu öffnen, in dem Sie durch die Schritte zum Hinzufügen von geschachtelten Tabellen geführt werden. Nur die für die Dimension gültigen Measuregruppen werden angezeigt. Wählen Sie eine Measuregruppe aus, die den Fremdschlüssel der Falldimension enthält. Geben Sie dann die Verwendung für jede Spalte in der Measuregruppe entweder als Eingabe oder als vorhersagbare Spalte an. Im Anschluss daran fügt der Assistent die geschachtelte Tabelle der Falltabelle hinzu. Der Standardname der geschachtelten Tabelle ist der Name der geschachtelten Dimension. Sie können jedoch die geschachtelte Tabelle und die darin befindlichen Spalten umbenennen. Weitere Informationen finden Sie unterGeschachtelte Tabellen (Analysis Services - Data Mining).
Angeben der Inhalts- und Datentypen
Nachdem Sie mindestens eine vorhersagbare Spalte und Eingabespalte ausgewählt haben, können Sie für jede Spalte die Inhalts- und Datentypen angeben.
Weitere Informationen finden Sie unterDatentypen (Data Mining), Inhaltstypen (Data Mining).
Aufteilen des Quellcubes
Im OLAP-Zweig des Assistenten können Sie den Bereich des Miningmodells beschränken, indem Sie den Quellcube aufteilen, bevor Sie mit dem Training des Miningmodells beginnen. Das Aufteilen des Cubes in Slices ähnelt dem Hinzufügen einer WHERE-Klausel zu einer SQL-Anweisung. Wenn der Cube z. B. Informationen zum Kauf von Produkten enthält, können Sie für ein Altersattribut als Begrenzung über 30 Jahre, für eine Geschlechterspalte nur weiblich und für das Kaufdatum nicht vor März 2000 festlegen. Auf diese Weise können Sie den Bereich für das Modell auf eine weibliche Person begrenzen, die über 30 Jahre alt ist und Produkte nach März 2000 eingekauft hat.
Daten in Trainings- und Testsätze aufteilen
Der letzte Schritt vor dem Abschließen des Assistenten besteht im Partitionieren der im Cube verfügbaren Daten in Trainings- und Testsätze. Die Definition der Partition wird zusammen mit der Miningstruktur gespeichert. Dadurch steht, wenn Sie basierend auf der Struktur ein neues Modell erstellen, das Testdataset für die Bewertung der Genauigkeit des Modells immer zur Verfügung.
Weitere Informationen finden Sie unterÜberprüfen von Data Mining-Modellen (Analysis Services - Data Mining), Partitionieren von Daten in Trainings- und Testsätze (Analysis Services - Data Mining).
Abschließen des Assistenten
Der letzte Schritt im Assistenten besteht aus der Benennung der Miningstruktur und dem damit verbundenen Miningmodell. Wenn Sie Drillthrough zulassen auswählen, wird die Drillthroughfunktionalität im Modell aktiviert. Auf diese Weise können Benutzer, die die entsprechenden Berechtigungen haben, die Quelldaten analysieren, die beim Erstellen des Modells verwendet wurden. Sie können außerdem angeben, ob eine neue Dimension dem auf dem Minigmodell basierenden Quellcube hinzugefügt oder ob ein neuer Cube aus dem Miningmodell erstellt werden soll.
Weitere Informationen finden Sie unter Verwenden von Drillthrough für Miningmodelle und Miningstrukturen (Analysis Services - Data Mining).
Zurück zum Anfang