Hinzufügen von Miningmodellen zu einer Struktur (Analysis Services - Data Mining)
Während eine Miningstruktur die Datendomäne definiert, definiert ein Miningmodell, wie die Daten in dieser Domäne auf ein bestimmtes Problem angewendet werden. Nachdem Sie eine Miningstruktur erstellt haben, können Sie mehrere Miningmodelle zur Struktur hinzufügen. Jedes Mal, wenn Sie ein Modell erstellen, können Sie ein anderes Geschäftsproblem in Angriff nehmen. Sie können beispielsweise die Parameter ändern, um einen etwas anderen Ansatz zu verwenden. Sie können eine andere Datenteilmenge verwenden, um unterschiedliche Ergebnisse zu erhalten, oder Sie können für eine Zielgruppe typische Muster extrahieren.
Weitere Informationen finden Sie unterErstellen einer neuen Miningstruktur, Data Mining-Assistent (Analysis Services - Data Mining), Verwalten von Miningstrukturen im Data Mining-Designer
Erstellen eines neuen Miningmodells
Es gibt zwei Ansätze zum Erstellen von Miningmodellen. Sie können die Miningstruktur definieren und dann mit anderen Modellen experimentieren, die auch diese Struktur verwenden. Alternativ können Sie das gewünschte Modell und anschließend anhand der generierten Struktur weitere Modelle erstellen.
Wenn Sie den Data Mining-Assistenten für ein neues Miningmodell verwenden, erstellen Sie zunächst eine Miningstruktur. Der Assistent bietet Ihnen dann die Option, ein erstes Miningmodell hinzuzufügen und ein Trainings- und Testdataset innerhalb dieser Struktur zu konfigurieren. Sie müssen jedoch nicht sofort ein Modell erstellen. Wenn Sie nur die Struktur erstellen, müssen Sie nicht entscheiden, welche Spalte als vorhersagbares Attribut verwendet werden soll oder wie die Daten in einem bestimmten Modell verwendet werden sollen. Stattdessen richten Sie nur die allgemeine Datenstruktur ein, die Sie künftig verwenden möchten. Später können Sie mit Data Mining-Designer neue Miningmodelle hinzufügen, die auf der Struktur basieren.
Wenn Sie bereits wissen, welches Miningmodell Sie konstruieren möchten, können Sie die Struktur erstellen und anschließend mit dem Data Mining-Assistenten Ihr erstes Modell zur Miningstruktur hinzufügen. Nachdem der Assistent den Vorgang beendet hat, können Sie weitere Modelle zur Struktur hinzufügen.
Hinweis |
---|
In DMX fängt die CREATE MINING MODEL-Anweisung mit dem Miningmodell an. Das heißt, Sie definieren die Auswahl des Miningmodells, und Analysis Services generiert die zugrunde liegende Struktur automatisch. Später können Sie mit der ALTER STRUCTURE… ADD MODEL-Anweisung neue Miningmodelle zur Struktur hinzufügen. |
Weitere Informationen finden Sie unter Verwalten von Miningmodellen im Data Mining-Designer.
Definition eines Miningmodells
- Nachdem Sie Ihre Datendomäne definiert haben, weisen Sie Analysis Services an, wie die einzelnen Spalten in den Daten verwendet werden sollen, indem Sie den Spalteninhalt und die Spaltenverwendung festlegen. Es ist nicht erforderlich, jede Spalte der Data Mining-Struktur in Ihrem neuen Miningmodell zu verwenden. Auch wenn zwei Modelle auf der gleichen Struktur basieren, können Sie Analysis Services anweisen, eine bestimmte Spalte für ein Modell zu ignorieren. Weitere Informationen hierzu finden Sie unter Logische Architektur (Analysis Services - Data Mining).
Auswahl eines Algorithmus
Wenn Sie ein Modell zu einer Struktur hinzufügen, müssen Sie einen Data Mining-Algorithmus für dieses Modell auswählen. Jeder Algorithmus führt eine andere Analyse durch. Bei einigen Algorithmen bestehen unterschiedliche Anforderungen im Hinblick auf die Anzahl und den Typ der Datenspalten, die für die Eingabe oder die Vorhersage verwendet werden.
Abhängig vom jeweils ausgewählten Algorithmus werden einige Datenspalten, die Sie in die Miningstruktur aufgenommen haben, möglicherweise ignoriert oder müssen in einen anderen Datentyp konvertiert werden. Möglicherweise müssen die Werte auch entfernt werden. Der Data Mining-Assistent ändert automatisch einige Werte, damit das Modell funktioniert. In anderen Fällen wird jedoch empfohlen, die Daten zuerst zu reparieren oder eine erforderliche Spalte, wie einen Fallschlüssel, hinzuzufügen.
In einigen Fällen können Sie den Algorithmus, der in einem Modell verwendet wird, ändern. Die meisten Änderungen in der Definition des Modells erfordern jedoch eine erneute Verarbeitung des Modells und seiner Daten. Im Allgemeinen sollten Sie ein Modell bei einer Änderung des verwendeten Algorithmus grundsätzlich als neu und als erneut zu verarbeiten betrachten.
Weitere Informationen finden Sie unterData Mining-Algorithmen (Analysis Services - Data Mining).
Angeben der Spaltenverwendung
Nachdem Sie einen Algorithmus ausgewählt haben, müssen Sie angeben, wie der Algorithmus die Daten in der Struktur verarbeiten soll. Dazu gehört die Auswahl einer oder mehrerer vorhersagbarer Spalten, sofern das Modell eine solche Spalte erfordert, die Auswahl von Spalten, die als Eingaben dienen sollen, sowie das Angeben eines Fallschlüssels oder eines Schlüssels für die geschachtelte Tabelle. Für jedes Modell können diese Spaltendefinitionen jeweils variieren, auch wenn die Modelle dieselben Daten verwenden, da die Anforderungen für die einzelnen Algorithmen unterschiedlich sind. Es wird empfohlen, möglichst nur die Spalten auszuwählen, die für die Analyse am nützlichsten sind. Nicht erforderliche Daten erhöhen die Verarbeitungszeit und können sich auf die Qualität der Ergebnisse auswirken. Der Data Mining-Assistent umfasst das optionale Feature Vorschlagen, das die in der Struktur enthaltenen Spalten analysiert und anhand eines auf Entropie basierenden Ergebnisses die Spalten empfiehlt, die die meisten Informationen bereitstellen.
Weitere Informationen finden Sie unterMiningmodellspalten, Festlegen von Eigenschaften in einem Miningmodell.
Angeben von Spalteninhalt
- Für einige Spalten müssen Sie gegebenenfalls auch den Spalteninhalt angeben. In SQL Server Data Mining weist die Eigenschaft Content Type der einzelnen Datenspalten den Algorithmus an, wie die Daten in der entsprechenden Spalte zu verarbeiten sind. Wenn Ihre Daten eine Spalte Income mit verschiedenen Werten beinhalten, müssen Sie angeben, dass die Spalte fortlaufende Nummern enthält, indem Sie den Content Type auf Continuous festlegen. Sie können jedoch auch angeben, dass die Nummern in der Spalte Income in Buckets gruppiert werden. Legen Sie dazu die Eigenschaft Content Type auf Discretized fest, und geben Sie wahlweise die genaue Zahl der Buckets an. Sie können verschiedene Modelle erstellen, die die Spalten auf unterschiedliche Weise verarbeiten. Beispielsweise können Sie ein Modell ausprobieren, das Kunden in drei Altersgruppen einteilt, und ein anderes Modell mit zehn Altersgruppen.
Weitere Informationen finden Sie unterDatentypen (Data Mining), Inhaltstypen (Data Mining).