Microsoft Time Series-Algorithmus
Aktualisiert: 15. September 2007
Der Microsoft Time Series-Algorithmus ist ein von Microsoft SQL Server 2005 Analysis Services (SSAS) zur Verfügung gestellter Regressionsalgorithmus, der zum Erstellen von Data Mining-Modellen verwendet wird. Miningmodelle unterstützen Vorhersagen zu kontinuierlichen Spalten, beispielsweise Spalten zum Produktverkauf in einem Vorhersageszenario. Während andere Algorithmen von Microsoft Modelle (z. B. Entscheidungsstrukturen) erstellen, die auf Eingabespalten angewiesen sind, um die vorhersagbare Spalte vorhersagen zu können, basiert die Vorhersage in einem Time Series-Modell ausschließlich auf den Trends, die der Algorithmus beim Erstellen des Modells aus dem ursprünglichen Dataset ableitet. Das folgende Diagramm zeigt ein typisches Modell für die Umsatzvorhersage zu einem Produkt über einen Zeitraum.
Das im Diagramm gezeigte Modell besteht aus zwei Komponenten: Den Vergangenheitsdaten auf der linken Seite des Diagramms und den Prognosedaten auf der rechten Seite des Diagramms. Die Vergangenheitsdaten entsprechen den Informationen, mit denen der Algorithmus das Modell erstellt, während die Prognosedaten der Vorhersage entsprechen, die das Modell macht. Die Linie, die durch das Zusammenführen der Vergangsheitsdaten und der Prognosedaten entsteht, wird als Reihe bezeichnet. Jedes Vorhersagemodell muss eine Fallreihe enthalten. Damit ist die Spalte gemeint, die zwischen Punkten in einer Reihe unterscheidet. Beispiel: Da die Daten in diesem Diagramm die Reihe für Fahrradverkäufe in der Vergangenheit und in Zukunft über einen Zeitraum von mehreren Monaten zeigt, ist die Datenspalte die Fallreihe.
Eine wichtige Funktion des Microsoft Time Series-Algorithmus ist die Möglichkeit, Kreuzvorhersagen auszuführen. Damit ist Folgendes gemeint: Wenn Sie den Algorithmus mit zwei separaten, jedoch miteinander verknüpften Reihen trainieren, können Sie das dabei entstandene Modell dazu verwenden, das Ergebnis einer Reihe basierend auf dem Verhalten der anderen Reihe vorherzusagen. Beispiel: Die Verkaufsbeobachtungen zu einem Produkt können die Verkaufsprognosen für ein anderes Produkt beeinflussen.
Beispiel
Das Management der Firma Adventure Works Cycles möchte die monatlichen Verkaufszahlen im Fahrradsegment für das kommende Jahr vorhersagen. Insbesondere interessiert sich die Firma für die Frage, ob sich der Verkauf unterschiedlicher Fahrradmodelle miteinander in Beziehung setzen lässt. Das heißt, ob mit den Verkaufszahlen für ein bestimmtes Fahrradmodell die Verkaufszahlen für ein anderes Modell vorhergesagt werden können. Durch die Anwendung des Microsoft Times Series-Algorithmus auf Vergangenheitsdaten aus den letzten drei Jahren kann die Firma ein Data Mining-Modell für die Vorhersage künftiger Fahrradumsätze erstellen. Darüber hinaus kann die Firma mithilfe von Kreuzvorhersagen feststellen, ob die Verkaufstrends individueller Fahrradmodelle miteinander in Beziehung stehen.
Funktionsweise des Algorithmus
Der Microsoft Decision Trees-Algorithmus trainiert Modelle mithilfe einer autoregressiven Entscheidungsstruktur. Jedes Modell enthält eine Schlüsselzeitspalte, die die Zeitscheiben definiert, die das Modell erstellen wird. Der Algorithmus setzt eine variable Anzahl von Vergangenheitselementen mit jedem aktuellen Element, das vorhergesagt wird, in Beziehung.
Eine ausführlichere Erklärung der Funktionsweise des Microsoft Time Series-Algorithmus finden Sie unter Autoregressive Tree Models for Time-Series Analysis (in Englisch).
Es gibt zwei Methoden, Eingabedaten für das Microsoft Time Series-Modell zu definieren. Die erste Methode lässt sich mithilfe der Eingabefälle aus der nachfolgenden Tabelle besser verdeutlichen:
TimeID | Produkt | Verkauf | Menge |
---|---|---|---|
1/2001 |
A |
1000 |
600 |
2/2001 |
A |
1100 |
500 |
1/2001 |
B |
500 |
900 |
2/2001 |
B |
300 |
890 |
Die TimeID-Spalte in der Tabelle enthält einen Zeitbezeichner und weist für jeden Tag zwei Einträge auf. Die Produkt-Spalte definiert ein Produkt in der Datenbank. Die Verkauf-Spalte beschreibt den für das Produkt erzielten Bruttogewinn pro Tag. Die Menge-Spalte beschreibt, in welcher Stückzahl das angegebene Produkt im Lager vorrätig ist. In diesem Fall würde das Modell zwei Vorhersagespalten einhalten: Verkauf und Menge.
Alternativ lassen sich Eingabedaten für das Time Series-Modell auch wie in der folgenden Tabelle beschrieben definieren:
TimeID | A_Verkauf | A_Menge | B_Verkauf | B_Menge |
---|---|---|---|---|
1/2001 |
1000 |
600 |
500 |
900 |
2/2001 |
1100 |
500 |
300 |
890 |
In dieser Tabelle bestehen die Spalten Verkauf und Menge aus jeweils zwei Spalten, denen der Produktname vorangestellt wurde. Dadurch enthält die TimeID-Spalte für jeden Tag nur einen Eintrag. Das Modell würde vier Vorhersagespalten enthalten: A_Verkauf, A_Menge, B_Verkauf und B_Menge.
Obwohl mit beiden Definitionsmethoden für Eingabedaten dieselben Daten im Modell angezeigt werden, ändert das Format der Eingabefälle, wie Sie das Miningmodell definieren.
Verwenden des Algorithmus
Ein Time Series-Agorithmus setzt voraus, dass die vorherzusagenden Spalten als kontinuierliche Spalten formatiert wurden. Es wird nur eine Fallreihe pro Modell unterstützt.
Der Microsoft Time Series-Algorithmus unterstützt Eingabespalten und vorhersagbare Eingabespalten eines bestimmten Inhalttyps und Modellierungsflags. Diese Elemente sind in der folgenden Tabelle aufgeführt.
Inhalttypen für Eingabespalten |
Kontinuierlich, Schlüssel, Schlüsselzeit und Tabelle |
Inhalttypen für vorhersagbare Eingabespalten |
Kontinuierlich und Tabelle |
Modellierungsflags |
NOT NULL und REGRESSOR |
Alle Algorithmen von Microsoft unterstützen einen gemeinsamen Funktionssatz. Der Microsoft Time Series-Algorithmus unterstützt jedoch zusätzliche Funktionen, die in der folgenden Tabelle aufgeführt sind.
Eine Liste der Funktionen, die allen Algorithmen von Microsoft gemein sind, finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.
Der Microsoft Time Series-Algorithmus unterstützt nicht die Erstellung von Miningmodellen mithilfe der Predictive Model Markup Language (PMML).
Der Microsoft Time Series-Algorithmus unterstützt mehrere Parameter, die die Leistung und Genauigkeit des resultierenden Miningmodells beeinflussen. In der folgenden Tabelle werden diese Parameter einzeln beschrieben.
Parameter | Beschreibung |
---|---|
MINIMUM_SUPPORT |
Gibt die Mindestanzahl von Zeitscheiben an, die erforderlich sind, um eine Teilung in jeder Zeitreihenstruktur zu generieren. Die Standardeinstellung lautet 10. |
COMPLEXITY_PENALTY |
Steuert die Vergrößerung der Entscheidungsstruktur. Das Verringern des Wertes erhöht die Wahrscheinlichkeit einer Teilung. Das Erhöhen des Wertes verringert die Wahrscheinlichkeit einer Teilung. Die Standardeinstellung lautet 0.1. |
PERIODICITY_HINT |
Stellt dem Algorithmus einen Periodizitätshinweis für die Daten bereit. Beispiel: Wenn die Verkaufszahlen jahresabhängig variieren und als Maßeinheit für die Reihe Monate gewählt wurde, ist die Periodizität 12. Dieser Parameter weist das Format {n [, n]}, wobei n eine beliebige positive Zahl ist. Das n innerhalb der eckigen Klammern [] ist optional und kann so oft wie nötig wiederholt werden. Der Standardwert lautet {1}. |
MISSING_VALUE_SUBSTITUTION |
Gibt die Methode an, die zum Füllen der Lücken in Vergangenheitsdaten verwendet wird. Standardmäßig sind unregelmäßige Lücken oder Ränder in Daten nicht zulässig. Die zum Füllen unregelmäßiger Lücken oder Ränder verfügbaren Methoden sind: mit dem vorherigen Wert, mit dem Mittelwert oder mit einer spezifischen numerischen Konstante. |
AUTO_DETECT_PERIODICITY |
Gibt einen numerischen Wert zwischen 0 und 1 an, der zum Erkennen von Periodizität verwendet wird. Das Festlegen dieses Wertes näher bei 1 begünstigt die Erkennung vieler fast periodischer Muster und die automatische Generierung von Periodizitätshinweisen. Der Umgang mit einer großen Anzahl von Periodizitätshinweisen führt häufig zu erheblich längeren Modelltrainingszeiten. Wenn der Wert näher bei 0 liegt, wird Periodizität nur bei stark periodischen Daten erkannt. Die Standardeinstellung lautet 0.6. |
HISTORIC_MODEL_COUNT |
Gibt die Anzahl von Vergangenheitsmodellen an, die erstellt werden. Die Standardeinstellung lautet 1. |
HISTORICAL_MODEL_GAP |
Gibt die Zeitverzögerung zwischen zwei aufeinander folgenden Vergangenheitsmodellen an. Wenn Sie z. B. für diesen Wert g festlegen, werden Vergangenheitsmodelle für Daten erstellt, die von Zeitscheiben mit Intervallen von g, 2*g, 3*g usw. abgeschnitten werden. Die Standardeinstellung lautet 10. |
![]() |
---|
Die Periodizität reagiert empfindlich auf die Modellqualität. Wenn der von Ihnen gegebene Hinweis von der tatsächlichen Periodizität abweicht, können die Ergebnisse beeinträchtigt werden. |
Änderungsverlauf
Version | Verlauf |
---|---|
15. September 2007 |
|
Siehe auch
Konzepte
Data Mining-Algorithmen
Data Mining-Assistent
Verwenden der Data Mining-Tools
Anzeigen eines Miningmodells mit dem Microsoft Zeitreihe-Viewer