Freigeben über


Grundlegendes zu den Anforderungen für ein Zeitreihenmodell (Data Mining-Lernprogramm für Fortgeschrittene)

Bei der Vorbereitung von Daten für ein Prognosemodell müssen Sie sicherstellen, dass die Daten eine Spalte enthalten, mit der Sie die Schritte in der Zeitreihe identifizieren können. Diese Spalte wird zur Key Time-Spalte bestimmt. Da es sich um einen Schlüssel handelt, muss die Spalte eindeutige numerische Werte enthalten.

Die Auswahl der richtigen Einheit für die Key Time-Spalte ist ein wichtiger Teil der Analyse. Nehmen Sie zum Beispiel an, dass die Umsatzdaten minütlich aktualisiert werden. Als Einheit der Zeitreihe sind jedoch keine Minuten erforderlich; es könnte sinnvoller sein, täglich, wöchentlich oder sogar nur monatlich einen Rollup der Umsatzdaten auszuführen. Wenn Sie unsicher sind, welche Zeiteinheit verwendet werden soll, erstellen Sie eine neue Datenquellensicht für jede Aggregation. So stellen Sie fest, ob sich auf jeder Aggregationsebene unterschiedliche Trends ergeben.

Für dieses Lernprogramm werden täglich Umsatzdaten in der Transaktionsvertriebsdatenbank erfasst; für Data Mining werden die Daten jedoch mithilfe einer Sicht monatlich vorab aggregiert.

Zudem ist es für die Analyse vorteilhaft, wenn die Daten so wenige Lücken wie möglich aufweisen. Wenn Sie mehrere Datenreihen analysieren möchten, sollten alle Serien nach Möglichkeit einheitliche Start- und Enddaten haben. Wenn die Daten unvollständig sind, aber diese Lücken sich nicht am Anfang oder Ende der Serie befinden, kann die Serie mit dem Parameter MISSING_VALUE_SUBSTITUTION vervollständigt werden. Analysis Services stellt zudem mehrere Optionen zum Vervollständigen unvollständiger Daten durch Mittelwerte oder Konstanten bereit.

VorsichtshinweisVorsicht

Die Tools PivotChart und PivotTable, die in früheren Versionen des Datenquellensicht-Designers enthalten waren, sind nicht mehr enthalten. Es empfiehlt sich, Lücken in Zeitreihendaten im Voraus mit Tools wie dem in Integration Services enthaltenen Daten-Profiler zu identifizieren.

So identifizieren Sie den Zeitschlüssel für das Prognosemodell

  1. Klicken Sie im Bereich "SalesByRegion.dsv [Design]" mit der rechten Maustaste auf die Tabelle vTimeSeries und wählen Sie Daten durchsuchen aus.

    Die Registerkarte vTimeSeries-Tabelle durchsuchen wird geöffnet.

  2. Überprüfen Sie auf der Registerkarte Tabelle die Daten, die in den Spalten TimeIndex und Reporting Date verwendet werden.

    Beide sind Sequenzen mit eindeutigen Werten und können als Zeitreihenschlüssel verwendet werden; die Datentypen der Spalten unterscheiden sich jedoch. Der datetime-Datentyp ist für den Microsoft Time Series-Algorithmus nicht erforderlich; die Werte müssen lediglich unterschiedlich und sortiert sein. Sie können daher beide Spalten als Zeitschlüssel für das Prognosemodell verwenden.

  3. Wählen Sie in der Entwurfsoberfläche der Datenquellensicht die Spalte Reporting Date aus und wählen Sie dann Eigenschaften aus. Klicken Sie dann mit der rechten Maustaste auf die Spalte TimeIndex, und wählen Sie Eigenschaften aus.

    Im Feld TimeIndex wird der Datentyp "System.Int32" für das Feld angezeigt. Das Feld Reporting Date weist hingegen den Datentyp "System.DateTime" auf. Viele Data Warehouses konvertieren Datums-/Uhrzeitwerte in ganze Zahlen und verwenden die Ganzzahl-Spalte als Schlüssel, die Indizierungsleistung zu verbessern. Wenn Sie diese Spalte verwenden, trifft der Microsoft Time Series-Algorithmus allerdings Vorhersagen und verwendet hierfür zukünftige Werte wie etwa 201014, 201014 usw. Da Sie die Prognose der Umsatzdaten mithilfe von Datumsangaben darstellen möchten, verwenden Sie die Spalte Reporting Date als eindeutigen Bezeichner für die Reihe.

So legen Sie den Schlüssel in der Datenquellensicht fest

  1. Wählen Sie im Bereich "SalesByRegion.dsv" die Tabelle vTimeSeries aus.

  2. Klicken Sie mit der rechten Maustaste auf die Spalte Reporting Date, und wählen Sie Logischen Primärschlüssel festlegen aus.

Behandeln von unvollständigen Daten (optional)

Bei der Verarbeitung von Modellreihen mit unvollständigen Daten wird möglicherweise ein Fehler generiert. Sie haben mehrere Möglichkeiten, dieses Problem zu umgehen:

  • Lassen Sie die unvollständigen Daten von Analysis Services durch Berechnung von Mittelwerten oder Verwendung von vorherigen Werten ergänzen. Zu diesem Zweck legen Sie den MISSING_VALUE_SUBSTITUTION-Parameter für das Miningmodell fest. Weitere Informationen zu diesem Parameter finden Sie unter Technische Referenz für den Microsoft Time Series-Algorithmus. Informationen über das Ändern von Parametern für ein vorhandenes Miningmodell finden Sie unter Anzeigen oder Ändern von Algorithmusparametern.

  • Ändern Sie die Datenquelle, oder filtern Sie die zugrunde liegende Sicht, um unregelmäßige Reihe auszuschließen oder Werte zu ersetzen. Sie können dies in der relationalen Datenquelle vornehmen, oder Sie können die die Datenquellensicht ändern, indem Sie benutzerdefinierte benannte Abfragen oder benannte Berechnungen erstellen. Weitere Informationen finden Sie unter Datenquellsichten in mehrdimensionalen Modellen. In einer weiteren Aufgabe in dieser Lektion wird ein Beispiel für das Erstellen einer benannten Abfrage sowie einer benutzerdefinierten Berechnung gegeben.

In diesem Szenario fehlen Daten am Anfang einer Reihe: das heißt, es gibt bis zu zum Juli 2007 keine Daten für die T1000-Produktlinie. Ansonsten enden alle Reihen zum selben Datum, und es gibt keine fehlenden Werte.

Der Microsoft Time Series-Algorithmus setzt voraus, dass alle in einem einzigen Modell enthaltenen Reihen den gleichen Endpunkt aufweisen sollten. Das Fahrradmodell T1000 wurde erst im Jahr 2007 eingeführt. Die Daten für diese Reihe liegen daher im Vergleich zu den anderen Modellen erst ab einem späteren Zeitpunkt vor; der Endpunkt ist jedoch gleich, sodass die Daten verwendet werden können.

So schließen Sie den Datenquellensicht-Designer

  • Klicken Sie mit der rechten Maustaste auf die Registerkarte vTimeSeries-Tabelle durchsuchen, und wählen Sie Schließen aus.

Nächste Aufgabe in der Lektion

Erstellen einer Struktur und eines Modells zur Planungserstellung (Data Mining-Lernprogramm für Fortgeschrittene)

Siehe auch

Konzepte

Microsoft Time Series-Algorithmus