Поделиться через


Основные сведения о требованиях для модели временных рядов (учебник по интеллектуальному анализу данных — средний уровень)

Данные для модели прогнозирования при подготовке должны содержать один столбец, который может быть использован для идентификации этапов временных рядов. Этот столбец будет обозначаться Key Time. Этот столбец является ключом и должен содержать уникальные числовые значения.

Правильный выбор единицы для столбца Key Time является важной частью анализа. Например, пусть данные о продажах обновляются каждую минуту. В качестве единицы временного ряда не обязательно использовать минуты. Более разумно будет сводить данные о продажах по дням, неделям или месяцам. Если непонятно, какую единицу времени следует использовать, можно создать новое представление источника данных для каждого статистического выражения и построить связанные модели, чтобы посмотреть, не появляются ли разные тренды на каждом уровне статистической обработки.

В этом учебнике данные о продажах собираются ежедневно и заносятся в транзакционную базу данных продаж, но для интеллектуального анализа данные заранее объединены по месяцам с использованием представления.

Кроме того, для анализа желательно, чтобы в данных было как можно меньше промежутков. Если планируется анализ нескольких рядов данных, то желательно, чтобы все ряды начинались с одной даты и заканчивались одной датой. Если в данных имеются промежутки (кроме как в начале и в конце ряда), то для заполнения ряда можно использовать параметр MISSING_VALUE_SUBSTITUTION. Службы Analysis Services также предоставляют несколько вариантов замены отсутствующих данных значениями, например с помощью значений или констант.

Предупреждение

Сводная диаграмма и сводная таблица, входившие в предыдущие версии конструктора представлений источников данных, больше не предоставляются. Рекомендуется заранее выявлять пробелы в данных временных рядов с помощью таких средств, как профилировщик данных, включенный в службы Integration Services.

Идентификация ключа времени для модели прогнозирования

  1. В области SalesByRegion.dsv [Design] щелкните правой кнопкой мыши таблицу vTimeSeries и выберите Просмотр данных.

    Откроется новая вкладка с названием Обзор таблицы vTimeSeries.

  2. На вкладке Таблица просмотрите данные, используемые в столбцах TimeIndex и Reporting Date.

    Оба столбца представляют собой последовательности уникальных значений. Любой из них может служить ключом временного ряда, однако типы данных в этих столбцах различаются. Алгоритм временных рядов (Майкрософт) не требует наличия типа данных datetime, необходимо только, чтобы значения были отличающимися и упорядоченными. Поэтому в качестве ключа времени для модели прогнозирования может быть использован любой столбец.

  3. В области конструктора представления источника данных выберите столбец Дата отчета и выберите Свойства. Затем щелкните столбец TimeIndex и выберите Свойства.

    Поле TimeIndex имеет тип данных System.Int32, а поле Reporting Date имеет тип данных System.DateTime. Во многих хранилищах данных значения даты и времени преобразуются в целые числа, и целочисленный столбец служит ключом, что повышает производительность индексирования. Однако если использовать такой столбец, то алгоритм временных рядов (Майкрософт) будет составлять прогнозы, используя значения из будущего: 201014, 201014 и т. д. Так как вы хотите представить прогноз данных о продажах с помощью дат календаря, столбец Дата отчета будет использоваться в качестве уникального идентификатора ряда.

Задание ключа в представлении источников данных

  1. На панели SalesByRegion.dsv выберите таблицу vTimeSeries.

  2. Щелкните правой кнопкой мыши столбец Дата отчета и выберите Задать логический первичный ключ.

Обработка отсутствующих данных (необязательно)

Если в каком-либо ряду имеются отсутствующие данные, то при попытке обработать модель может быть выдана ошибка. Устранить эту проблему можно несколькими способами.

  • Службы Analysis Services могут заполнить отсутствующее значение вычисленным средним или предыдущим значением. Для этого необходимо задать параметр MISSING_VALUE_SUBSTITUTION при создании модели интеллектуального анализа данных. Дополнительные сведения об этом параметре см. в техническом справочнике по алгоритму временных рядов Майкрософт. Сведения об изменении параметров в существующей модели интеллектуального анализа данных см. в разделе Просмотр или изменение параметров алгоритма.

  • Можно изменить источник данных или отфильтровать базовое представление, чтобы устранить неоднородность ряда или заменить значения. Это можно сделать в реляционном источнике данных. Также можно изменить представление источников данных, создавая пользовательские именованные запросы или именованные вычисления. Дополнительные сведения см. в разделе Представления источников данных в многомерных моделях. Последняя задача этого занятия представляет пример того, как построить именованный запрос и пользовательское вычисление.

В этом сценарии некоторые данные отсутствуют в начале одной серии, т. е. данные для линейки продуктов T1000 отсутствуют до июля 2007 г. Все ряды заканчиваются в одну дату, и других отсутствующих значений нет.

Требование алгоритма временных рядов (Майкрософт) заключается в том, что все ряды, включаемые в одну модель, должны иметь одинаковую конечную точку. Поскольку модель велосипеда T1000 появилась в 2007 г., данные для этого ряда начинаются позже, чем для других моделей велосипедов, но ряд заканчивается на ту же дату, поэтому данные являются приемлемыми.

Закрытие конструктора представлений источников данных

  • Щелкните правой кнопкой мыши вкладку Просмотр таблицы vTimeSeries и выберите Закрыть.

Следующая задача занятия

Создание структуры и модели прогнозирования (учебник по интеллектуальному анализу данных — средний уровень)

См. также:

Алгоритм временных рядов (Майкрософт)