Поделиться через


Создание структуры модели интеллектуального анализа данных кластеризации последовательностей (учебник по интеллектуальному анализу данных — средний уровень)

Первым шагом в создании модели интеллектуального анализа данных кластеризации последовательностей является использование мастера интеллектуального анализа данных для создания новой структуры интеллектуального анализа данных и модели интеллектуального анализа данных, основанной на алгоритме кластеризации последовательностей (Майкрософт).

Для этой цели будет использоваться представление источника данных, которое использовалось для анализа покупательского поведения, к которому добавляется столбец, содержащий идентификатор sequence. В данном сценарии «sequence» означает порядок, в котором покупатели добавляют элементы в свою корзину во время покупок.

Также будут добавлены несколько столбцов, которые используются в одной из моделей для группировки покупателей по демографическому признаку.

Создание структуры кластеризации последовательностей и модели

  1. В обозревателе решений в среде Business Intelligence Development Studio щелкните правой кнопкой мыши элемент Структуры интеллектуального анализа данных и выберите команду Создать структуру интеллектуального анализа.

  2. На странице Вас приветствует мастер интеллектуального анализа данных нажмите кнопку Далее.

  3. Убедитесь, что на странице Выбор метода определения выбран параметр На основе существующей реляционной базы данных или хранилища данных, а затем нажмите кнопку Далее.

  4. На странице Создание структуры интеллектуального анализа данных проверьте, что был выбран параметр Создать структуру и модель интеллектуального анализа данных. Затем щелкните раскрывающийся список Какой метод интеллектуального анализа данных использовать? и выберите пункт Алгоритм кластеризации последовательностей (Майкрософт). Нажмите кнопку Далее.

    Будет открыта страница Выбор представления источника данных. В группе Доступные представления источников данных выберите Заказы.

    Заказы — это то представление источника данных, которое использовалось для сценария потребительской корзины. Если указанное представление источника данных еще не создано, см. раздел Добавление представления источника данных с вложенными таблицами (учебник по интеллектуальному анализу данных — средний уровень).

  5. Нажмите кнопку Далее.

  6. На странице Определение типов таблиц установите флажок Вариант рядом с таблицей vAssocSeqOrders и флажок Вложенный рядом с таблицей vAssocSeqLineItems. Нажмите кнопку Далее.

    ПримечаниеПримечание

    Если при установке флажков Вариант или Вложенный возникает ошибка, это может означать, что соединение в представлении источника данных было настроено неправильно. Вложенная таблица vAssocSeqLineItems должна быть соединена с таблицей вариантов vAssocSeqOrders соединением «многие к одному». Можно изменить эту связь, щелкнув правой кнопкой мыши на линии соединения и затем изменив направление соединения на обратное. Дополнительные сведения см. в разделе Диалоговое окно «Создание связи/Изменение связи» (службы Analysis Services — многомерные данные).

  7. На странице Определение обучающих данных выберите столбцы, которые будут использоваться в модели, путем установки флажка следующим образом.

    • **IncomeGroup    **Установите флажок Ввод.

      Данный столбец содержит полезную информацию о покупателях, которую можно использовать для кластеризации. Такая информация будет использоваться в первой модели и не будет учитываться во второй.

    • **OrderNumber    **Установите флажок Ключ.

      Данное поле будет использоваться в качестве идентификатора таблицы вариантов либо значения Key. В целом ключевое поле таблицы вариантов никогда не используется в качестве входных данных, поскольку ключ содержит уникальные значения, не представляющие интереса для кластеризации.

    • **Region    **Установите флажок Ввод.

      Данный столбец содержит полезную информацию о покупателях, которую можно использовать для кластеризации. Такая информация будет использоваться в первой модели и не будет учитываться во второй.

    • **LineNumber   **Установите флажки Ключ и Ввод.

      Поле LineNumber будет использоваться в качестве идентификатора для вложенной таблицы или значения Sequence Key. Ключ для вложенной таблицы всегда должен использоваться для ввода.

    • **Model   **Установите флажки Ввод и Прогнозируемый.

    Убедитесь, что все флажки установлены правильно, после чего нажмите кнопку Далее.

  8. На странице Определение содержимого и типа данных столбцов убедитесь, что в сетке содержатся столбцы, типы содержимого и типы данных, приведенные в следующей таблице, после чего нажмите кнопку Далее.

    Таблицы и столбцы

    Тип содержимого

    Тип данных

    IncomeGroup

    Дискретный

    Text

    OrderNumber

    Ключ

    Text

    Region

    Дискретный

    Text

    vAssocSeqLineItems

      

      

    Line Number

    Ключ последовательности

    Long

    Model

    Дискретный

    Text

  9. На странице Создание проверочного набора задайте параметру Процент проверочных данных значение 20, после чего нажмите кнопку Далее.

  10. На странице Завершение работы мастера в разделе Имя структуры интеллектуального анализа данных введите имя Кластеризация последовательностей с использованием региона.

  11. В поле Имя модели интеллектуального анализа данных введите Кластеризация последовательностей с использованием региона.

  12. Установите флажок в поле Разрешить детализацию, затем нажмите кнопку Готово.