Создание реляционной структуры интеллектуального анализа данных
Большинство моделей интеллектуального анализа данных основано на реляционных источниках данных. Преимуществом создания реляционной модели интеллектуального анализа данных является возможность собирать неорганизованные данные, а также проводить обучение и обновление модели, не решая сложную задачу построения куба.
Реляционная структура интеллектуального анализа данных может основываться на данных из разрозненных источников. Необработанные данные могут храниться в таблицах, файлах или системах реляционных баз данных при условии, что эти данные можно определить в составе представления источника данных. Например, реляционную структуру интеллектуального анализа данных следует использовать, если данные находятся в Excel, в хранилище данных SQL Server, в базе данных отчетов SQL Server или во внешних источниках, доступ к которым осуществляется посредством поставщиков OLE DB или ODBC.
В этом разделе приводятся общие сведения об использовании мастера интеллектуального анализа данных для создания реляционной структуры интеллектуального анализа данных.
Требования
Процедура создания реляционной структуры интеллектуального анализа данных
Выбор источников данных
Указание типа содержимого и типа данных
Создание набора контрольных данных
Включение детализации
Требования
Сначала требуется существующий источник данных. Если источник не существует, его можно настроить в конструкторе источников данных. Дополнительные сведения см. в разделе Создание источника данных (многомерные службы SSAS).
Затем в мастере представлений источников данных соберите необходимые данные в одно представление. Дополнительные сведения о выборе, преобразовании и фильтрации данных в представлении источника данных, а также об управлении данными см. в разделе Представления источников данных в многомерных моделях.
Общие сведения о процедуре
Запустите мастер интеллектуального анализа данных. Для этого щелкните правой кнопкой мыши узел Структуры интеллектуального анализа данных в обозревателе решений и выберите команду Добавить новую структуру интеллектуального анализа данных. Мастер помогает выполнить следующие шаги по созданию структуры для новой реляционной модели интеллектуального анализа данных.
Выбор метода определения. Здесь в качестве типа источника данных выберите На основе реляционной базы данных или хранилища данных.
Создание структуры интеллектуального анализа данных. Определите, что следует создавать: просто структуру или структуру с моделью интеллектуального анализа данных.
Также выбирает алгоритм для начальной модели. Указания по выбору алгоритма в соответствии с конкретными задачами см. в разделе Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Выбор представления источника данных. Выберите представление источника данных, которое будет использоваться для обучения модели. Представление источника данных также может содержать данные, используемые для тестирования, и не связанные с анализом данные. Можно выбрать, какие данные будут фактически использоваться в структуре и в модели. Позднее к данным можно применить фильтры.
Определение табличных типов. Выберите таблицу, содержащую варианты для анализа. Для некоторых наборов данных, особенно для тех, которые используются в построении моделей покупательского поведения, также можно включить связанную таблицу для использования в качестве вложенной.
Для каждой таблицы необходимо указать ключ, чтобы дать алгоритму возможность определить уникальную запись, а также связанные записи, если добавлена вложенная таблица.
Дополнительные сведения см. в разделе Столбцы структуры интеллектуального анализа данных.
Определение обучающих данных. На этой странице выбирается таблица вариантов, которая содержит наиболее важные данные для анализа.
Для некоторых наборов данных, особенно для тех, которые используются в построении моделей покупательского поведения, также можно включить связанную таблицу. Значения в этой вложенной таблице будут обрабатываться в виде нескольких значений, связанных с одной строкой (вариантом) в главной таблице.
Указание типов содержимого и данных. Для каждого столбца, используемого в структуре, необходимо выбрать тип данных и тип содержимого.
Мастер автоматически обнаруживает возможные типы данных, однако не обязательно использовать тип данных, рекомендованный мастером. Например, даже если данные содержат числа, их можно представить в виде категориальных. Столбцы, указанные в качестве ключей, автоматически получают тип данных, соответствующий типу модели. Дополнительные сведения см. в разделах Столбцы модели интеллектуального анализа данных и Типы данных (интеллектуальный анализ данных).
Тип содержимого, выбираемый для каждого столбца, который используется в модели, сообщает алгоритму, каким образом следует обрабатывать данные.
Например, можно выполнять дискретизацию чисел вместо использования непрерывных значений. Также можно задать в алгоритме автоматическое определение типа содержимого, наиболее подходящего для столбца. Дополнительные сведения см. в разделе Типы содержимого (интеллектуальный анализ данных).
Создание проверочного набора. На этой странице указывается, какой объем данных следует выделить для использования в тестировании модели. Если данные будут поддерживать несколько моделей, то разумно создать набор контрольных данных, чтобы тестировать все модели по одним и тем же данным.
Дополнительные сведения см. в разделе Тестирование и проверка (интеллектуальный анализ данных).
Завершение работы мастера. На этой странице задается имя новой структуры интеллектуального анализа данных и имя связанной модели интеллектуального анализа данных, а затем структура и модель сохраняются.
Также можно задать ряд важных параметров, зависящих от типа модели. Например, можно включить детализацию в структуре.
На данном этапе структура интеллектуального анализа данных и ее модель представляют собой лишь метаданные. Для получения результатов необходимо обработать структуру и модель.
Выбор реляционных данных
Реляционные структуры интеллектуального анализа данных основаны на данных, доступных с помощью источника данных OLE DB. Если исходные данные содержатся в нескольких таблицах, то можно использовать представление источника данных, объединяющее необходимые таблицы и столбцы.
Если таблицы включают связи типа «один-ко-многим» (например, анализируются сведения о нескольких покупках каждого клиента), то можно добавить обе таблицы и использовать одну из них как таблицу вариантов, а данные со стороны «многие» этой связи — как вложенную таблицу.
Данные из структуры интеллектуального анализа данных получаются на основе существующего представления источника данных. В представлении источников данных данные можно изменять нужны образом, добавляя связи или производные столбцы, которые отсутствуют в базовых реляционных данных. В представлении источника данных также можно создавать именованные вычисления или агрегаты. Такие возможности оказываются очень удобными, если нет возможности изменять организацию данных в источнике данных или если нужно проверить различные схемы агрегатной обработки для моделей интеллектуального анализа данных.
Не обязательно использовать все доступные данные, можно выбрать столбцы, которые будут включены в структуру интеллектуального анализа данных. Затем эти столбцы можно будет использовать во всех моделях, основанных на этой структуре. Из отдельных моделей можно исключать отдельные столбцы, задавая для них метку Ignore. Можно также позволить пользователям модели интеллектуального анализа детализировать результаты модели углублением с целью просмотра дополнительных столбцов структуры интеллектуального анализа данных, не включенных в саму модель.
Указание типа содержимого и типа данных
Типы данных во многом совпадают с типами данных, задаваемыми в интерфейсе SQL Server и других приложений: дата и время, числа разного размера, логические значения, текст и другие дискретные данные.
Типы содержимого важны для интеллектуального анализа данных и влияют на результат анализа. Тип содержимого сообщает алгоритму, что нужно делать с данными. Следует ли обрабатывать числа как непрерывные или сегментировать? Сколько имеется потенциальных значений? Является ли каждое значение уникальным? Если значение является ключом, то какой это ключ: значение даты и времени, порядковый номер или иной ключ?
Учтите, что выбор источника данных может ограничить возможный выбор типов содержимого. Например, нечисловые значения нельзя дискретизировать. Если нужный тип содержимого не отображается, нажмите кнопку Назад, чтобы вернуться на страницу типов данных и выбрать другой тип.
Не нужно опасаться неправильно указать тип содержимого. Создать новую модель и изменить тип содержимого очень легко, если новый тип содержимого поддерживается для типа данных, заданного в структуре интеллектуального анализа данных. Также очень часто создается несколько моделей с разными типами содержимого — в целях эксперимента или для соблюдения требований разных алгоритмов.
Например, если данные содержат столбец дохода, то можно создать две разные модели, использующие алгоритм дерева принятия решений (Майкрософт), и в одной из них использовать столбец как содержащий непрерывные числа, а в другой — дискретные диапазоны. Однако если добавлена модель, использующая упрощенный алгоритм Байеса (Майкрософт), то необходимо изменить столбец на дискретизированные значения, поскольку данный алгоритм не поддерживает непрерывные числа.
Разбиение данных на обучающий и проверочный наборы
Ближе к концу работы мастера необходимо выбрать, будут ли данные разделяться на обучающий и проверочный наборы. Возможность выделять случайно выбираемую часть данных для проверки очень удобна, поскольку обеспечивает доступность согласованного набора проверочных данных для использования со всеми моделями интеллектуального анализа данных, связанными с новой структурой интеллектуального анализа данных.
Внимание! |
---|
Учтите, что эта возможность доступна не для всех типов моделей. Например, если создается прогнозирующая модель, то контрольные данные будут недоступны, поскольку для алгоритма временных рядов не допускаются пропуски в непрерывных данных. Список типов моделей, поддерживающих наборы контрольных данных, см. в разделе Обучающие и проверочные наборы данных. |
Для создания такого набора контрольных данных указывается процент данных, которые будут использоваться в тестировании. Все остальные данные будут использоваться в обучении. Также можно задать максимальное число вариантов, которые будут использоваться в тестировании, или задать начальное значение, определяющее процесс случайного выбора.
Определение набора контрольных данных хранится в структуре интеллектуального анализа данных, поэтому каждый раз при создании новой модели на основе этой структуры набор проверочных данных будет доступен для оценки точности модели. Если удалить кэш структуры интеллектуального анализа данных, то также будут удалены сведения о том, какие варианты использовались для обучения, а какие — для тестирования.
Включение детализации
Почти в самом конце работы мастера можно включить детализацию. Эту возможность легко пропустить, однако она важна. Детализация позволяет просматривать данные источника в структуре интеллектуального анализа данных с помощью запросов к модели интеллектуального анализа данных.
Чем это полезно? Допустим, при просмотре результатов модели кластеризации нужно узнать, какие клиенты помещены в тот или иной кластер. Детализация позволяет просмотреть такие данные, как контактная информация.
Внимание! |
---|
Чтобы использовать детализацию, нужно включить ее при создании структуры интеллектуального анализа данных. Детализацию для моделей можно включить позднее, задав свойство модели, однако для структур интеллектуального анализа данных эту возможность следует задавать с самого начала. Дополнительные сведения см. в разделе Запросы детализации (интеллектуальный анализ данных). |
См. также
Основные понятия
Конструктор интеллектуального анализа данных
Мастер интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Свойства модели интеллектуального анализа данных
Свойства структур интеллектуального анализа данных и их столбцов
Другие ресурсы
Задачи и инструкции по структуре интеллектуального анализа данных