Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Структура интеллектуального анализа данных определяет данные, на основе которых строятся модели интеллектуального анализа данных: она задает представление источника данных, количество и тип столбцов, а также необязательное секционирование на обучающий и проверочный наборы. Одна структура интеллектуального анализа может поддерживать несколько моделей интеллектуального анализа данных, совместно использующих один домен. На следующей диаграмме показана связь структуры интеллектуального анализа данных с источником данных и моделями интеллектуального анализа данных, основанных на этой структуре.
Структура интеллектуального анализа данных на диаграмме основана на источнике данных, который содержит несколько таблиц или представлений, соединенных по полю CustomerID. Одна таблица содержит сведения о клиентах, такие как географический регион, возраст, доход и пол, а связанная вложенная таблица содержит несколько строк дополнительных сведений о каждом клиенте, например список товаров, приобретенных клиентом. На диаграмме показано, что на одной структуре интеллектуального анализа данных можно построить несколько моделей и эти модели могут использовать различные столбцы из структуры.
Модель 1 использует столбцы CustomerID, Income, Age, Region и фильтрует данные по столбцу Region.
Модель 2 использует столбцы CustomerID, Income, Age, Region и фильтрует данные по столбцу Age.
Модель 3 использует столбцы CustomerID, Age, Gender и вложенную таблицу, не применяя фильтры.
Поскольку модели используют разные столбцы в качестве входных данных и две модели дополнительно ограничивают используемые данные, применяя фильтр, эти модели могут давать совершенно различные результаты несмотря на то, что они основаны на одних и тех же данных. Обратите внимание — столбец CustomerID необходим для всех моделей, поскольку он является единственным из доступных столбцов, который может использоваться в качестве ключа варианта.
В этом разделе описывается базовая архитектура структур интеллектуального анализа данных: определение структуры интеллектуального анализа данных, заполнение ее данными и ее использование для создания моделей. Дополнительные сведения об экспорте структур интеллектуального анализа данных или управлении ими см. в разделе Управление решениями и объектами интеллектуального анализа данных.
Определение структур интеллектуального анализа данных
Настройка структуры интеллектуального анализа данных включает следующие шаги.
Определите источник данных.
Выберите столбцы данных для включения в структуру (не все столбцы следует добавлять в модель) и определите ключ.
Определите ключ для структуры, включая ключ для вложенной таблицы, если применимо.
Укажите, следует ли разделить исходные данные на обучающий и проверочный набор. Это необязательный шаг.
Выполните обработку структуры.
Данные шаги подробно описываются в следующих разделах.
Источники данных для структур интеллектуального анализа данных
При определении структуры интеллектуального анализа данных используются столбцы, доступные в существующем представлении источника данных. Представление источника данных — это общий объект, который позволяет объединять несколько источников данных и использовать их как один источник. Исходные источники данных не видны клиентским приложениям, что позволяет использовать свойства представления источников данных для изменения типов данных, создания статистических выражений или псевдонимов столбцов.
Если несколько моделей создаются из единой структуры интеллектуального анализа данных, в этих моделях могут использоваться разные столбцы структуры. Например, можно создать единую структуру, а затем построить из нее отдельное дерево решений и модели кластеризации, каждая из которых будет использовать разные столбцы и прогнозировать разные атрибуты.
Кроме того, в каждой модели можно использовать столбцы из структуры различными способами. Например, представление источника данных может содержать столбец Income (Доход), который можно различными способами для разных моделей.
Структура интеллектуального анализа данных сохраняет определение источника данных или столбцы в нем в виде привязок к данными источника. Дополнительные сведения о привязках источников данных см. в разделе Источники данных и привязки (многомерные SSAS). Однако обратите внимание, что структуру интеллектуального анализа данных можно также создать без привязки к определенному источнику данных с помощью инструкции DMX CREATE MINING STRUCTURE (DMX).
Столбцы структуры интеллектуального анализа данных
Строительными блоками структуры интеллектуального анализа являются столбцы, которые описывают данные, содержащиеся в источнике данных. Эти столбцы содержат такие сведения, как тип данных, тип содержимого и способы распределения данных. Структура интеллектуального анализа не содержит данных о способах использования столбцов в конкретной модели интеллектуального анализа или данных о типе алгоритма, используемого для построения модели. Эти данные определяются в самой модели интеллектуального анализа.
Структура интеллектуального анализа также может содержать определенные вложенные таблицы. Вложенная таблица представляет связь «один ко многим» между объектом варианта и связанными с ним атрибутами. Например, если сведения, описывающие клиента, находятся в одной таблице, а покупки этого клиента находятся в другой таблице, то можно использовать вложенные таблицы для комбинирования сведений в единый вариант. Идентификатор клиента представляет собой объект, а покупки — связанные с ним атрибуты. Дополнительные сведения об использовании вложенных таблиц см. в разделе Вложенные таблицы (службы Analysis Services — интеллектуальный анализ данных).
Чтобы создать модель интеллектуального анализа данных в SQL Server Data Tools (SSDT), сначала необходимо создать структуру интеллектуального анализа данных. Мастер интеллектуального анализа данных помогает выполнить этапы процесса по созданию структуры интеллектуального анализа данных, выбора данных и добавления модели интеллектуального анализа данных.
Если модель интеллектуального анализа данных создается с помощью расширений интеллектуального анализа данных, можно задать модель и столбцы в модели, и расширение интеллектуального анализа данных автоматически создаст необходимую структуру интеллектуального анализа данных. Дополнительные сведения см. в разделе CREATE MINING MODEL (DMX).
Дополнительные сведения см. в статье Mining Structure Columns.
Разделение данных на обучающий и проверочный наборы
При определении данных для структуры интеллектуального анализа данных можно также указать, что некоторые данные будут использованы для обучения, а некоторые для проверки. Следовательно, нет необходимости в разделении данных перед созданием структуры интеллектуального анализа данных. Вместо этого при создании собственной модели можно указать, что определенный процент данных будет выделен для проверки, а остальные будут использованы для обучения, либо можно указать несколько вариантов, которые будут использоваться в качестве набора проверочных данных. Сведения об обучении и проверке наборов данных кэшируются вместе со структурой интеллектуального анализа данных, и в результате один и тот же проверочный набор можно использовать со всеми моделями, основанными на данной структуре.
Дополнительные сведения см. в статье Training and Testing Data Sets.
Разрешение детализации
Столбцы в структуру интеллектуального анализа данных можно добавлять, даже если не планируется их использование в определенной модели интеллектуального анализа данных. Например, этот процесс полезен при извлечении адресов электронной почты клиентов в модели кластеризации без использования адреса электронной почты в течение процесса анализа. Чтобы игнорировать столбец на фазе анализа и прогноза, необходимо добавить его в структуру, но не указывать использование столбца либо установить флаг использования в значение «Игнорировать». Данные, отмеченные подобным образом, все еще могут использоваться в запросах, если в модели интеллектуального анализа данных была включена детализация и присутствуют необходимые разрешения. Например, можно исследовать кластеры, полученные от анализа для всех клиентов, а затем использовать запрос детализации для получения имен и адресов электронной почты клиентов в определенном кластере, даже если эти столбцы данных не были использованы для построения модели.
Дополнительные сведения см. в разделе Запросы детализации (интеллектуальный анализ данных).
Обработка структур интеллектуального анализа данных
Структура интеллектуального анализа данных до обработки представляет собой просто контейнер метаданных. При обработке структуры интеллектуального анализа данных службы Analysis Services создают кэш, в котором хранятся статистические данные, сведения о том, как дискретизированы все непрерывные атрибуты, и другие сведения, которые в дальнейшем используются моделями интеллектуального анализа данных. Сама модель интеллектуального анализа данных не хранит эти сводные данные, а ссылается на сведения, которые были кэшированы при обработке структуры интеллектуального анализа данных. Таким образом, при добавлении новой модели интеллектуального анализа данных к существующей структуре не требуется повторно выполнять обработку структуры каждый раз. Вместо этого можно выполнить только обработку самой модели.
Можно отключить этот кэш после обработки, если он слишком велик или необходимо удалить подробные данные. Если не нужно кэшировать данные, можно изменить значение свойства CacheMode
в структуре интеллектуального анализа данных на ClearAfterProcessing
. В результате кэш будет очищаться после обработки моделей. Если задать для свойства CacheMode
значение ClearAfterProcessing
, будет отключена детализация из модели интеллектуального анализа данных.
Но после удаления кэша станет невозможно добавлять новые модели к структуре интеллектуального анализа данных. Если к структуре добавляется новая модель интеллектуального анализа данных либо изменяются свойства существующих моделей, то сначала потребуется повторная обработка структуры интеллектуального анализа данных. Дополнительные сведения см. в разделе Требования к обработке и рекомендации (интеллектуальный анализ данных).
Просмотр структур интеллектуального анализа данных
Для обзора данных в структуре интеллектуального анализа данных нельзя использовать средства просмотра. Однако в SQL Server Data Tools (SSDT) можно использовать вкладку Структура интеллектуального анализа данных Designer интеллектуального анализа данных для просмотра столбцов структуры и их определений. Дополнительные сведения см. в статье Data Mining Designer.
Если необходимо просмотреть данные из структуры интеллектуального анализа данных, то можно создать запросы с помощью расширений интеллектуального анализа данных. Например, инструкция SELECT * FROM <structure>.CASES
возвращает все данные в структуре интеллектуального анализа данных. Чтобы получить эти данные, структура интеллектуального анализа данных должна быть обработана, а результаты обработки должны находиться в кэше.
Инструкция SELECT * FROM <model>.CASES
возвращает те же столбцы, но только для вариантов в этой определенной модели. Дополнительные сведения см. в разделе Структура> SELECT FROM<. Модель CASES и SELECT FROM<.> CASE (DMX).
Совместное использование моделей интеллектуального анализа данных и структур интеллектуального анализа данных.
Модель интеллектуального анализа данных применяет алгоритм интеллектуального анализа к данным, представленным структурой интеллектуального анализа данных. Модель интеллектуального анализа данных является объектом, принадлежащим некоторой структуре интеллектуального анализа данных, и наследует все значения свойств, определенных этой структурой. Модель может использовать все столбцы, содержащиеся в структуре интеллектуального анализа данных, или подмножества этих столбцов. В структуру можно добавить несколько копий столбца структуры. Также можно добавить в модель несколько копий столбцов структуры, а затем присвоить им разные имена или псевдонимы. Дополнительные сведения о присвоении псевдонимов столбцам структуры см. в разделах Создание псевдонима для столбца модели и Свойства модели интеллектуального анализа данных.
Дополнительные сведения об архитектуре моделей интеллектуального анализа данных см. в разделе Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Связанные задачи
Используйте указанные здесь ссылки, чтобы больше узнать об определении, управлении и использовании структур интеллектуального анализа данных.
Задания | Ссылки |
---|---|
Работа с реляционными структурами интеллектуального анализа данных | создать новую реляционную структуру интеллектуального анализа данных добавить вложенную таблицу в структуру интеллектуального анализа данных |
Работа со структурами интеллектуального анализа данных, основанными на кубах OLAP | создать новую структуру интеллектуального анализа OLAP отфильтровать исходный куб для структуры интеллектуального анализа данных |
Работа со столбцами в структуре интеллектуального анализа данных | добавить столбцы к структуре интеллектуального анализа данных удалить столбцы из структуры интеллектуального анализа данных |
Изменение или запрос свойств и данных структуры интеллектуального анализа данных | изменить свойства структуры интеллектуального анализа данных |
Работа с базовыми источниками данных и обновление источника данных | Изменение представления источников данных, используемого для структуры интеллектуального анализа данных обработать структуру интеллектуального анализа данных |
См. также:
Объекты баз данных (службы Analysis Services — многомерные данные)
Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)