Проекты интеллектуального анализа данных
Проект интеллектуального анализа данных — это часть решения служб Analysis Services. Во время проектирования объекты, создаваемые в этом проекте, доступны для тестирования и запросов в составе базы данных рабочей области. Чтобы дать пользователям возможность просматривать объекты в проекте и составлять к ним запросы, необходимо развернуть проект в экземпляре служб Analysis Services, работающем в многомерном режиме.
В этом разделе содержатся основные сведения о проектах интеллектуального анализа данных, необходимые для создания проектов.
Создание проектов интеллектуального анализа данных
Объекты в проектах интеллектуального анализа данных
Источники данных
Представления источников данных
Структуры интеллектуального анализа данных
Модели интеллектуального анализа данных
Использование завершенного проекта интеллектуального анализа данных
Просмотр и изучение моделей
Тестирование и проверка моделей
Создание прогнозов
Программный доступ к проектам интеллектуального анализа данных
Создание проектов интеллектуального анализа данных
В среде SQL Server Data Tools (SSDT) проекты интеллектуального анализа данных создаются по шаблону Проект OLAP и интеллектуального анализа данных. Проекты интеллектуального анализа данных также можно создавать программно с помощью объектов AMO. Отдельные объекты интеллектуального анализа данных можно описывать в скриптах на языке ASSL. Дополнительные сведения см. в разделе Доступ к данным многомерной модели (службы Analysis Services — многомерные данные).
Если проект интеллектуального анализа данных создается в существующем решении, то по умолчанию объекты интеллектуального анализа данных будут развертываться в базе данных служб Analysis Services с именем, совпадающим с файлом решения. Изменить это имя и целевой сервер можно в диалоговом окне Свойства проекта. Дополнительные сведения см. в разделе Настройка свойств проекта служб Analysis Services (среда SSDT).
Внимание! |
---|
Для успешного построения и развертывания проекта необходим доступ к экземпляру служб Analysis Services, который работает в режиме OLAP и интеллектуального анализа данных. Разработка и развертывание решений интеллектуального анализа данных невозможны в экземпляре служб Analysis Services, который поддерживает табличные модели. Также невозможно непосредственное использование данных из книги PowerPivot или из табличной модели, использующей хранилище данных в памяти. Чтобы определить, может ли имеющийся экземпляр служб Analysis Services поддерживать интеллектуальный анализ данных, обратитесь к разделу Определение режима работы сервера экземпляра служб Analysis Services. |
Для каждого создаваемого проекта интеллектуального анализа данных выполняются следующие действия.
Выберите источник данных. Источником может быть куб, база данных, файл Excel или текстовый файл, содержащий необработанные данные, которые будут использоваться для построения моделей.
Определите в источнике подмножество данных, используемое для анализа, и сохраните его в виде представления источника данных.
Определите структуру интеллектуального анализа данных для поддержки моделирования.
Добавьте в эту структуру модели интеллектуального анализа данных, выбрав алгоритм и указав порядок обработки данных алгоритмом.
Проведите обучение моделей, заполнив их выбранными данными или отфильтрованным подмножеством данных.
Просматривайте, тестируйте и перестраивайте модели.
После завершения проекта можно развернуть его, чтобы пользователи смогли просматривать проект и создавать к нему запрос. Также можно предоставить программный доступ к моделям интеллектуального анализа данных в приложении для поддержки прогнозов и анализа.
В начало
Объекты в проектах интеллектуального анализа данных
Каждый проект интеллектуального анализа данных содержит объекты следующих четырех типов. Возможно наличие нескольких объектов каждого типа.
Источники данных
Представления источников данных
Структуры интеллектуального анализа данных
Модели интеллектуального анализа данных
Например, один проект интеллектуального анализа данных может содержать ссылки на несколько источников данных, каждый из которых поддерживает несколько представлений. В свою очередь, каждое представление источника данных может поддерживать несколько структур интеллектуального анализа данных, а с каждой структурой может быть связано множество моделей интеллектуального анализа данных.
Кроме того, в проект могут входить подключаемые алгоритмы, пользовательские сборки или пользовательские хранимые процедуры. Такие объекты здесь не описываются. Дополнительные сведения см. в разделе Руководство разработчика (службы Analysis Services).
В начало
Источники данных
В источнике данных определяется строка подключения и данные проверки подлинности, которые сервер служб Analysis Services будет использовать для соединения с источником данных. Источник данных может содержать несколько таблиц или представлений. Он может быть простым, как отдельная книга Excel или текстовый файл, или сложным, как база данных OLAP или крупная реляционная база данных.
Один проект интеллектуального анализа данных может ссылаться на несколько источников данных. В одной модели интеллектуального анализа данных в каждый момент времени может использоваться только один источник данных, но в проект могут входить несколько моделей, основанных на разных источниках.
Службы Analysis Services поддерживают данные из многих внешних поставщиков, и в интеллектуальном анализе данных SQL Server в качестве источника данных могут использоваться как реляционные данные, так и данные кубов. Однако в случае если разрабатываются проекты обоих типов (модели на основе реляционных источников и модели на основе кубов OLAP), то может понадобиться вести разработку и управление в виде отдельных проектов.
Обычно модели, основанные на кубе OLAP, следует разрабатывать в решении по проектированию OLAP. Это обусловлено в том числе тем, что модели, основанные на кубе, должны обрабатывать куб, чтобы обновить данные. В общем случае данные кубов следует использовать, только если кубы служат главным средством хранения данных и доступа к данным либо если необходимы агрегаты, измерения и атрибуты, созданные в многомерном проекте.
Если в проекте используются только реляционные данные, то следует создавать реляционные модели в отдельном проекте, чтобы не выполнять излишнюю обработку других объектов. Во многих случаях в промежуточной базе данных или хранилище данных, которое используется для создания кубов, уже содержатся представления, необходимые для интеллектуального анализа данных, и эти представления можно использовать вместо агрегатов и измерений куба.
Для построения моделей интеллектуального анализа данных нельзя непосредственно использовать данные из памяти или данные PowerPivot.
Источник данных определяет только сервер или поставщик и общий тип данных. Чтобы изменить форматирование данных и агрегатные схемы, используйте объект представления источника данных.
Чтобы изменить порядок обработки данных из источника, в представлении источника данных можно добавлять производные столбцы или вычисления, изменять агрегаты и менять имена столбцов в данных. (Также можно работать с данными на более низком уровне, изменяя столбцы структуры интеллектуального анализа данных, или использовать флаги и фильтры модели на уровне столбцов модели.)
Если требуется очистка данных или изменение хранилища данных для создания дополнительных переменных, изменения типов данных или создания альтернативных агрегатов, может понадобиться создать дополнительные типы проекта для поддержки интеллектуального анализа данных. Дополнительные сведения о таких связанных проектах см. в разделе Связанные проекты для решений интеллектуального анализа данных.
В начало
Представления источников данных
После определения этого соединения с источником данных создается представление, в котором определяются конкретные данные, относящиеся к модели.
Представление источника данных также позволяет задать способ передачи данных, содержащихся в источнике, в модель интеллектуального анализа данных. Структуру данных можно изменить таким образом, чтобы она лучше подходила для задач проекта, или выбрать только данные определенных типов.
Например, в редакторе представлений источников данных можно выполнять следующие действия.
Создавать производные столбцы, например части даты, вложенные строки и т. д.
Выполнять агрегатную обработку значений с помощью инструкций Transact-SQL (GROUP BY и др.)
Временно ограничивать данные и создавать образец данных.
Дополнительные сведения об изменении данных в представлении источника данных см. в разделе Представления источников данных в многомерных моделях.
Внимание! |
---|
Отфильтровать данные можно либо в представлении источников данных, либо с помощью фильтров, создаваемых на уровне модели интеллектуального анализа данных. Поскольку определение фильтра хранится в модели интеллектуального анализа данных, использование фильтров модели упрощает определение данных, которые использовались для обучения модели. Более того, можно создать несколько связанных моделей с различными условиями фильтра. Дополнительные сведения см. в разделе Фильтры для моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных). |
Заметьте, что создаваемое представление источника данных может содержать дополнительные данные, которые непосредственно не используются в анализе. Например, можно добавить в представление источника данные, используемые для тестирования, прогнозов или детализации. Дополнительные сведения о таких вариантах использования см. в разделах Тестирование и проверка (интеллектуальный анализ данных) и Детализация.
В начало
Структуры интеллектуального анализа данных
После создания источника данных и представления источников данных необходимо выбрать столбцы данных, которые лучше всего подходят для описания бизнес-задачи. При этом в проекте создаются структуры интеллектуального анализа данных. Структура интеллектуального анализа данных определяет, какие столбцы данных из представления источника данных будут фактически использоваться для моделирования, обучения и тестирования.
Чтобы добавить новую структуру интеллектуального анализа данных, запустите мастер интеллектуального анализа данных. Мастер автоматически определяет структуру интеллектуального анализа данных, помогает выбрать данные, а также позволяет добавить в структуру начальную модель интеллектуального анализа данных. В структуре интеллектуального анализа данных таблицы и столбцы выбираются из представления источников данных или куба OLAP. Если данные содержат вложенные таблицы, то между таблицами определяются связи.
Вид данных, выбранных в мастере интеллектуального анализа данных, будет сильно различаться в зависимости от используемых источников данных (реляционные или OLAP).
Если данные выбираются из реляционного источника данных, то настройка структуры интеллектуального анализа данных проводится просто: столбцы выбираются из данных в представлении источников данных, задаются дополнительные параметры (псевдонимы и т. п.), или определяется порядок группирования или сегментации значений в столбце. Дополнительные сведения см. в разделе Создание реляционной структуры интеллектуального анализа данных.
Если используются данные из куба OLAP, то структура интеллектуального анализа данных должна находиться в одной базе данных с решением OLAP. Чтобы создать структуру интеллектуального анализа данных, выберите атрибуты из измерений и связанных мер в решении OLAP. Числовые значения обычно находятся в мерах, а категориальные переменные — в измерениях. Дополнительные сведения см. в разделе Создание структуры интеллектуального анализа данных OLAP.
Для определения структур интеллектуального анализа данных также используются расширения интеллектуального анализа данных. Дополнительные сведения см. в разделе Инструкции определения расширений интеллектуального анализа данных.
После создания начальной структуры интеллектуального анализа данных можно копировать и изменять столбцы структуры, а также задавать для них псевдонимы.
Каждая структура интеллектуального анализа данных может содержать несколько моделей интеллектуального анализа данных. Поэтому после завершения работы можно снова открыть структуру интеллектуального анализа данных и добавить в нее дополнительные модели интеллектуального анализа данных, используя конструктор (см. раздел Конструктор интеллектуального анализа данных).
Также можно разделить данные на набор данных для обучения, который используется для построения моделей, и набор контрольных данных, который используется для тестирования и проверки моделей интеллектуального анализа данных.
Внимание! |
---|
Некоторые типы моделей, например модель временных рядов, не поддерживают создание наборов контрольных данных, поскольку для обучения им требуется непрерывная последовательность данных. Дополнительные сведения см. в разделе Обучающие и проверочные наборы данных. |
В начало
Модели интеллектуального анализа данных
Модель интеллектуального анализа данных определяет алгоритм, то есть метод анализа, который будет применяться к данным. В каждую структуру интеллектуального анализа данных добавляется одна или несколько моделей интеллектуального анализа данных.
В зависимости от задач можно объединить несколько моделей в одном проекте или создать отдельные проекты для каждого типа модели или аналитической задачи.
После создания структуры и моделей выполняется обработка каждой модели. При этом данные из представления источников данных проходят через алгоритм, который создает математическую модель данных. Этот процесс также называется обучением модели. Дополнительные сведения см. в разделе Требования к обработке и связанные замечания (интеллектуальный анализ данных).
После обработки становится доступным просмотр модели интеллектуального анализа данных и создание прогнозирующих запросов к ней. Если данные, полученные в процессе обучения, находятся в кэше, то запросы детализации дают возможность получить подробные сведения о вариантах, используемых в модели.
Если нужно использовать модель в рабочей среде (например, для составления прогнозов или для просмотра обычными пользователями), то ее можно развернуть на другом сервере. Если в дальнейшем понадобится повторная обработка модели, вместе с моделью можно экспортировать определение базовой структуры интеллектуального анализа данных (при этом также необходимо определение источника данных и представление источника данных).
Во время развертывания модели также необходимо проверить правильность задания параметров обработки структуры и модели, а также обеспечить наличие у потенциальных пользователей необходимых разрешений на выполнение запросов, просмотр моделей и детализацию данных структуры или модели. Дополнительные сведения см. в разделе Общие сведения о безопасности (интеллектуальный анализ данных).
В начало
Использование завершенного проекта интеллектуального анализа данных
В этом разделе кратко описаны способы использования завершенного проекта интеллектуального анализа данных. Можно создавать диаграммы точности, просматривать и проверять данные, а также предоставлять пользователям доступ к шаблонам интеллектуального анализа данных.
Внимание! |
---|
Диаграммы, запросы и представления, используемые с моделями интеллектуального анализа данных, не сохраняются в составе проекта интеллектуального анализа данных, и их нельзя развернуть. Чтобы сохранить эти объекты, необходимо сохранить само представляемое в них содержимое или создать скрипт для каждого объекта с соответствующим описанием. |
В начало
Просмотр и изучение моделей
После создания модели можно использовать визуальные средства и запросы для просмотра закономерностей в модели и изучения базовых закономерностей и статистических данных. На вкладке Средство просмотра моделей интеллектуального анализа данных в конструкторе интеллектуального анализа данных службы Analysis Services предлагают средства просмотра для каждого типа модели интеллектуального анализа данных, которые можно использовать для работы с моделями интеллектуального анализа данных.
Эти представления создаются временно и закрываются без сохранения после завершения сеанса служб Analysis Services. Поэтому, если нужно экспортировать эти представления в другое приложение для демонстрации или дополнительного анализа, используйте команды Копировать, доступные на каждой вкладке или в каждой области интерфейса средства просмотра.
Надстройки интеллектуального анализа данных для Excel также содержат шаблон Visio, который можно использовать для представления моделей на диаграмме Visio и затем использовать средства Visio для создания заметок и изменения модели. Дополнительные сведения см. в разделе Надстройки интеллектуального анализа данных для Excel.
В начало
Тестирование и проверка моделей
После создания модели можно изучить результаты и решить, какие модели работают лучше всего.
Службы Analysis Services предлагают несколько диаграмм, которые можно использовать для непосредственного сравнения моделей интеллектуального анализа данных, чтобы выбрать самую точную или самую полезную модель. Это диаграмма точности прогнозов, диаграмма роста прибыли и матрица классификации. Диаграммы создаются на вкладке Диаграмма точности интеллектуального анализа данных в конструкторе интеллектуального анализа данных.
Можно также воспользоваться отчетом перекрестной проверки. Он позволяет выполнить итеративную усредняющую выборку данных, чтобы определить, является ли модель смещенной относительно определенного набора данных. Статистика, представленная в отчете, может использоваться для объективного сравнения моделей и оценки качества обучающих данных.
Заметьте, что эти отчеты и диаграммы не сохраняются ни в проекте, ни в базе данных служб Analysis Services, и поэтому, если нужно сохранить результаты или создать их копии, следует сохранить результаты в файл или описать объекты в скрипте с использованием объектов AMO или расширений интеллектуального анализа данных. Также можно использовать хранимые процедуры для перекрестной проверки.
Дополнительные сведения см. в разделе Тестирование и проверка (интеллектуальный анализ данных).
В начало
Создание прогнозов
В службах Analysis Services поддерживается язык запросов, который называется расширениями интеллектуального анализа данных (DMX). Он служит основой для создания прогнозов и удобен в написании скриптов. Для упрощения построения прогнозирующих DMX-запросов в SQL Server входит построитель запросов, доступный в среде Среда SQL Server Management Studio. Кроме того, существует множество шаблонов расширений интеллектуального анализа данных для редактора запросов в среде Среда SQL Server Management Studio. Пользователям, незнакомым с прогнозирующими запросами, рекомендуется использовать построитель запросов, входящий в состав конструктора интеллектуального анализа данных и среды Среда SQL Server Management Studio. Дополнительные сведения см. в разделе Средства интеллектуального анализа данных.
Прогнозы, создаваемые в среде SQL Server Data Tools (SSDT) или Среда SQL Server Management Studio, не сохраняются, и поэтому, если используются сложные запросы или необходимо воспроизвести результаты, рекомендуется сохранить прогнозирующие запросы в файлы DMX-запросов, включить их в скрипт или внедрить в пакет служб Integration Services.
В начало
Программный доступ к объектам интеллектуального анализа данных
Службы Analysis Services предоставляют несколько средств для программной работы с проектами интеллектуального анализа данных и входящими в них объектами. Язык расширений интеллектуального анализа данных содержит инструкции, которые используются для создания источников данных и представлений источников данных, а также для создания, обучения и использования структур и моделей интеллектуального анализа данных. Дополнительные сведения см. в разделе Справочник по расширениям интеллектуального анализа данных.
Эти задачи также можно выполнить с помощью языка ASSL или объектов AMO. Дополнительные сведения см. в разделе Разработка с использованием XMLA в службах Analysis Services.
В начало
Связанные задачи
В следующих разделах описывается создание проекта интеллектуального анализа данных и связанных объектов в мастере интеллектуального анализа данных.
Задачи |
Разделы |
---|---|
Работа со столбцами структуры интеллектуального анализа данных |
Создание реляционной структуры интеллектуального анализа данных |
Дополнительные сведения о добавлении новых моделей интеллектуального анализа данных, обработке структуры и моделей |
|
Ссылки на ресурсы, полезные для настройки алгоритмов, выполняющих построение моделей интеллектуального анализа данных |
Настройка структуры и моделей интеллектуального анализа данных |
Ссылки на сведения о каждом средстве просмотра моделей интеллектуального анализа данных |
|
Сведения о создании диаграммы точности прогнозов, диаграммы роста прибыли или матрицы классификации и сведения о тестировании структуры интеллектуального анализа данных |
|
Сведения о параметрах обработки и разрешениях |
|
Дополнительные сведения о службах Analysis Services |
См. также
Основные понятия
Конструктор интеллектуального анализа данных
Создание многомерных моделей с помощью SQL Server Data Tools (SSDT)