Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Статья
07/30/2013

Алгоритм интеллектуального анализа данных — это набор эвристики и вычислений, который создает модель интеллектуального анализа данных из данных. Чтобы создать модель, алгоритм сначала анализирует предоставленные данные, осуществляя поиск определенных закономерностей и тенденций. Алгоритм использует результаты этого анализа для выбора оптимальных параметров создания модели интеллектуального анализа данных. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.

Модель интеллектуального анализа данных, создаваемая алгоритмом из предоставленных данных, может иметь различные формы, включая следующие.

Набор кластеров, описывающих связи вариантов в наборе данных.
Дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии.
Математическую модель, прогнозирующую продажи.
Набор правил, описывающих группирование продуктов в транзакции, а также вероятности одновременной покупки продуктов.

В службах Microsoft SQL Server Analysis Services реализовано несколько алгоритмов для использования в решениях интеллектуального анализа данных. Эти алгоритмы являются реализациями некоторых из наиболее популярных методов, используемых в интеллектуальном анализе данных. Все алгоритмы интеллектуального анализа данных Майкрософт настраиваются, они полностью программируются через API-интерфейсы или компоненты интеллектуального анализа данных служб SQL Server Integration Services.

Кроме того, поддерживается использование сторонних алгоритмов, соответствующих спецификации OLE DB для интеллектуального анализа данных. Имеется также возможность разрабатывать собственные алгоритмы, которые можно зарегистрировать в качестве служб, а затем использовать в платформе интеллектуального анализа данных SQL Server.

Выбор правильного алгоритма

Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. Например, можно использовать алгоритм дерева принятия решений (Майкрософт) не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.

Выбор алгоритма по типу

Службы Analysis Services включают следующие типы алгоритмов.

Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных.
Регрессивные алгоритмы осуществляют прогнозирование одной или нескольких непрерывных переменных, например прибыли или убытков, на основе других атрибутов в наборе данных.
Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства.
Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины.
Алгоритмы анализа последовательностей обобщают часто встречающиеся последовательности в данных, например поток данных в Интернете.

Однако ничто не заставляет пользователя ограничиваться одним алгоритмом в своих решениях. Опытные аналитики часто используют один алгоритм для выявления наиболее эффективных входных данных (то есть переменных), после чего применяют другой алгоритм для прогнозирования определенного результата на основе этих данных. Интеллектуальный анализ данных SQL Server позволяет на базе одной структуры интеллектуального анализа построить много моделей таким образом, что в рамках одного решения для интеллектуального анализа данных можно было использовать алгоритм кластеризации, модель дерева решений, а также модель упрощенного алгоритма Байеса для получения разных представлений данных. Несколько алгоритмов в одном решении также можно использовать для выполнения отдельных задач. Например, с помощью регрессии можно получать финансовые прогнозы, а с помощью алгоритма нейронной сети выполнять анализ факторов, влияющих на объем продаж.

Выбор алгоритма по задаче

Чтобы облегчить выбор алгоритмов для решения определенной задачи, в следующей таблице приведены типы задач, для решения которых обычно используется каждый алгоритм.

Примеры задач	Подходящие алгоритмы Майкрософт
Прогнозирование дискретного атрибута Пометка клиентов из списка потенциальных покупателей как хороших и плохих кандидатов. Вычисление вероятности отказа сервера в течение следующих шести месяцев. Классификация вариантов развития болезней пациентов и исследование связанных факторов.	Алгоритм дерева принятия решений (Майкрософт) Упрощенный алгоритм Байеса (Майкрософт) Алгоритм кластеризации (Майкрософт) Алгоритм нейронной сети (Майкрософт)
Прогнозирование непрерывного атрибута Прогноз продаж на следующий год. Прогноз количества посетителей сайта с учетом прошлых лет и сезонных тенденций. Формирование оценки риска с учетом демографии.	Алгоритм дерева принятия решений (Майкрософт) Алгоритм временных рядов (Майкрософт) Алгоритм линейной регрессии (Майкрософт)
Прогнозирование последовательности Анализ маршрута перемещения по веб-сайту компании. Анализ факторов, ведущих к отказу сервера. Отслеживание и анализ последовательностей действий во время посещения поликлиники с целью формулирования рекомендаций по общим действиям.	Алгоритм кластеризации последовательностей (Майкрософт)
Нахождение групп общих элементов в транзакциях. Использование анализа потребительской корзины для определения мест размещения продуктов. Выявление дополнительных продуктов, которые можно предложить купить клиенту. Анализ данных опроса, проведенного среди посетителей события, с целью выявления того, какие действия и стенды были связаны, чтобы планировать будущие действия.	Алгоритм взаимосвязей (Майкрософт) Алгоритм дерева принятия решений (Майкрософт)
Нахождение групп схожих элементов Создание профилей рисков для пациентов на основе таких атрибутов, как демография и поведение. Анализ пользователей по шаблонам просмотра и покупки. Определение серверов, которые имеют аналогичные характеристики использования.	Алгоритм кластеризации (Майкрософт) Алгоритм кластеризации последовательностей (Майкрософт)

Прогнозирование дискретного атрибута

Пометка клиентов из списка потенциальных покупателей как хороших и плохих кандидатов.
Вычисление вероятности отказа сервера в течение следующих шести месяцев.
Классификация вариантов развития болезней пациентов и исследование связанных факторов.

Алгоритм дерева принятия решений (Майкрософт)

Упрощенный алгоритм Байеса (Майкрософт)

Алгоритм кластеризации (Майкрософт)

Алгоритм нейронной сети (Майкрософт)

Прогнозирование непрерывного атрибута

Прогноз продаж на следующий год.
Прогноз количества посетителей сайта с учетом прошлых лет и сезонных тенденций.
Формирование оценки риска с учетом демографии.

Алгоритм дерева принятия решений (Майкрософт)

Алгоритм временных рядов (Майкрософт)

Алгоритм линейной регрессии (Майкрософт)

Прогнозирование последовательности

Анализ маршрута перемещения по веб-сайту компании.
Анализ факторов, ведущих к отказу сервера.
Отслеживание и анализ последовательностей действий во время посещения поликлиники с целью формулирования рекомендаций по общим действиям.

Алгоритм кластеризации последовательностей (Майкрософт)

Нахождение групп общих элементов в транзакциях.

Использование анализа потребительской корзины для определения мест размещения продуктов.
Выявление дополнительных продуктов, которые можно предложить купить клиенту.
Анализ данных опроса, проведенного среди посетителей события, с целью выявления того, какие действия и стенды были связаны, чтобы планировать будущие действия.

Алгоритм взаимосвязей (Майкрософт)

Алгоритм дерева принятия решений (Майкрософт)

Нахождение групп схожих элементов

Создание профилей рисков для пациентов на основе таких атрибутов, как демография и поведение.
Анализ пользователей по шаблонам просмотра и покупки.
Определение серверов, которые имеют аналогичные характеристики использования.

Алгоритм кластеризации (Майкрософт)

Алгоритм кластеризации последовательностей (Майкрософт)

См. также

В следующей таблице приводятся ссылки на ресурсы по обучению использованию каждого из алгоритмов интеллектуального анализа данных, имеющихся в службах Analysis Services.

Общее описание алгоритма	Объясняет работу алгоритма и содержит примеры возможных бизнес-сценариев, в которых этот алгоритм может быть полезен.
	Алгоритм взаимосвязей (Майкрософт) Алгоритм кластеризации (Майкрософт) Алгоритм дерева принятия решений (Майкрософт) Алгоритм линейной регрессии (Майкрософт) Алгоритм логистической регрессии (Майкрософт) Упрощенный алгоритм Байеса (Майкрософт) Алгоритм нейронной сети (Майкрософт) Алгоритм кластеризации последовательностей (Майкрософт) Алгоритм временных рядов (Майкрософт)
Технический справочник	Содержит технические данные о реализации алгоритма со ссылками на соответствующую литературу при необходимости. Содержит список параметров, с помощью которых можно управлять работой алгоритма и изменять результаты в модели. Описывает требования к данным и содержит советы по повышению производительности, когда это возможно.
	Технический справочник по алгоритму взаимосвязей (Майкрософт) Технический справочник по алгоритму кластеризации (Майкрософт) Технический справочник по алгоритму дерева принятия решений (Майкрософт) Технический справочник по алгоритму линейной регрессии (Майкрософт) Технический справочник по алгоритму логистической регрессии (Майкрософт) Технический справочник по упрощенному алгоритму Байеса (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт) Технический справочник по алгоритму кластеризации последовательностей (Майкрософт) Технический справочник по алгоритму временных рядов (Майкрософт)
Содержимое модели	Описывает, каким образом данные структурируются для каждого типа модели и объясняет, как интерпретировать данные, хранящиеся в каждом из узлов.
	Содержимое моделей интеллектуального анализа данных для моделей взаимосвязей (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей линейной регрессии (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей логистической регрессии (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей нейронных сетей (службы Analysis Services — интеллектуальный анализ данных) Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных) Содержимое модели интеллектуального анализа данных для моделей временных рядов (службы Analysis Services — интеллектуальный анализ данных)
Запросы интеллектуального анализа данных	Содержит примеры запросов, которые могут быть использованы с моделями каждого типа. Содержит описание запросов содержимого, позволяющих получить подробные сведения о закономерностях в модели, а также прогнозирующих запросов, позволяющих строить прогнозы на основе этих закономерностей.
	Примеры запросов моделей взаимосвязей Примеры запросов к модели кластеризации Примеры запросов к модели дерева принятия решений Примеры запросов модели линейной регрессии Примеры запросов модели логистической регрессии Примеры запросов к модели упрощенного алгоритма Байеса Примеры запросов к модели нейронной сети Примеры запросов к модели кластеризации последовательностей Примеры запросов моделей временных рядов

Связанные задачи

Раздел	Описание
Определение алгоритма, используемого моделью интеллектуального анализа данных	запросить параметры, используемые для создания модели интеллектуального анализа данных
Создание пользовательского подключаемого алгоритма	Подключаемые алгоритмы
Исследование модели с помощью средства просмотра конкретного алгоритма	Средства просмотра моделей интеллектуального анализа данных
Просмотр содержимого модели с помощью общего формата таблицы	Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт)
Сведения о настройке данных и использовании алгоритмов для создания моделей	Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных) Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

См. также

Основные понятия

Средства интеллектуального анализа данных

Поделиться через

Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Выбор правильного алгоритма

Выбор алгоритма по типу

Выбор алгоритма по задаче

См. также

Связанные задачи

См. также

Основные понятия

Дополнительные ресурсы