Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Алгоритм интеллектуального анализа данных — это набор эвристики и вычислений, который создает модель интеллектуального анализа данных из данных. Чтобы создать модель, алгоритм сначала анализирует предоставленные данные, осуществляя поиск определенных закономерностей и тенденций. Алгоритм использует результаты этого анализа для выбора оптимальных параметров создания модели интеллектуального анализа данных. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.
Модель интеллектуального анализа данных, создаваемая алгоритмом из предоставленных данных, может иметь различные формы, включая следующие.
Набор кластеров, описывающих связи вариантов в наборе данных.
Дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии.
Математическую модель, прогнозирующую продажи.
Набор правил, описывающих группирование продуктов в транзакции, а также вероятности одновременной покупки продуктов.
В службах Microsoft SQL Server Analysis Services реализовано несколько алгоритмов для использования в решениях интеллектуального анализа данных. Эти алгоритмы являются реализациями некоторых из наиболее популярных методов, используемых в интеллектуальном анализе данных. Все алгоритмы интеллектуального анализа данных Майкрософт настраиваются, они полностью программируются через API-интерфейсы или компоненты интеллектуального анализа данных служб SQL Server Integration Services.
Кроме того, поддерживается использование сторонних алгоритмов, соответствующих спецификации OLE DB для интеллектуального анализа данных. Имеется также возможность разрабатывать собственные алгоритмы, которые можно зарегистрировать в качестве служб, а затем использовать в платформе интеллектуального анализа данных SQL Server.
Выбор правильного алгоритма
Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. Например, можно использовать алгоритм дерева принятия решений (Майкрософт) не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.
Выбор алгоритма по типу
Службы Analysis Services включают следующие типы алгоритмов.
Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных.
Регрессивные алгоритмы осуществляют прогнозирование одной или нескольких непрерывных переменных, например прибыли или убытков, на основе других атрибутов в наборе данных.
Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства.
Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины.
Алгоритмы анализа последовательностей обобщают часто встречающиеся последовательности в данных, например поток данных в Интернете.
Однако ничто не заставляет пользователя ограничиваться одним алгоритмом в своих решениях. Опытные аналитики часто используют один алгоритм для выявления наиболее эффективных входных данных (то есть переменных), после чего применяют другой алгоритм для прогнозирования определенного результата на основе этих данных. Интеллектуальный анализ данных SQL Server позволяет на базе одной структуры интеллектуального анализа построить много моделей таким образом, что в рамках одного решения для интеллектуального анализа данных можно было использовать алгоритм кластеризации, модель дерева решений, а также модель упрощенного алгоритма Байеса для получения разных представлений данных. Несколько алгоритмов в одном решении также можно использовать для выполнения отдельных задач. Например, с помощью регрессии можно получать финансовые прогнозы, а с помощью алгоритма нейронной сети выполнять анализ факторов, влияющих на объем продаж.
Выбор алгоритма по задаче
Чтобы облегчить выбор алгоритмов для решения определенной задачи, в следующей таблице приведены типы задач, для решения которых обычно используется каждый алгоритм.
Примеры задач |
Подходящие алгоритмы Майкрософт |
---|---|
Прогнозирование дискретного атрибута
|
Алгоритм дерева принятия решений (Майкрософт) Упрощенный алгоритм Байеса (Майкрософт) |
Прогнозирование непрерывного атрибута
|
Алгоритм дерева принятия решений (Майкрософт) |
Прогнозирование последовательности
|
|
Нахождение групп общих элементов в транзакциях.
|
|
Нахождение групп схожих элементов
|
См. также
В следующей таблице приводятся ссылки на ресурсы по обучению использованию каждого из алгоритмов интеллектуального анализа данных, имеющихся в службах Analysis Services.
Связанные задачи
Раздел |
Описание |
---|---|
Определение алгоритма, используемого моделью интеллектуального анализа данных |
запросить параметры, используемые для создания модели интеллектуального анализа данных |
Создание пользовательского подключаемого алгоритма |
|
Исследование модели с помощью средства просмотра конкретного алгоритма |
|
Просмотр содержимого модели с помощью общего формата таблицы |
Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт) |
Сведения о настройке данных и использовании алгоритмов для создания моделей |
Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных) |