Поделиться через


Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Алгоритм интеллектуального анализа данных — это набор эвристики и вычислений, который создает модель интеллектуального анализа данных на основе данных. Чтобы создать модель, алгоритм сначала анализирует предоставленные данные, осуществляя поиск определенных закономерностей и тенденций. Алгоритм использует результаты этого анализа для выбора оптимальных параметров создания модели интеллектуального анализа данных. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.

Модель интеллектуального анализа данных, создаваемая алгоритмом из предоставленных данных, может иметь различные формы, включая следующие.

  • Набор кластеров, описывающих связи вариантов в наборе данных.

  • Дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии.

  • Математическую модель, прогнозирующую продажи.

  • Набор правил, описывающих группирование продуктов в транзакции, а также вероятности одновременной покупки продуктов.

Microsoft SQL Server Analysis Services предоставляет несколько алгоритмов для использования в решениях интеллектуального анализа данных. Эти алгоритмы являются реализациями некоторых из наиболее популярных методов, используемых в интеллектуальном анализе данных. Все алгоритмы интеллектуального анализа данных Майкрософт настраиваются, они полностью программируются через API-интерфейсы или компоненты интеллектуального анализа данных служб SQL Server Integration Services.

Кроме того, поддерживается использование сторонних алгоритмов, соответствующих спецификации OLE DB для интеллектуального анализа данных. Имеется также возможность разрабатывать собственные алгоритмы, которые можно зарегистрировать в качестве служб, а затем использовать в платформе интеллектуального анализа данных SQL Server.

Выбор правильного алгоритма

Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. Например, алгоритм дерева принятия решений (Майкрософт) можно использовать не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.

Выбор алгоритма по типу

Службы Analysis Services включают следующие типы алгоритмов:

  • Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных.

  • Алгоритмы регрессии прогнозируют одну или несколько непрерывных переменных, таких как прибыль или убыток, на основе других атрибутов в наборе данных.

  • Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства.

  • Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины.

  • Алгоритмы анализа последовательностей обобщают частые последовательности или эпизоды в данных, например поток веб-пути.

Однако ничто не заставляет пользователя ограничиваться одним алгоритмом в своих решениях. Опытные аналитики часто используют один алгоритм для выявления наиболее эффективных входных данных (то есть переменных), после чего применяют другой алгоритм для прогнозирования определенного результата на основе этих данных. Интеллектуальный анализ данных SQL Server позволяет на базе одной структуры интеллектуального анализа построить много моделей таким образом, что в рамках одного решения для интеллектуального анализа данных можно было использовать алгоритм кластеризации, модель дерева решений, а также модель упрощенного алгоритма Байеса для получения разных представлений данных. В одном решении также можно использовать несколько алгоритмов для выполнения отдельных задач. Например, с помощью регрессии можно получать финансовые прогнозы, а с помощью алгоритма нейронной сети выполнять анализ факторов, влияющих на объем продаж.

Выбор алгоритма по задаче

Чтобы облегчить выбор алгоритмов для решения определенной задачи, в следующей таблице приведены типы задач, для решения которых обычно используется каждый алгоритм.

Примеры задач Подходящие алгоритмы Майкрософт
Прогнозирование дискретного атрибута

Пометка клиентов из списка потенциальных покупателей как хороших и плохих кандидатов.

Вычисление вероятности отказа сервера в течение следующих шести месяцев.

Классификация вариантов развития болезней пациентов и исследование связанных факторов.
Алгоритм дерева принятия решений (Майкрософт)

Microsoft Naive Bayes Algorithm

Алгоритм кластеризации (Майкрософт)

Microsoft Neural Network Algorithm
Прогнозирование непрерывного атрибута

Прогноз продаж на следующий год.

Прогноз количества посетителей сайта с учетом прошлых лет и сезонных тенденций.

Формирование оценки риска с учетом демографии.
Алгоритм дерева принятия решений (Майкрософт)

Алгоритм временных рядов (Майкрософт)

Алгоритм линейной регрессии (Майкрософт)
Прогнозирование последовательности

Анализ маршрута перемещения по веб-сайту компании.

Анализ факторов, ведущих к отказу сервера.

Отслеживание и анализ последовательностей действий во время посещения поликлиники с целью формулирования рекомендаций по общим действиям.
Алгоритм кластеризации последовательностей (Майкрософт)
Поиск групп общих элементов в транзакциях

Использование анализа потребительской корзины для определения мест размещения продуктов.

Выявление дополнительных продуктов, которые можно предложить купить клиенту.

Анализ данных опроса, проведенного среди посетителей события, с целью выявления того, какие действия и стенды были связаны, чтобы планировать будущие действия.
Алгоритм взаимосвязей (Майкрософт)

Алгоритм дерева принятия решений (Майкрософт)
Поиск групп похожих элементов

Создание профилей рисков для пациентов на основе таких атрибутов, как демография и поведение.

Анализ пользователей по шаблонам просмотра и покупки.

Определение серверов, которые имеют аналогичные характеристики использования.
Алгоритм кластеризации (Майкрософт)

Алгоритм кластеризации последовательностей (Майкрософт)

В следующей таблице приведены ссылки на учебные материалы по каждому алгоритму интеллектуального анализа данных, которые предоставляются в службах Analysis Services.

Общее описание алгоритма Объясняет работу алгоритма и содержит примеры возможных бизнес-сценариев, в которых этот алгоритм может быть полезен.
Алгоритм взаимосвязей (Майкрософт)

Алгоритм кластеризации (Майкрософт)

Алгоритм дерева принятия решений (Майкрософт)

Алгоритм линейной регрессии (Майкрософт)

Алгоритм логистической регрессии (Майкрософт)

Microsoft Naive Bayes Algorithm

Microsoft Neural Network Algorithm

Алгоритм кластеризации последовательностей (Майкрософт)

Алгоритм временных рядов (Майкрософт)
Технический справочник Содержит технические данные о реализации алгоритма со ссылками на соответствующую литературу при необходимости. Содержит список параметров, с помощью которых можно управлять работой алгоритма и изменять результаты в модели. Описывает требования к данным и содержит советы по повышению производительности, когда это возможно.
Технический справочник по алгоритму взаимосвязей (Майкрософт)

Технический справочник по алгоритму кластеризации (Майкрософт)

Технический справочник по алгоритму дерева принятия решений (Майкрософт)

Технический справочник по алгоритму линейной регрессии (Майкрософт)

техническом справочнике по алгоритму логистической регрессии (Майкрософт)

Технический справочник по упрощенному алгоритму Байеса (Майкрософт)

Технический справочник по алгоритму нейронной сети (Майкрософт)

Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)

Microsoft Time Series Algorithm Technical Reference
Содержимое модели Описывает, каким образом данные структурируются для каждого типа модели и объясняет, как интерпретировать данные, хранящиеся в каждом из узлов.
Содержимое моделей интеллектуального анализа данных для моделей взаимосвязей (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей дерева принятия решений (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей линейной регрессии (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей логистической регрессии (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей нейронных сетей (службы Analysis Services — интеллектуальный анализ данных)

Содержимое моделей интеллектуального анализа данных для моделей кластеризации последовательностей (службы Analysis Services — интеллектуальный анализ данных)

Содержимое модели интеллектуального анализа данных для моделей временных рядов (службы Analysis Services — интеллектуальный анализ данных)
Запросы интеллектуального анализа данных Содержит примеры запросов, которые могут быть использованы с моделями каждого типа. Содержит описание запросов содержимого, позволяющих получить подробные сведения о закономерностях в модели, а также прогнозирующих запросов, позволяющих строить прогнозы на основе этих закономерностей.
Примеры запросов моделей взаимосвязей

Примеры запросов к модели кластеризации

Примеры запросов к модели дерева принятия решений

Примеры запросов модели линейной регрессии

Примеры запросов модели логистической регрессии

Примеры запросов к модели упрощенного алгоритма Байеса

Примеры запросов к модели нейронной сети

Примеры запросов к модели кластеризации последовательностей

Примеры запросов моделей временных рядов
Раздел Описание
Определение алгоритма, используемого моделью интеллектуального анализа данных запросить параметры, используемые для создания модели интеллектуального анализа данных
Создание пользовательского подключаемого алгоритма Подключаемые алгоритмы
Исследование модели с помощью средства просмотра конкретного алгоритма Средства просмотра моделей интеллектуального анализа данных
Просмотр содержимого модели с помощью общего формата таблицы Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт)
Сведения о настройке данных и использовании алгоритмов для создания моделей Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)

См. также:

Средства интеллектуального анализа данных