Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Алгоритм интеллектуального анализа данных — это набор эвристики и вычислений, который создает модель интеллектуального анализа данных на основе данных. Чтобы создать модель, алгоритм сначала анализирует предоставленные данные, осуществляя поиск определенных закономерностей и тенденций. Алгоритм использует результаты этого анализа для выбора оптимальных параметров создания модели интеллектуального анализа данных. Затем эти параметры применяются ко всему набору данных, чтобы выявить пригодные к использованию закономерности и получить подробную статистику.
Модель интеллектуального анализа данных, создаваемая алгоритмом из предоставленных данных, может иметь различные формы, включая следующие.
Набор кластеров, описывающих связи вариантов в наборе данных.
Дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии.
Математическую модель, прогнозирующую продажи.
Набор правил, описывающих группирование продуктов в транзакции, а также вероятности одновременной покупки продуктов.
Microsoft SQL Server Analysis Services предоставляет несколько алгоритмов для использования в решениях интеллектуального анализа данных. Эти алгоритмы являются реализациями некоторых из наиболее популярных методов, используемых в интеллектуальном анализе данных. Все алгоритмы интеллектуального анализа данных Майкрософт настраиваются, они полностью программируются через API-интерфейсы или компоненты интеллектуального анализа данных служб SQL Server Integration Services.
Кроме того, поддерживается использование сторонних алгоритмов, соответствующих спецификации OLE DB для интеллектуального анализа данных. Имеется также возможность разрабатывать собственные алгоритмы, которые можно зарегистрировать в качестве служб, а затем использовать в платформе интеллектуального анализа данных SQL Server.
Выбор правильного алгоритма
Выбор правильного алгоритма для использования в конкретной аналитической задаче может быть достаточно сложным. В то время как можно использовать различные алгоритмы для выполнения одной и той же задачи, каждый алгоритм выдает различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. Например, алгоритм дерева принятия решений (Майкрософт) можно использовать не только для прогнозирования, но также в качестве способа уменьшения количества столбцов в наборе данных, поскольку дерево принятия решений может идентифицировать столбцы, не влияющие на конечную модель интеллектуального анализа данных.
Выбор алгоритма по типу
Службы Analysis Services включают следующие типы алгоритмов:
Алгоритмы классификации осуществляют прогнозирование одной или нескольких дискретных переменных на основе других атрибутов в наборе данных.
Алгоритмы регрессии прогнозируют одну или несколько непрерывных переменных, таких как прибыль или убыток, на основе других атрибутов в наборе данных.
Алгоритмы сегментации делят данные на группы или кластеры элементов, имеющих схожие свойства.
Алгоритмы взаимосвязей осуществляют поиск корреляции между различными атрибутами в наборе данных. Наиболее частым применением этого типа алгоритма является создание правил взаимосвязи, которые могут использоваться для анализа потребительской корзины.
Алгоритмы анализа последовательностей обобщают частые последовательности или эпизоды в данных, например поток веб-пути.
Однако ничто не заставляет пользователя ограничиваться одним алгоритмом в своих решениях. Опытные аналитики часто используют один алгоритм для выявления наиболее эффективных входных данных (то есть переменных), после чего применяют другой алгоритм для прогнозирования определенного результата на основе этих данных. Интеллектуальный анализ данных SQL Server позволяет на базе одной структуры интеллектуального анализа построить много моделей таким образом, что в рамках одного решения для интеллектуального анализа данных можно было использовать алгоритм кластеризации, модель дерева решений, а также модель упрощенного алгоритма Байеса для получения разных представлений данных. В одном решении также можно использовать несколько алгоритмов для выполнения отдельных задач. Например, с помощью регрессии можно получать финансовые прогнозы, а с помощью алгоритма нейронной сети выполнять анализ факторов, влияющих на объем продаж.
Выбор алгоритма по задаче
Чтобы облегчить выбор алгоритмов для решения определенной задачи, в следующей таблице приведены типы задач, для решения которых обычно используется каждый алгоритм.
Примеры задач | Подходящие алгоритмы Майкрософт |
---|---|
Прогнозирование дискретного атрибута Пометка клиентов из списка потенциальных покупателей как хороших и плохих кандидатов. Вычисление вероятности отказа сервера в течение следующих шести месяцев. Классификация вариантов развития болезней пациентов и исследование связанных факторов. |
Алгоритм дерева принятия решений (Майкрософт) Microsoft Naive Bayes Algorithm Алгоритм кластеризации (Майкрософт) Microsoft Neural Network Algorithm |
Прогнозирование непрерывного атрибута Прогноз продаж на следующий год. Прогноз количества посетителей сайта с учетом прошлых лет и сезонных тенденций. Формирование оценки риска с учетом демографии. |
Алгоритм дерева принятия решений (Майкрософт) Алгоритм временных рядов (Майкрософт) Алгоритм линейной регрессии (Майкрософт) |
Прогнозирование последовательности Анализ маршрута перемещения по веб-сайту компании. Анализ факторов, ведущих к отказу сервера. Отслеживание и анализ последовательностей действий во время посещения поликлиники с целью формулирования рекомендаций по общим действиям. |
Алгоритм кластеризации последовательностей (Майкрософт) |
Поиск групп общих элементов в транзакциях Использование анализа потребительской корзины для определения мест размещения продуктов. Выявление дополнительных продуктов, которые можно предложить купить клиенту. Анализ данных опроса, проведенного среди посетителей события, с целью выявления того, какие действия и стенды были связаны, чтобы планировать будущие действия. |
Алгоритм взаимосвязей (Майкрософт) Алгоритм дерева принятия решений (Майкрософт) |
Поиск групп похожих элементов Создание профилей рисков для пациентов на основе таких атрибутов, как демография и поведение. Анализ пользователей по шаблонам просмотра и покупки. Определение серверов, которые имеют аналогичные характеристики использования. |
Алгоритм кластеризации (Майкрософт) Алгоритм кластеризации последовательностей (Майкрософт) |
См. также
В следующей таблице приведены ссылки на учебные материалы по каждому алгоритму интеллектуального анализа данных, которые предоставляются в службах Analysis Services.
Связанные задачи
Раздел | Описание |
---|---|
Определение алгоритма, используемого моделью интеллектуального анализа данных | запросить параметры, используемые для создания модели интеллектуального анализа данных |
Создание пользовательского подключаемого алгоритма | Подключаемые алгоритмы |
Исследование модели с помощью средства просмотра конкретного алгоритма | Средства просмотра моделей интеллектуального анализа данных |
Просмотр содержимого модели с помощью общего формата таблицы | Просмотр модели в средстве просмотра деревьев содержимого общего вида (Майкрософт) |
Сведения о настройке данных и использовании алгоритмов для создания моделей | Структуры интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных) Модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных) |