Поделиться через


Упрощенный алгоритм Байеса (Microsoft)

Упрощенный алгоритм Байеса Microsoft является алгоритмом классификации, предоставляемым службами Microsoft SQL Server 2005 Analysis Services (SSAS) для использования в прогнозирующем моделировании. Этот алгоритм вычисляет условную вероятность между входными и прогнозируемыми столбцами и предполагает, что столбцы являются независимыми. Это предположение независимости и лежит в основе названия «упрощенный Байес», поскольку предположение является наивным с той точки зрения, что алгоритм не учитывает возможные зависимости.

Данный алгоритм требует меньшего количества вычислений, чем другие алгоритмы Microsoft, и является полезным для быстрого формирования моделей интеллектуального анализа для обнаружения отношений между входными и прогнозируемыми столбцами. Этот алгоритм можно использовать для первоначального исследования данных, а затем применять результаты для создания дополнительных моделей интеллектуального анализа с другими алгоритмами, требующими большего количества вычислений и являющимися более точными.

Пример

Продолжая стратегию продвижения, отдел маркетинга компании Adventure Works Cycle решил разослать листовки потенциальным клиентам. Чтобы снизить себестоимость, было принято решение рассылать листовки только тем клиентам, которые, вероятно, ответят. Компания хранит в базе данных демографические данные и сведения об ответах на предыдущие рассылки. Необходимо использовать эти данные для определения возможности применения таких демографических показателей, как возраст и место проживания, для прогнозирования ответа на рекламную кампанию путем сравнения потенциальных клиентов с клиентами, которые обладают подобными характеристиками и которые осуществляли покупки в компании в прошлом. Необходимо определить различия между теми клиентами, которые купили велосипед, и теми, которые не купили.

Используя упрощенный алгоритм Байеса Microsoft, отдел маркетинга может быстро спрогнозировать результат для конкретного профиля клиентов и определить, какие клиенты наиболее вероятно ответят на листовки. Используя средство просмотра упрощенного алгоритма Байеса Microsoft в среде Business Intelligence Development Studio, они могут визуально исследовать, какие конкретные входные столбцы способствуют положительному ответу на листовки.

Принцип работы алгоритма

Упрощенный алгоритм Байеса Microsoft рассчитывает вероятность состояния каждого входного столбца при каждом возможном состоянии прогнозируемого столбца. Можно использовать средство просмотра упрощенного алгоритма Байеса Microsoft в среде Business Intelligence Development Studio, чтобы просмотреть визуальное представление распределения алгоритмом состояния, как показано на следующем графике.

Простое байесово распределение состояний

Средство просмотра упрощенного алгоритма Байеса Microsoft содержит список всех входных столбцов в наборе данных и показывает, как распределены состояния каждого из столбцов при каждом состоянии прогнозируемого столбца. Это представление можно использовать для идентификации входных столбцов, важных для дифференциации различных состояний прогнозируемого столбца. Например, в столбце «Расстояние до работы», показанном здесь, вероятность, что клиент купит велосипед, равна 0,387, если расстояние до его работы составляет от одной до двух миль. В то время как вероятность того, что он не купит велосипед, составляет 0,287, если он добирается до работы. В данном примере алгоритм использует числовые данные, полученные из характеристик клиентов, например расстояния до работы, для прогнозирования того, купит ли клиент велосипед. Дополнительные сведения об использовании средства просмотра упрощенного алгоритма Байеса Microsoft см. в разделе Просмотр модели интеллектуального анализа данных при помощи средства просмотра упрощенных алгоритмов Байеса (Microsoft).

Использование алгоритма

Упрощенная модель Байеса должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Все столбцы должны быть дискретными. Дополнительные сведения о дискретизации столбцов см. в разделе Методы дискретизации.

Упрощенный алгоритм Байеса Microsoft поддерживает конкретные типы содержимого входных столбцов, типы содержимого прогнозируемого столбца и флаги моделирования, список которых приведен в следующей таблице.

Типы содержимого входных столбцов

Cyclical, Discrete, Discretized, Key, Table и Ordered

Типы содержимого прогнозируемых столбцов

Cyclical, Discrete, Discretized, Table и Ordered

Флаги моделирования

MODEL_EXISTENCE_ONLY и NOT NULL

Все алгоритмы Microsoft поддерживают общий набор функций. Однако упрощенный алгоритм Байеса Microsoft поддерживает дополнительные функции, список которых приведен в следующей таблице.

IsDescendant

PredictNodeId

PredictAdjustedProbability

PredictProbability

PredictAssociation

PredictSupport

PredictHistogram

Список функций, общих для всех алгоритмов Microsoft, см. в разделе Алгоритмы интеллектуального анализа данных. Дополнительные сведения об использовании этих функций см. в разделе Ссылка на функцию расширений интеллектуального анализа данных.

Упрощенный алгоритм Байеса Microsoft не поддерживает использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа.

Упрощенный алгоритм Байеса Microsoft поддерживает несколько параметров, влияющих на производительность и точность получающейся в результате модели интеллектуального анализа. В следующей таблице содержатся описания всех параметров.

Параметр Описание

MAXIMUM_INPUT_ATTRIBUTES

Указывает максимальное количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора функции. Установка этого значения равным 0 отключает выбор функции для входных атрибутов.

Значение по умолчанию равно 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Задает максимальное количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора функции. Установка этого значения равным 0 отключает выбор функции для выходных атрибутов.

Значение по умолчанию равно 255.

MINIMUM_DEPENDENCY_PROBABILITY

Задает минимальную вероятность зависимости между входными и выходными атрибутами. Это значение используется для ограничения размера содержимого, формируемого алгоритмом. Это свойство может быть установлено равным от 0 до 1. Большие значение уменьшают количество атрибутов в содержимом модели.

Значение по умолчанию равно 0,5.

MAXIMUM_STATES

Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибутов превышает максимально возможное количество состояний, то алгоритм использует наиболее частые состояния атрибутов и считает остальные состояния отсутствующими.

Значение по умолчанию равно 100.

См. также

Основные понятия

Алгоритмы интеллектуального анализа данных
Методы дискретизации
Выбор компонентов в интеллектуальном анализе данных
Использование средств интеллектуального анализа данных
Просмотр модели интеллектуального анализа данных при помощи средства просмотра упрощенных алгоритмов Байеса (Microsoft)

Другие ресурсы

CREATE MINING MODEL (расширения интеллектуального анализа данных)

Справка и поддержка

Получение помощи по SQL Server 2005