Поделиться через


Технический справочник по упрощенному алгоритму Байеса (Майкрософт)

Упрощенный алгоритм Байеса (Майкрософт) — это алгоритм классификации, предоставляемый Корпорацией Майкрософт SQL Server Analysis Services для использования в прогнозном моделировании. Этот алгоритм вычисляет условную вероятность между входными и прогнозируемыми столбцами и предполагает, что столбцы являются независимыми. Из-за этого предположения о независимости алгоритм и называется упрощенным алгоритмом Байеса.

Реализация упрощенного алгоритма Байеса (Майкрософт)

Этот алгоритм менее ресурсоемкий, чем другие алгоритмы Майкрософт, и поэтому полезен для быстрого создания моделей интеллектуального анализа данных для обнаружения связей между входными столбцами и прогнозируемыми столбцами. Алгоритм учитывает все пары значений входного атрибута и выходного атрибута.

Описание математических свойств теоремы Байеса выходит за рамки данной документации; дополнительные сведения см. в статье Microsoft Research под названием Learning Bayesian Networks: The Combination of Knowledge and Statistical Data(Обучаемые байесовские сети: сочетание знаний и статистических данных).

Описание того, как вероятности во всех моделях корректируются с учетом потенциальных отсутствующих значений, см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).

Выбор компонентов

Упрощенный алгоритм Байеса (Майкрософт) выполняет автоматический выбор признаков, чтобы ограничить количество значений, которые учитываются при построении модели. Дополнительные сведения см. в разделе Выбор компонентов (интеллектуальный анализ данных).

Алгоритм Метод анализа Комментарии
упрощенный алгоритм Байеса Энтропия Шеннона

Алгоритм Байеса с априорной оценкой K2

Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию)
В упрощенном алгоритме Байеса допускается применение только дискретных или дискретизированных атрибутов, поэтому в нем не может использоваться оценка интересности.

Алгоритм разработан для минимизации времени обработки; он эффективно отбирает атрибуты с наибольшей важностью. Однако данные, используемые алгоритмом, можно контролировать, изменяя следующие параметры.

  • Для ограничения количества входных значений следует уменьшить параметр MAXIMUM_INPUT_ATTRIBUTES.

  • Для ограничения количества атрибутов, анализируемых моделью, следует уменьшить параметр MAXIMUM_OUTPUT_ATTRIBUTES.

  • Для ограничения количества значений, учитываемых для каждого атрибута, следует уменьшить параметр MINIMUM_STATES.

Настройка упрощенного алгоритма Байеса

Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на поведение, производительность и точность результирующей модели интеллектуального анализа данных. Можно также изменять способ обработки данных в модели, устанавливая на столбцах флаги модели или устанавливая флаги на структуре интеллектуального анализа данных, чтобы задать способы обработки отсутствующих значений столбцов и значений, равных NULL.

Задание параметров алгоритма

Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность результирующей модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.

MAXIMUM_INPUT_ATTRIBUTES
Указывает максимальное количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установка этого значения равным 0 отключает выбор компонентов для входных атрибутов.

Значение по умолчанию — 255.

MAXIMUM_OUTPUT_ATTRIBUTES
Задает максимальное количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установка этого значения равным 0 отключает выбор компонентов для выходных атрибутов.

Значение по умолчанию — 255.

MINIMUM_DEPENDENCY_PROBABILITY
Задает минимальную вероятность зависимости между входным и выходным атрибутами. Это значение используется для ограничения размера содержимого, формируемого алгоритмом. Для этого свойства можно задать значение от 0 до 1. Большие значения уменьшают количество атрибутов в содержимом модели.

Значение по умолчанию равно 0,5.

MAXIMUM_STATES
Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибута превышает максимальное число состояний, алгоритм использует наиболее популярные состояния атрибута и рассматривает остальные состояния как отсутствующие.

Значение по умолчанию — 100.

Флаги моделирования

Алгоритм дерева принятия решений (Майкрософт) поддерживает следующие флаги моделирования. Чтобы задать порядок обработки в ходе анализа значений в каждом столбце, во время создания структуры или модели интеллектуального анализа данных определяются флаги модели. Дополнительные сведения см. в разделе Флаги моделирования (интеллектуальный анализ данных).

Флаг моделирования Описание
MODEL_EXISTENCE_ONLY Означает, что столбец будет обрабатываться так, будто у него два возможных состояния: отсутствует и присутствует. NULL означает отсутствие значения.

Применяется к столбцу модели интеллектуального анализа данных.
NOT NULL Указывает, что столбец не может принимать значение NULL. Если во время обучения модели службы Analysis Services обнаружат значение NULL, возникнет ошибка.

Применяется к столбцу структуры интеллектуального анализа данных.

Требования

Древовидная модель упрощенного алгоритма Байеса должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Непрерывные атрибуты не допускаются; если в данных содержатся непрерывные числовые данные, они будут пропущены или дискретизированы.

Входные и прогнозируемые столбцы

Упрощенный алгоритм Байеса (Майкрософт) поддерживает определенные входные столбцы и прогнозируемые столбцы, перечисленные в следующей таблице. Дополнительные сведения о том, что означают типы контента при использовании в модели интеллектуального анализа данных, см. в разделе Типы контента (интеллектуальный анализ данных).

Столбец Типы содержимого
Входной атрибут Cyclical, Discrete, Discretized, Key, Table и Ordered
Прогнозируемый атрибут Cyclical, Discrete, Discretized, Table и Ordered

Примечание

Типы содержимого Cyclical и Ordered поддерживаются, но алгоритм обрабатывает их как дискретные величины и не производит их особой обработки.

См. также:

Microsoft Naive Bayes Algorithm
Примеры запросов к модели упрощенного алгоритма Байеса
Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)