Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Упрощенный алгоритм Байеса (Майкрософт) — это алгоритм классификации, предоставляемый Корпорацией Майкрософт SQL Server Analysis Services для использования в прогнозном моделировании. Этот алгоритм вычисляет условную вероятность между входными и прогнозируемыми столбцами и предполагает, что столбцы являются независимыми. Из-за этого предположения о независимости алгоритм и называется упрощенным алгоритмом Байеса.
Реализация упрощенного алгоритма Байеса (Майкрософт)
Этот алгоритм менее ресурсоемкий, чем другие алгоритмы Майкрософт, и поэтому полезен для быстрого создания моделей интеллектуального анализа данных для обнаружения связей между входными столбцами и прогнозируемыми столбцами. Алгоритм учитывает все пары значений входного атрибута и выходного атрибута.
Описание математических свойств теоремы Байеса выходит за рамки данной документации; дополнительные сведения см. в статье Microsoft Research под названием Learning Bayesian Networks: The Combination of Knowledge and Statistical Data(Обучаемые байесовские сети: сочетание знаний и статистических данных).
Описание того, как вероятности во всех моделях корректируются с учетом потенциальных отсутствующих значений, см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).
Выбор компонентов
Упрощенный алгоритм Байеса (Майкрософт) выполняет автоматический выбор признаков, чтобы ограничить количество значений, которые учитываются при построении модели. Дополнительные сведения см. в разделе Выбор компонентов (интеллектуальный анализ данных).
Алгоритм | Метод анализа | Комментарии |
---|---|---|
упрощенный алгоритм Байеса | Энтропия Шеннона Алгоритм Байеса с априорной оценкой K2 Эквивалент Дирихле метода Байеса с однородной априорной оценкой (выбор по умолчанию) |
В упрощенном алгоритме Байеса допускается применение только дискретных или дискретизированных атрибутов, поэтому в нем не может использоваться оценка интересности. |
Алгоритм разработан для минимизации времени обработки; он эффективно отбирает атрибуты с наибольшей важностью. Однако данные, используемые алгоритмом, можно контролировать, изменяя следующие параметры.
Для ограничения количества входных значений следует уменьшить параметр MAXIMUM_INPUT_ATTRIBUTES.
Для ограничения количества атрибутов, анализируемых моделью, следует уменьшить параметр MAXIMUM_OUTPUT_ATTRIBUTES.
Для ограничения количества значений, учитываемых для каждого атрибута, следует уменьшить параметр MINIMUM_STATES.
Настройка упрощенного алгоритма Байеса
Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на поведение, производительность и точность результирующей модели интеллектуального анализа данных. Можно также изменять способ обработки данных в модели, устанавливая на столбцах флаги модели или устанавливая флаги на структуре интеллектуального анализа данных, чтобы задать способы обработки отсутствующих значений столбцов и значений, равных NULL.
Задание параметров алгоритма
Упрощенный алгоритм Байеса (Майкрософт) поддерживает несколько параметров, влияющих на производительность и точность результирующей модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.
MAXIMUM_INPUT_ATTRIBUTES
Указывает максимальное количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установка этого значения равным 0 отключает выбор компонентов для входных атрибутов.
Значение по умолчанию — 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Задает максимальное количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установка этого значения равным 0 отключает выбор компонентов для выходных атрибутов.
Значение по умолчанию — 255.
MINIMUM_DEPENDENCY_PROBABILITY
Задает минимальную вероятность зависимости между входным и выходным атрибутами. Это значение используется для ограничения размера содержимого, формируемого алгоритмом. Для этого свойства можно задать значение от 0 до 1. Большие значения уменьшают количество атрибутов в содержимом модели.
Значение по умолчанию равно 0,5.
MAXIMUM_STATES
Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибута превышает максимальное число состояний, алгоритм использует наиболее популярные состояния атрибута и рассматривает остальные состояния как отсутствующие.
Значение по умолчанию — 100.
Флаги моделирования
Алгоритм дерева принятия решений (Майкрософт) поддерживает следующие флаги моделирования. Чтобы задать порядок обработки в ходе анализа значений в каждом столбце, во время создания структуры или модели интеллектуального анализа данных определяются флаги модели. Дополнительные сведения см. в разделе Флаги моделирования (интеллектуальный анализ данных).
Флаг моделирования | Описание |
---|---|
MODEL_EXISTENCE_ONLY | Означает, что столбец будет обрабатываться так, будто у него два возможных состояния: отсутствует и присутствует. NULL означает отсутствие значения. Применяется к столбцу модели интеллектуального анализа данных. |
NOT NULL | Указывает, что столбец не может принимать значение NULL. Если во время обучения модели службы Analysis Services обнаружат значение NULL, возникнет ошибка. Применяется к столбцу структуры интеллектуального анализа данных. |
Требования
Древовидная модель упрощенного алгоритма Байеса должна содержать ключевой столбец, входные столбцы и один прогнозируемый столбец. Непрерывные атрибуты не допускаются; если в данных содержатся непрерывные числовые данные, они будут пропущены или дискретизированы.
Входные и прогнозируемые столбцы
Упрощенный алгоритм Байеса (Майкрософт) поддерживает определенные входные столбцы и прогнозируемые столбцы, перечисленные в следующей таблице. Дополнительные сведения о том, что означают типы контента при использовании в модели интеллектуального анализа данных, см. в разделе Типы контента (интеллектуальный анализ данных).
Столбец | Типы содержимого |
---|---|
Входной атрибут | Cyclical, Discrete, Discretized, Key, Table и Ordered |
Прогнозируемый атрибут | Cyclical, Discrete, Discretized, Table и Ordered |
Примечание
Типы содержимого Cyclical и Ordered поддерживаются, но алгоритм обрабатывает их как дискретные величины и не производит их особой обработки.
См. также:
Microsoft Naive Bayes Algorithm
Примеры запросов к модели упрощенного алгоритма Байеса
Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)