Поделиться через


Microsoft Naive Bayes Algorithm

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Важно!

Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.

Упрощенный алгоритм Байеса (Майкрософт) — это алгоритм классификации, основанный на теореме Байеса, который можно использовать как для исследовательского, так и для прогнозного моделирования. Слово «упрощенный» в его названии указывает на то, что алгоритм использует методы Байеса, но не учитывает возможные зависимости.

Этот алгоритм менее ресурсоемкий, чем другие алгоритмы Майкрософт, и поэтому полезен для быстрого создания моделей интеллектуального анализа данных для обнаружения связей между входными столбцами и прогнозируемыми столбцами. Этот алгоритм можно использовать для первоначального исследования данных, а затем применить результаты для создания дополнительных моделей интеллектуального анализа с другими алгоритмами, требующими большего количества вычислений и являющимися более точными.

Пример

В рамках постоянной стратегии продвижения отдел маркетинга компании Adventure Works Cycle решил разослать листовки потенциальным клиентам. Чтобы снизить себестоимость, было принято решение рассылать листовки только тем клиентам, которые, вероятно, ответят. Компания хранит в базе данных демографические данные и сведения об ответах на предыдущие рассылки. Необходимо использовать эти данные для определения возможности применения таких демографических показателей, как возраст и место проживания, для прогнозирования ответа на рекламную кампанию путем сравнения потенциальных клиентов с клиентами, которые обладают подобными характеристиками и которые осуществляли покупки в компании в прошлом. Необходимо определить различия между теми клиентами, которые купили велосипед, и теми, которые не купили.

С помощью упрощенного алгоритма Байеса (Майкрософт) отдел маркетинга может быстро спрогнозировать результаты для конкретного профиля клиента и, следовательно, определить, какие клиенты с наибольшей вероятностью ответят на листовки. Используя упрощенное средство просмотра Байеса (Майкрософт) в SQL Server Data Tools, они также могут визуально исследовать, какие входные столбцы способствуют получению положительных ответов на листовки.

Принцип работы алгоритма

Упрощенный алгоритм Байеса (Майкрософт) вычисляет вероятность каждого состояния каждого входного столбца с учетом каждого возможного состояния прогнозируемого столбца.

Чтобы понять, как это работает, используйте упрощенное средство просмотра Байеса (Майкрософт) в SQL Server Data Tools (как показано на следующем рисунке), чтобы наглядно изучить, как алгоритм распределяет состояния.

Упрощенное распределение байесов государств

Здесь средство просмотра Упрощенного байеса (Майкрософт) перечисляет каждый входной столбец в наборе данных и показывает, как распределяются состояния каждого столбца с учетом каждого состояния прогнозируемого столбца.

С помощью этого представления модели можно определить входные столбцы, которые важны для разграничения состояний прогнозируемого столбца.

Например, в строке для поля Commute Distance, как показано здесь, распределение входных значений наглядно отличается для покупателей и тех, кто не покупает. Показанные данные указывают на то, что входное значение Commute Distance = 0-1,6 км потенциально имеет влияние на результат прогноза.

Средство просмотра также отображает значения для отдельных классов продуктов таким образом, что можно увидеть, что для клиентов, которые преодолевают расстояние от 1 до 3,3 километра от дома до рабочего места, вероятность приобретения велосипеда составляет 0,387, а вероятность его неприобретения — 0,287. В данном примере для прогнозирования вероятности покупки велосипеда алгоритм использует числовые данные, полученные из характеристик клиентов, например расстояния до работы.

Дополнительные сведения об использовании упрощенного средства просмотра Байеса (Майкрософт) см. в статье Обзор модели с помощью Средства просмотра Упрощенного байеса (Майкрософт).

Данные, необходимые для моделей упрощенного алгоритма Байеса

При подготовке данных, предназначенных для использования в обучении модели упрощенного алгоритма Байеса, следует учитывать требования алгоритма, в том числе необходимый объем данных и способ их использования.

Далее приводятся требования для модели упрощенного алгоритма Байеса.

  • Единичный ключевой столбец Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Применение составных ключей не допускается.

  • Входные столбцы . В модели упрощенного алгоритма Байеса все столбцы должны быть дискретными или иметь сегментированные значения. Сведения о дискретизации столбцов (bin) см. в разделе Методы дискретизации (интеллектуальный анализ данных).

  • Переменные должны быть независимыми. Для модели упрощенного алгоритма Байеса также важно обеспечить независимость входных атрибутов друг от друга. Это особенно важно, когда модель используется для прогнозирования. Если использовать два столбца данных, которые тесно связаны между собой, то это приведет к умножению значений этих столбцов, что может затруднить интерпретацию других факторов, влияющих на результат.

    Напротив, возможность алгоритма определять связи между переменными полезна при исследовании модели или набора данных для обнаружения связей между входными данными.

  • По крайней мере один прогнозируемый столбец Прогнозируемый атрибут должен содержать дискретные или дискретизированные значения.

    Значения в прогнозируемом столбце могут рассматриваться как входные. Такая практика может оказаться полезной при исследовании нового набора данных для обнаружения связей между столбцами.

Просмотр модели

Для просмотра модели используется средство просмотра упрощенного алгоритма Байеса (Майкрософт). Средство просмотра показывает, как входные атрибуты связаны с прогнозируемым атрибутом. Также приводится подробный профиль каждого кластера, список атрибутов, отличающих кластер от остальных, и характеристики всего набора данных для обучения. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра упрощенного алгоритма Байеса (Майкрософт).

Если вы хотите узнать больше, вы можете просмотреть модель в средстве просмотра деревьев универсального содержимого (Интеллектуальный анализ данных) (Майкрософт). Дополнительные сведения о типе сведений, хранящихся в модели, см. в разделе Содержимое модели интеллектуального анализа данных для упрощенных моделей Байеса (службы Analysis Services — интеллектуальный анализ данных).

Составление прогнозов

После обучения модели результаты хранятся в виде набора закономерностей, которые можно исследовать или делать на их основе прогнозы.

Можно создавать запросы, возвращающие прогнозы о связи новых данных с прогнозируемым атрибутом, или получать статистику, описывающую взаимосвязи, обнаруженные моделью.

Дополнительные сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных. Примеры использования запросов с моделью упрощенного алгоритма Байеса см. в разделе Примеры запросов к модели упрощенного алгоритма Байеса.

Комментарии

  • Поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.

  • Поддерживается детализация.

  • Не поддерживается создание измерений интеллектуального анализа данных.

  • Поддерживается использование моделей интеллектуального анализа OLAP.

См. также:

Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Выбор компонентов (интеллектуальный анализ данных)
Примеры запросов к модели упрощенного алгоритма Байеса
Содержимое моделей интеллектуального анализа данных для моделей упрощенного алгоритма Байеса (службы Analysis Services — интеллектуальный анализ данных)
Технический справочник по упрощенному алгоритму Байеса (Майкрософт)