Алгоритм логистической регрессии (Майкрософт)

Статья
06/13/2017

Логистическая регрессия является известным статистическим методом, применяемым для моделирования двоичных результатов.

Существуют различные варианты внедрения логистической регрессии в статистических исследованиях. Такие варианты различаются по методам обучения, реализованным в них. Алгоритм логистической регрессии Майкрософт реализован с помощью разновидности алгоритма нейронной сети Майкрософт. Этот алгоритм обладает многими качествами нейронных сетей, но более прост в обучении.

Одним из преимуществ логистической регрессии является гибкость алгоритма, способного принимать входные данные любого рода и поддерживать несколько различных аналитических задач.

Использование демографических данных для составления прогнозов о результатах, например оценка риска некоторого заболевания.
Исследование и взвешивание факторов, влияющих на результат. Например, поиск факторов, побуждающих клиентов совершить повторное посещение магазина.
Классификация документов, электронной почты и других объектов, имеющих множество атрибутов.

Пример

Рассмотрим группу людей, имеющих сходные демографические данные и покупающих продукты в компании Adventure Works. Путем моделирования данных, связанных с определенным результатом, например приобретением выбранного продукта, можно увидеть, как демографические данные влияют на вероятность приобретения целевого продукта тем или иным клиентом.

Принцип работы алгоритма

Логистическая регрессия является известным статистическим методом для определения влияния нескольких факторов на логическую пару результатов. В реализации Майкрософт для моделирования связей между входными и выходными атрибутами применяется видоизмененная нейронная сеть. Измеряется вклад каждого входного атрибута, и в законченной модели различные входы снабжаются весовыми коэффициентами. Название «логистическая регрессия» отражает тот факт, что кривая данных сжимается путем применения логистического преобразования, чтобы снизить эффект экстремальных значений. Дополнительные сведения об этой реализации и настройке алгоритма см. в техническом справочнике по алгоритму логистической регрессии (Майкрософт).

Данные, необходимые для моделей логистической регрессии

При подготовке данных, предназначенных для использования в обучении модели логистической регрессии, следует учитывать требования к конкретному алгоритму, в том числе к объему необходимых данных и к методу их использования.

К модели логистической регрессии предъявляются следующие требования.

Единичный ключевой столбец Каждая модель должна содержать один числовой или текстовый столбец, который уникальным образом определяет каждую запись. Применение составных ключей не допускается.

Входные столбцы Каждая модель должна содержать по меньшей мере один входной столбец, содержащий значения, которые используются как коэффициенты в анализе. Ограничения на количество входных столбцов не налагаются, но, в зависимости от количества значений в каждом столбце, введение дополнительных столбцов может привести к увеличению времени на обучение модели.

По крайней мере один прогнозируемый столбец Модель должна содержать по меньшей мере один прогнозируемый столбец любого типа данных, в том числе непрерывного числового типа данных. Значения в прогнозируемом столбце могут рассматриваться как входные данные модели, либо можно указать, что эти значения используются только для прогноза. Вложенные таблицы не допускаются для прогнозируемых столбцов, но могут использоваться в качестве входных данных.

Дополнительные сведения о типах содержимого и типах данных, поддерживаемых моделями логистической регрессии, см. в разделе "Требования" технического справочника по алгоритму взаимосвязей (Майкрософт).

Просмотр модели логистической регрессии

Для просмотра модели можно использовать средство просмотра нейронных сетей (Майкрософт) или средство просмотра деревьев содержимого общего вида (Майкрософт).

Когда модель просматривается с помощью средства просмотра нейронных сетей (Майкрософт), службы Analysis Services показывают факторы, влияющие на тот или иной результат, сортируя их в порядке важности. Можно выбрать атрибут и значения для сравнения. Дополнительные сведения см. в разделе Просмотр модели с помощью средства просмотра нейронных сетей (Майкрософт).

Чтобы получить более подробные сведения, можно просмотреть модель с помощью средства просмотра деревьев содержимого общего вида (Майкрософт). Содержимое модели логистической регрессии включает граничный узел, где показаны все входные данные, используемые в модели, и подсети для прогнозируемых атрибутов. Дополнительные сведения см. в разделе Содержимое модели интеллектуального анализа данных для моделей логистической регрессии (службы Analysis Services — интеллектуальный анализ данных).

Создание прогнозов

После обучения модели можно создавать запросы к содержимому модели, чтобы получить коэффициенты регрессии и другие данные, либо использовать модели для составления прогнозов.

Общие сведения о создании запросов к модели интеллектуального анализа данных см. в разделе Запросы интеллектуального анализа данных.
Примеры запросов к модели логистической регрессии см. в разделе Примеры запросов к модели кластеризации.

Не поддерживается детализация. Это объясняется тем, что структура узлов в модели интеллектуального анализа данных не обязательно однозначно соответствует базовым данным.
Не поддерживается создание измерений интеллектуального анализа данных.
Поддерживается использование моделей интеллектуального анализа OLAP.
Не поддерживается использование языка разметки прогнозирующих моделей (PMML) для создания моделей интеллектуального анализа данных.

См. также:

Содержимое моделей интеллектуального анализа данных для моделей логистической регрессии (службы Analysis Services — интеллектуальный анализ данных)
техническом справочнике по алгоритму логистической регрессии (Майкрософт)
Примеры запросов модели логистической регрессии

Поделиться через