Алгоритм логистической регрессии (Microsoft)

Статья
12/15/2008

Алгоритм логистической регрессии (Microsoft) представляет собой вариант алгоритма нейронной сети (Microsoft), в котором параметр HIDDEN_NODE_RATIO установлен равным 0. Эта настройка создает модель нейронной сети, не содержащей скрытый уровень, которая эквивалентна логистической регрессии.

Предположим, что прогнозируемый столбец содержит только два состояния, но все же необходимо провести регрессионные анализы, сопоставляя входные столбцы с вероятностью того, что прогнозируемый столбец будет содержать конкретное состояние. На следующей диаграмме показаны результаты, которые будут получены, если состояниям прогнозируемого столбца присвоить значения 1 и 0, рассчитать вероятность того, что столбец будет содержать конкретное состояние, и рассчитать линейную регрессию по отношению к входной переменной.

Данные, плохо смоделированные с помощью линейной регрессии

Ось X содержит значения входного столбца. Ось Y содержит вероятности того, что прогнозируемый столбец будет в том или ином состоянии. Проблемой в этой ситуации является то, что линейная регрессия не ограничивает значения столбца значениями 0 и 1, несмотря на то, что они являются минимальным и максимальным значениями этого столбца. Одним из способов решения этой проблемы является расчет логистической регрессии. Вместо создания прямой линии при логистическом регрессионном анализе создается кривая в форме латинской буквы «S», содержащая максимальное и минимальное ограничения. Например, на следующей диаграмме показаны результаты, которые будут получены при расчете логистической регрессии на основе тех же данных, которые использовались в предыдущем примере.

Данные, смоделированные с помощью логистической регрессии

Заметьте, что кривая никогда не выходит за пределы выше 1 или ниже 0. Логистическую регрессию можно использовать для описания того, какие входные столбцы являются важными для определения состояния прогнозируемого столбца.

Использование алгоритма

Для просмотра модели интеллектуального анализа с линейной регрессией используйте средство просмотра нейронных сетей (Microsoft).

Модель логистической регрессии должна содержать ключевой столбец, один или несколько входных и прогнозируемых столбцов.

Алгоритм логистической регрессии (Microsoft) поддерживает конкретные типы содержимого входных столбцов, типы содержимого прогнозируемых столбцов и флаги моделирования, список которых приведен в следующей таблице.

Типы содержимого входных столбцов	Continuous, Cyclical, Discrete, Discretized, Key, Table и Ordered
Типы содержимого прогнозируемых столбцов	Continuous, Cyclical, Discrete, Discretized и Ordered
Флаги моделирования	MODEL_EXISTENCE_ONLY и NOT NULL

Все алгоритмы Microsoft поддерживают общий набор функций. Однако алгоритм логистической регрессии (Microsoft) поддерживает дополнительные функции, список которых приведен в следующей таблице.

IsDescendant	PredictStdev
PredictAdjustedProbability	PredictSupport
PredictHistogram	PredictVariance
PredictProbability

Список функций, общих для всех алгоритмов Microsoft, см. в разделе Алгоритмы интеллектуального анализа данных. Дополнительные сведения об использовании этих функций см. в разделе Ссылка на функцию расширений интеллектуального анализа данных.

Модели, использующие алгоритм логистической регрессии (Microsoft), не поддерживают детализацию или измерения интеллектуального анализа данных, потому что структура узлов модели интеллектуального анализа данных необязательно напрямую соответствует базовым данным.

Алгоритм логистической регрессии (Microsoft) поддерживает несколько параметров, которые влияют на производительность и точность итоговой модели интеллектуального анализа данных. В следующей таблице содержатся описания всех параметров.

Параметр	Описание
HOLDOUT_PERCENTAGE	Указывает процент вариантов в составе обучающих данных, используемых для вычисления ошибки контрольных данных. Параметр HOLDOUT_PERCENTAGE используется как один из критериев остановки во время обучения модели интеллектуального анализа данных. Значение по умолчанию равно 30.
HOLDOUT_SEED	Указывает число, используемое генератором псевдослучайных чисел в качестве исходного при случайной генерации контрольных данных. Если значение параметра HOLDOUT_SEED установлено равным 0, то алгоритм формирует начальное число на основе имени модели интеллектуального анализа, что гарантирует неизменность содержимого модели во время повторной обработки. Значение по умолчанию равно 0.
MAXIMUM_INPUT_ATTRIBUTES	Определяет количество входных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установите значение 0, чтобы отключить выбор компонентов. Значение по умолчанию равно 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Определяет количество выходных атрибутов, которые алгоритм может обработать перед вызовом выбора компонентов. Установите значение 0, чтобы отключить выбор компонентов. Значение по умолчанию равно 255.
MAXIMUM_STATES	Указывает максимальное количество состояний атрибутов, поддерживаемое алгоритмом. Если количество состояний атрибута превышает максимально возможное количество состояний, то алгоритм использует наиболее частые состояния атрибута и игнорирует остальные состояния. Значение по умолчанию равно 100.
SAMPLE_SIZE	Указывает количество вариантов, которые будут использоваться для обучения модели. Поставщик алгоритма использует либо это число, либо процент от суммарного количества вариантов, не включенных в процент контрольных данных, в соответствии с параметром HOLDOUT_PERCENTAGE, выбирая наименьшее из этих двух значений. Другими словами, если значение параметра HOLDOUT_PERCENTAGE установлено равным 30, то алгоритм будет использовать либо значение этого параметра, либо значение, равное 70 процентам от общего количества вариантов, в зависимости от того, которое из двух указанных значений меньше. Значение по умолчанию равно 10 000.

См. также

Поделиться через

Алгоритм логистической регрессии (Microsoft)

Использование алгоритма

См. также

Основные понятия

Другие ресурсы

Справка и поддержка

Дополнительные ресурсы