Поделиться через


microsoftml.mutualinformation_select: отбор признаков на основе взаимной информации

Использование

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

Описание

Отбирает k первых признаков во всех указанных столбцах, упорядоченных по взаимной информации с помощью столбца метки.

Сведения

Взаимная информация двух случайных переменных X и Y — это мера взаимной зависимости между переменными. Формально взаимную информацию можно записать так:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

где ожидание сменяется многомерным распределением X и Y. Здесь p(x,y) является функцией плотности суммарной вероятности X и Y, а p(x) и p(y) — функциями плотности безусловной вероятности X и Y соответственно. Как правило, большой объем взаимной информации между зависимой переменной (или меткой) и независимой переменной (или признаком) означает, что метка имеет усиленную взаимную зависимость над таким признаком.

Режим выборки признаков со взаимной информацией отбирает признаки на основе взаимной информации. Он сохраняет первые num_features_to_keep признаков с самым большим объемом взаимной информации с меткой.

Аргументы

cols

Задает строку символов или список имен переменных для выборки.

метка

Указывает имя метки.

num_features_to_keep

Если число сохраняемых признаков указано как n, преобразование отбирает n признаков с самым большим объемом взаимной информации с зависимой переменной. Значение по умолчанию ― 1000.

num_bins

Максимальное количество интервалов для числовых значений. Рекомендуется использовать степени двойки. Значение по умолчанию — 256.

kargs

Дополнительные аргументы, отправляемые в подсистему вычислений.

Возвращаемое значение

Объект, определяющий преобразование.

См. также

count_select

Ссылки

Википедия: взаимная информация (статья на английском языке)