microsoftml.mutualinformation_select: отбор признаков на основе взаимной информации
Использование
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Описание
Отбирает k первых признаков во всех указанных столбцах, упорядоченных по взаимной информации с помощью столбца метки.
Сведения
Взаимная информация двух случайных переменных X
и Y
— это мера взаимной зависимости между переменными. Формально взаимную информацию можно записать так:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
где ожидание сменяется многомерным распределением X
и Y
. Здесь p(x,y)
является функцией плотности суммарной вероятности X
и Y
, а p(x)
и p(y)
— функциями плотности безусловной вероятности X
и Y
соответственно. Как правило, большой объем взаимной информации между зависимой переменной (или меткой) и независимой переменной (или признаком) означает, что метка имеет усиленную взаимную зависимость над таким признаком.
Режим выборки признаков со взаимной информацией отбирает признаки на основе взаимной информации. Он сохраняет первые num_features_to_keep
признаков с самым большим объемом взаимной информации с меткой.
Аргументы
cols
Задает строку символов или список имен переменных для выборки.
метка
Указывает имя метки.
num_features_to_keep
Если число сохраняемых признаков указано как n
, преобразование отбирает n
признаков с самым большим объемом взаимной информации с зависимой переменной. Значение по умолчанию ― 1000.
num_bins
Максимальное количество интервалов для числовых значений. Рекомендуется использовать степени двойки. Значение по умолчанию — 256.
kargs
Дополнительные аргументы, отправляемые в подсистему вычислений.
Возвращаемое значение
Объект, определяющий преобразование.