microsoftml.mutualinformation_select:基于互信息的特征选择
使用情况
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
说明
选择所有指定列中的前 k 个特征,这些列按其与标签列的互信息排序。
详细信息
两个随机变量 X
和 Y
的互信息是变量之间相互依赖的度量值。 更准确地讲,互信息可以编写为:
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
其中,预期值将接管 X
和 Y
的联合分发。 此处的 p(x,y)
是 X
和 Y
的联合概率密度函数,p(x)
和 p(y)
分别是 X
和 Y
的边缘概率密度函数。 一般而言,依赖变量(或标签)与独立变量(或特征)之间的互信息越多,意味着标签对该特征具有更高的相互依赖关系。
互信息特征选择模式是根据互信息选择特征的。 它保留标签中最大互信息的前 num_features_to_keep
个特征。
参数
cols
指定要选择的字符串或变量名称列表。
标签
指定标签的名称。
num_features_to_keep
如果要保留的特征数指定为 n
,则转换会选取与依赖变量具有最高互信息的 n
个特征。 默认值为 1000。
num_bins
数值的最大箱数。 建议使用 2 的幂。 默认值为 256。
kargs
发送到计算引擎的其他参数。
返回
一个定义转换的对象。