microsoftml.mutualinformation_select:基于互信息的特征选择

使用情况

microsoftml.mutualinformation_select(cols: [list, str], label: str,
    num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)

说明

选择所有指定列中的前 k 个特征,这些列按其与标签列的互信息排序。

详细信息

两个随机变量 XY 的互信息是变量之间相互依赖的度量值。 更准确地讲,互信息可以编写为:

I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]

其中,预期值将接管 XY 的联合分发。 此处的 p(x,y)XY 的联合概率密度函数,p(x)p(y) 分别是 XY 的边缘概率密度函数。 一般而言,依赖变量(或标签)与独立变量(或特征)之间的互信息越多,意味着标签对该特征具有更高的相互依赖关系。

互信息特征选择模式是根据互信息选择特征的。 它保留标签中最大互信息的前 num_features_to_keep 个特征。

参数

cols

指定要选择的字符串或变量名称列表。

标签

指定标签的名称。

num_features_to_keep

如果要保留的特征数指定为 n,则转换会选取与依赖变量具有最高互信息的 n 个特征。 默认值为 1000。

num_bins

数值的最大箱数。 建议使用 2 的幂。 默认值为 256。

kargs

发送到计算引擎的其他参数。

返回

一个定义转换的对象。

请参阅

count_select

参考

维基百科:互信息