microsoftml.mutualinformation_select: 상호 정보에 따라 기능 선택
사용
microsoftml.mutualinformation_select(cols: [list, str], label: str,
num_features_to_keep: int = 1000, num_bins: int = 256, **kargs)
Description
레이블 열을 사용하여 해당 상호 정보로 정렬된 지정된 모든 열에서 상위 k 기능을 선택합니다.
세부 정보
임의의 두 변수 X
및 Y
의 상호 정보는 변수 간의 상호 종속성 측정값입니다. 공식적으로 상호 정보는 다음과 같이 작성될 수 있습니다.
I(X;Y) = E[log(p(x,y)) - log(p(x)) - log(p(y))]
여기서 X
및 Y
의 공동 배포에 대한 기대가 나옵니다.
p(x,y)
는 X
와 Y
의 공동 확률 밀도 함수이고, p(x)
와 p(y)
는 각각 X
와 Y
의 한계 확률 밀도 함수입니다. 일반적으로 종속 변수(또는 레이블)와 독립 변수(또는 기능) 간의 상호 정보가 클수록 레이블이 해당 기능에 대해 더 높은 상호 종속성을 갖게 됩니다.
상호 정보 기능 선택 모드는 상호 정보에 따라 기능을 선택합니다. 레이블과의 상호 정보가 가장 큰 상위 num_features_to_keep
개 기능을 유지합니다.
인수
cols
선택할 변수 이름의 목록 또는 문자열을 지정합니다.
label
레이블의 이름을 지정합니다.
num_features_to_keep
유지할 기능의 수가 n
으로 지정된 경우 변환은 종속 변수와의 상호 정보가 가장 큰 n
개 기능을 선택합니다. 기본값은 1000입니다.
num_bins
숫자 값의 최대 bin 개수. 2의 거듭제곱을 권장합니다. 기본값은 256입니다.
kargs
컴퓨팅 엔진으로 전송된 추가 인수입니다.
반환
변환을 정의하는 개체입니다.