다음을 통해 공유


microsoftml.n_gram_hash: 해시된 N-Gram을 사용하여 텍스트를 기능으로 변환

사용

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

Description

텍스트에서 N-Gram을 추출하고 해시 트릭을 사용하여 벡터로 변환합니다.

인수

hash_bits

해시할 비트 수입니다. 1에서 30(포함) 사이여야 합니다. (설정)

ngram_length

N-Gram 길이(설정)입니다.

skip_length

N-Gram을 생성할 때 건너뛸 최대 토큰 수(설정)입니다.

all_lengths

ngramLength까지의 모든 N-Gram 길이를 포함할지 또는 ngramLength(설정)만 포함할지 여부입니다.

seed

해시 시드(설정)입니다.

ordered

각 원본 열의 위치를 해시에 포함할지 여부입니다(원본 열이 여러 개 있는 경우). (설정)

invert_hash

슬롯 이름을 생성하는 데 사용되는 키 수를 이 수로 제한합니다. 0은 해시 반전이 없음을 의미하고, -1은 제한이 없음을 의미합니다. (설정)

추가 정보

n_gram, featurize_text