microsoftml.n_gram_hash:使用经过哈希处理的 n-gram 将文本转换为特征
使用情况
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
说明
使用哈希技巧从文本中提取 NGram 并将其转换为向量。
参数
hash_bits
要哈希到的位数。 必须介于 1 和 30 之间(含限值)。 (设置)。
ngram_length
Ngram 长度(设置)。
skip_length
构造 ngram 时要跳过的最大标记数(设置)。
all_lengths
是包含达到 ngramLength 的所有 ngram 长度,还是仅包含 ngramLength(设置)。
seed
哈希种子(设置)。
ordered
是否应将每个源列的位置包括在哈希中(当存在多个源列时)。 (设置)。
invert_hash
将用于生成槽名称的键数限制为此数量。 0 表示无反转哈希;-1 表示无限制。 (设置)。