microsoftml.n_gram_hash: convierte texto en características mediante n-gramas con hash
Uso
microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
all_lengths: bool = True, seed: numbers.Real = 314489979,
ordered: bool = True, invert_hash: numbers.Real = 0)
Descripción
Extrae n-gramas del texto y los convierte en vectores mediante el truco de hash.
Argumentos
hash_bits
Número de bits en los que se aplica el código hash. Debe estar entre 1 y 30, ambos inclusive. (configuración).
ngram_length
Longitud de los n-gramas (configuración).
skip_length
Número máximo de tokens que se omitirán al construir un n-grama (configuración).
all_lengths
Indica si deben incluirse todas las longitudes de n-grama hasta ngramLength o solo ngramLength (configuración).
seed
Inicialización de hash (configuración).
ordered
Determina si la posición de cada columna de origen debe incluirse en el hash (cuando hay varias columnas de origen). (configuración).
invert_hash
Limite el número de claves usadas para generar el nombre de ranura a este número. 0 significa que no se invierte el hash, -1 significa que no hay límite. (configuración).