Freigeben über


microsoftml.n_gram_hash: konvertiert Text mithilfe von N-Grammen mit Hashes in Features

Verwendung

microsoftml.n_gram_hash(hash_bits: numbers.Real = 16,
    ngram_length: numbers.Real = 1, skip_length: numbers.Real = 0,
    all_lengths: bool = True, seed: numbers.Real = 314489979,
    ordered: bool = True, invert_hash: numbers.Real = 0)

BESCHREIBUNG

Extrahiert N-Gramme aus Text und konvertiert sie mithilfe eines Hashingverfahrens in einen Vektor.

Argumente

hash_bits

Anzahl der Bits, in die einen Hashwert aufgenommen werden soll. Muss im Bereich 1 bis 30 liegen. (Einstellungen).

ngram_length

Länge des N-Gramms (Einstellungen).

skip_length

Maximale Anzahl von Token, die beim Erstellen eines N-Gramms übersprungen werden sollen (Einstellungen).

all_lengths

Gibt an, ob alle N-Grammlängen bis NgramLength oder nur NgramLength eingeschlossen werden sollen (Einstellungen).

seed

Ausgangswert für Hashing (Einstellungen).

geordnete

Gibt an, ob die Position jeder Quellspalte im Hash enthalten sein soll (wenn mehrere Quellspalten vorhanden sind). (Einstellungen).

invert_hash

Begrenzen Sie die Anzahl der Schlüssel, die zum Generieren des Slotnamens verwendet werden, auf diese Anzahl. 0 bedeutet kein Invertieren des Hashings, -1 bedeutet ohne Limit. (Einstellungen).

Siehe auch

n_gram, featurize_text