Sdílet prostřednictvím


TextCatalog.ProduceHashedWordBags Metoda

Definice

Přetížení

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorVytvořte , který mapuje více sloupců zadaných inputColumnNames na vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorVytvořte , který mapuje sloupec zadaný na inputColumnName vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorVytvořte , který mapuje více sloupců zadaných inputColumnNames na vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Katalog transformace.

outputColumnName
String

Název sloupce, který je výsledkem transformace inputColumnNames. Datový typ tohoto sloupce bude vektorem známé velikosti Single.

inputColumnNames
String[]

Názvy více sloupců, ze kterých se mají data převzít. Tento estimátor pracuje s vektorem textu.

numberOfBits
Int32

Početbitch Musí být mezi 1 a 30 včetně.

ngramLength
Int32

Délka Ngramu.

skipLength
Int32

Maximální počet tokenů, které se mají přeskočit při vytváření n-gramu

useAllLengths
Boolean

Zda zahrnout všechny n-gram délky až do ngramLength nebo pouze ngramLength.

seed
UInt32

Počáteční hodnota hash.

useOrderedHashing
Boolean

Zda má být pozice každého zdrojového sloupce zahrnuta do hodnoty hash (pokud existuje více zdrojových sloupců).

maximumNumberOfInverts
Int32

Během hashování vytváříme mapování mezi původními hodnotami a vytvořenými hodnotami hash. Textová reprezentace původních hodnot jsou uložená v názvech slotů poznámek pro nový sloupec. Hashování, například takové, může mapovat mnoho počátečních hodnot na jednu. maximumNumberOfInverts určuje horní mez počtu jedinečných vstupních hodnot mapování na hodnotu hash, která by se měla zachovat. 0 nezachovává žádné vstupní hodnoty. -1 uchovává všechny vstupní hodnoty mapování na každou hodnotu hash.

Návraty

Poznámky

WordHashBagEstimator liší se od NgramHashingEstimator toho, že bývalý tokenizuje text interně a druhý přebírá tokenizovaný text jako vstup.

Platí pro

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

WordHashBagEstimatorVytvořte , který mapuje sloupec zadaný na inputColumnName vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Katalog transformace.

outputColumnName
String

Název sloupce, který je výsledkem transformace inputColumnName. Datový typ tohoto sloupce bude vektorem známé velikosti Single.

inputColumnName
String

Název sloupce, ze které se mají data převzít. Tento estimátor pracuje s vektorem textu.

numberOfBits
Int32

Početbitch Musí být mezi 1 a 30 včetně.

ngramLength
Int32

Délka Ngramu.

skipLength
Int32

Maximální počet tokenů, které se mají přeskočit při vytváření n-gramu

useAllLengths
Boolean

Zda zahrnout všechny n-gram délky až do ngramLength nebo pouze ngramLength.

seed
UInt32

Počáteční hodnota hash.

useOrderedHashing
Boolean

Zda má být pozice každého zdrojového sloupce zahrnuta do hodnoty hash (pokud existuje více zdrojových sloupců).

maximumNumberOfInverts
Int32

Během hashování vytváříme mapování mezi původními hodnotami a vytvořenými hodnotami hash. Textová reprezentace původních hodnot jsou uložená v názvech slotů poznámek pro nový sloupec. Hashování, například takové, může mapovat mnoho počátečních hodnot na jednu. maximumNumberOfInverts určuje horní mez počtu jedinečných vstupních hodnot mapování na hodnotu hash, která by se měla zachovat. 0 nezachovává žádné vstupní hodnoty. -1 uchovává všechny vstupní hodnoty mapování na každou hodnotu hash.

Návraty

Poznámky

WordHashBagEstimator liší se od NgramHashingEstimator toho, že bývalý tokenizuje text interně a druhý přebírá tokenizovaný text jako vstup.

Platí pro