TextCatalog.ProduceHashedWordBags Metoda
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Přetížení
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32) |
WordHashBagEstimatorVytvořte , který mapuje více sloupců zadaných |
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32) |
WordHashBagEstimatorVytvořte , který mapuje sloupec zadaný na |
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)
WordHashBagEstimatorVytvořte , který mapuje více sloupců zadaných inputColumnNames
na vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator
Parametry
- catalog
- TransformsCatalog.TextTransforms
Katalog transformace.
- outputColumnName
- String
Název sloupce, který je výsledkem transformace inputColumnNames
.
Datový typ tohoto sloupce bude vektorem známé velikosti Single.
- inputColumnNames
- String[]
Názvy více sloupců, ze kterých se mají data převzít. Tento estimátor pracuje s vektorem textu.
- numberOfBits
- Int32
Početbitch Musí být mezi 1 a 30 včetně.
- ngramLength
- Int32
Délka Ngramu.
- skipLength
- Int32
Maximální počet tokenů, které se mají přeskočit při vytváření n-gramu
- useAllLengths
- Boolean
Zda zahrnout všechny n-gram délky až do ngramLength
nebo pouze ngramLength
.
- seed
- UInt32
Počáteční hodnota hash.
- useOrderedHashing
- Boolean
Zda má být pozice každého zdrojového sloupce zahrnuta do hodnoty hash (pokud existuje více zdrojových sloupců).
- maximumNumberOfInverts
- Int32
Během hashování vytváříme mapování mezi původními hodnotami a vytvořenými hodnotami hash.
Textová reprezentace původních hodnot jsou uložená v názvech slotů poznámek pro nový sloupec. Hashování, například takové, může mapovat mnoho počátečních hodnot na jednu.
maximumNumberOfInverts
určuje horní mez počtu jedinečných vstupních hodnot mapování na hodnotu hash, která by se měla zachovat.
0 nezachovává žádné vstupní hodnoty. -1 uchovává všechny vstupní hodnoty mapování na každou hodnotu hash.
Návraty
Poznámky
WordHashBagEstimator liší se od NgramHashingEstimator toho, že bývalý tokenizuje text interně a druhý přebírá tokenizovaný text jako vstup.
Platí pro
ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)
WordHashBagEstimatorVytvořte , který mapuje sloupec zadaný na inputColumnName
vektor počtu hodnot hashovaných n-gramů v novém sloupci s názvem outputColumnName
.
public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator
Parametry
- catalog
- TransformsCatalog.TextTransforms
Katalog transformace.
- outputColumnName
- String
Název sloupce, který je výsledkem transformace inputColumnName
.
Datový typ tohoto sloupce bude vektorem známé velikosti Single.
- inputColumnName
- String
Název sloupce, ze které se mají data převzít. Tento estimátor pracuje s vektorem textu.
- numberOfBits
- Int32
Početbitch Musí být mezi 1 a 30 včetně.
- ngramLength
- Int32
Délka Ngramu.
- skipLength
- Int32
Maximální počet tokenů, které se mají přeskočit při vytváření n-gramu
- useAllLengths
- Boolean
Zda zahrnout všechny n-gram délky až do ngramLength
nebo pouze ngramLength
.
- seed
- UInt32
Počáteční hodnota hash.
- useOrderedHashing
- Boolean
Zda má být pozice každého zdrojového sloupce zahrnuta do hodnoty hash (pokud existuje více zdrojových sloupců).
- maximumNumberOfInverts
- Int32
Během hashování vytváříme mapování mezi původními hodnotami a vytvořenými hodnotami hash.
Textová reprezentace původních hodnot jsou uložená v názvech slotů poznámek pro nový sloupec. Hashování, například takové, může mapovat mnoho počátečních hodnot na jednu.
maximumNumberOfInverts
určuje horní mez počtu jedinečných vstupních hodnot mapování na hodnotu hash, která by se měla zachovat.
0 nezachovává žádné vstupní hodnoty. -1 uchovává všechny vstupní hodnoty mapování na každou hodnotu hash.
Návraty
Poznámky
WordHashBagEstimator liší se od NgramHashingEstimator toho, že bývalý tokenizuje text interně a druhý přebírá tokenizovaný text jako vstup.