Udostępnij za pośrednictwem


TextCatalog.ProduceHashedWordBags Metoda

Definicja

Przeciążenia

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Utwórz obiekt , który mapuje wiele kolumn określonych w elemecie WordHashBagEstimatorinputColumnNames na wektor liczby skrótów n-gramów w nowej kolumnie o nazwie outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Utwórz obiekt , który mapuje kolumnę WordHashBagEstimatorokreśloną na inputColumnName wektor liczby skrótów n-gramów w nowej kolumnie o nazwie outputColumnName.

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String[], Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Utwórz obiekt , który mapuje wiele kolumn określonych w elemecie WordHashBagEstimatorinputColumnNames na wektor liczby skrótów n-gramów w nowej kolumnie o nazwie outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string[] inputColumnNames, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string[] * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, inputColumnNames As String(), Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Wykaz przekształcenia.

outputColumnName
String

Nazwa kolumny wynikającej z przekształcenia inputColumnNameselementu . Typ danych tej kolumny będzie wektorem o znanym rozmiarze .Single

inputColumnNames
String[]

Nazwy wielu kolumn do przejęcia danych. Ten narzędzie do szacowania działa na wektor tekstu.

numberOfBits
Int32

Liczba bitów do skrótu. Musi należeć do zakresu od 1 do 30 włącznie.

ngramLength
Int32

Długość Ngramu.

skipLength
Int32

Maksymalna liczba tokenów do pominięcia podczas konstruowania n-grama.

useAllLengths
Boolean

Czy należy uwzględnić wszystkie długości n-gramowe do ngramLength lub tylko ngramLength.

seed
UInt32

Skrót nasion.

useOrderedHashing
Boolean

Czy pozycja każdej kolumny źródłowej powinna być uwzględniona w skrótie (jeśli istnieje wiele kolumn źródłowych).

maximumNumberOfInverts
Int32

Podczas tworzenia skrótów tworzymy mapowania między oryginalnymi wartościami a wygenerowanymi wartościami skrótu. Tekstowa reprezentacja oryginalnych wartości jest przechowywana w nazwach miejsc adnotacji dla nowej kolumny. Skróty, w związku z tym, mogą mapować wiele wartości początkowych na jeden. maximumNumberOfInverts określa górną granicę liczby odrębnych wartości wejściowych mapowania na skrót, który należy zachować. Wartość 0 nie zachowuje żadnych wartości wejściowych. -1 zachowuje wszystkie wartości wejściowe mapowania na każdy skrót.

Zwraca

Uwagi

WordHashBagEstimator różni się od NgramHashingEstimator tego, że były tokenizuje tekst wewnętrznie, a drugi przyjmuje tokenizowany tekst jako dane wejściowe.

Dotyczy

ProduceHashedWordBags(TransformsCatalog+TextTransforms, String, String, Int32, Int32, Int32, Boolean, UInt32, Boolean, Int32)

Utwórz obiekt , który mapuje kolumnę WordHashBagEstimatorokreśloną na inputColumnName wektor liczby skrótów n-gramów w nowej kolumnie o nazwie outputColumnName.

public static Microsoft.ML.Transforms.Text.WordHashBagEstimator ProduceHashedWordBags (this Microsoft.ML.TransformsCatalog.TextTransforms catalog, string outputColumnName, string inputColumnName = default, int numberOfBits = 16, int ngramLength = 1, int skipLength = 0, bool useAllLengths = true, uint seed = 314489979, bool useOrderedHashing = true, int maximumNumberOfInverts = 0);
static member ProduceHashedWordBags : Microsoft.ML.TransformsCatalog.TextTransforms * string * string * int * int * int * bool * uint32 * bool * int -> Microsoft.ML.Transforms.Text.WordHashBagEstimator
<Extension()>
Public Function ProduceHashedWordBags (catalog As TransformsCatalog.TextTransforms, outputColumnName As String, Optional inputColumnName As String = Nothing, Optional numberOfBits As Integer = 16, Optional ngramLength As Integer = 1, Optional skipLength As Integer = 0, Optional useAllLengths As Boolean = true, Optional seed As UInteger = 314489979, Optional useOrderedHashing As Boolean = true, Optional maximumNumberOfInverts As Integer = 0) As WordHashBagEstimator

Parametry

catalog
TransformsCatalog.TextTransforms

Wykaz przekształcenia.

outputColumnName
String

Nazwa kolumny wynikającej z przekształcenia inputColumnNameelementu . Typ danych tej kolumny będzie wektorem o znanym rozmiarze .Single

inputColumnName
String

Nazwa kolumny do przejęcia danych. Ten narzędzie do szacowania działa na wektor tekstu.

numberOfBits
Int32

Liczba bitów do skrótu. Musi należeć do zakresu od 1 do 30 włącznie.

ngramLength
Int32

Długość Ngramu.

skipLength
Int32

Maksymalna liczba tokenów do pominięcia podczas konstruowania n-grama.

useAllLengths
Boolean

Czy należy uwzględnić wszystkie długości n-gramowe do ngramLength lub tylko ngramLength.

seed
UInt32

Skrót nasion.

useOrderedHashing
Boolean

Czy pozycja każdej kolumny źródłowej powinna być uwzględniona w skrótie (jeśli istnieje wiele kolumn źródłowych).

maximumNumberOfInverts
Int32

Podczas tworzenia skrótów tworzymy mapowania między oryginalnymi wartościami a wygenerowanymi wartościami skrótu. Tekstowa reprezentacja oryginalnych wartości jest przechowywana w nazwach miejsc adnotacji dla nowej kolumny. Skróty, w związku z tym, mogą mapować wiele wartości początkowych na jeden. maximumNumberOfInverts określa górną granicę liczby odrębnych wartości wejściowych mapowania na skrót, który należy zachować. Wartość 0 nie zachowuje żadnych wartości wejściowych. -1 zachowuje wszystkie wartości wejściowe mapowania na każdy skrót.

Zwraca

Uwagi

WordHashBagEstimator różni się od NgramHashingEstimator tego, że były tokenizuje tekst wewnętrznie, a drugi przyjmuje tokenizowany tekst jako dane wejściowe.

Dotyczy