TextFeaturizingEstimator Klasa
Definicja
Ważne
Niektóre informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed wydaniem. Firma Microsoft nie udziela żadnych gwarancji, jawnych lub domniemanych, w odniesieniu do informacji podanych w tym miejscu.
Narzędzie do szacowania, które przekształca kolekcję dokumentów tekstowych w wektory cech liczbowych. Wektory cech są znormalizowanymi liczbami wyrazów i/lub n-gramami znaków (na podstawie podanych opcji).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Dziedziczenie
-
TextFeaturizingEstimator
- Implementuje
Uwagi
Charakterystyka narzędzia do szacowania
Czy ten narzędzie do szacowania musi przyjrzeć się danym, aby wytrenować jego parametry? | Tak. |
Typ danych kolumny wejściowej | Tekst |
Typ danych kolumny wyjściowej | Wektor Single |
Możliwość eksportowania do ONNX | Nie |
Ten narzędzie do szacowania zapewnia użytkownikowi jednokrotne rozwiązanie do wykonywania następujących czynności:
- Wykrywanie języka
- Tokenizacja
- Normalizacja tekstu
- Usuwanie wstępnie zdefiniowanych i niestandardowych słów przestawnych
- [Word lub oparte na znakach wyodrębnianie Ngram i wyodrębnianie SkipGram (za pośrednictwem opcji zaawansowanych)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF lub TF-IDF
- [Normalizacja wektorów L-p] (xref: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Domyślnie funkcje są tworzone (słowo/znak) n-gramy/skip-gramy, a liczba cech jest równa rozmiarowi słownictwa znalezionego przez analizę danych. Aby wyświetlić dodatkową kolumnę z wygenerowanymi tokenami, użyj elementu OutputTokensColumnName. Liczbę funkcji można również określić, wybierając maksymalną liczbę n-gram, aby zachować w TextFeaturizingEstimator.Optionsobiekcie , gdzie narzędzie do szacowania można dalej dostroić.
Zapoznaj się z sekcją Zobacz również, aby uzyskać linki do przykładów użycia.
Metody
Fit(IDataView) |
Trenuje i zwraca wartość ITransformer. |
GetOutputSchema(SchemaShape) |
SchemaShape Zwraca schemat, który zostanie wygenerowany przez transformator. Służy do propagacji schematu i weryfikacji w potoku. |
Metody rozszerzania
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Dołącz "punkt kontrolny buforowania" do łańcucha narzędzia do szacowania. Zapewni to, że narzędzia do szacowania podrzędnego zostaną wytrenowane pod kątem buforowanych danych. Warto mieć punkt kontrolny buforowania, zanim trenerzy przejdą wiele danych. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Biorąc pod uwagę narzędzie do szacowania, zwróć obiekt opakowujący, który będzie wywoływać delegata po Fit(IDataView) wywołaniu. Często ważne jest, aby narzędzie do szacowania zwracało informacje o tym, co było odpowiednie, dlatego Fit(IDataView) metoda zwraca specjalnie wpisany obiekt, a nie tylko ogólny ITransformerelement . Jednak w tym samym czasie IEstimator<TTransformer> są często tworzone w potoki z wieloma obiektami, więc może być konieczne utworzenie łańcucha narzędzi do szacowania, za pośrednictwem EstimatorChain<TLastTransformer> którego narzędzie do szacowania, dla którego chcemy uzyskać transformator jest pochowany gdzieś w tym łańcuchu. W tym scenariuszu możemy za pomocą tej metody dołączyć delegata, który zostanie wywołany po wywołaniu dopasowania. |