TextFeaturizingEstimator Třída
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Estimátor, který změní kolekci textových dokumentů na vektory numerických funkcí. Vektory funkcí jsou normalizované počty slov a/nebo znaků n-gramů (na základě zadaných možností).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Dědičnost
-
TextFeaturizingEstimator
- Implementuje
Poznámky
Vlastnosti nástroje pro posouzení
Potřebuje tento nástroj pro posouzení podívat se na data, aby vytrénovala své parametry? | Ano. |
Datový typ vstupního sloupce | text |
Datový typ výstupního sloupce | Vektor Single |
Exportovat do ONNX | No |
Tento nástroj pro posouzení poskytuje uživateli řešení na jednom bodu pro následující akce:
- Rozpoznávání jazyka
- Tokenizace
- Normalizace textu
- Odebrání předdefinovaných a vlastních dorazů
- [extrakce Ngramů na základě Word nebo znaků a extrakce skipGramu (prostřednictvím upřesňujících možností)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF nebo TF-IDF
- [Normalizace vektoru L-p] (externí reference: Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Ve výchozím nastavení jsou funkce tvořeny (slovo/znak) n-gramy/skip-gramy a počet znaků se rovná velikosti slovníku zjištěné analýzou dat. Pokud chcete vygenerovat další sloupec s vygenerovanými tokeny, použijte OutputTokensColumnName. Počet funkcí lze také určit výběrem maximálního počtu n-gramu, který se má zachovat v TextFeaturizingEstimator.Options, kde lze dále vyladit odhadce.
V části Viz také najdete odkazy na příklady použití.
Metody
Fit(IDataView) |
Vytrénuje a vrátí ITransformer. |
GetOutputSchema(SchemaShape) |
SchemaShape Vrátí hodnotu schématu, která bude vytvořena transformátorem. Používá se k šíření a ověřování schématu v kanálu. |
Metody rozšíření
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Připojte kontrolní bod ukládání do mezipaměti k řetězu odhadu. Tím se zajistí, že podřízené estimátory budou natrénovány na data uložená v mezipaměti. Je užitečné mít kontrolní bod ukládání do mezipaměti před školiteli, kteří mají více průchodů dat. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
V případě estimátoru vrátí objekt obtékání, který bude volat delegáta, jakmile Fit(IDataView) je volána. Pro odhadce je často důležité, aby vracel informace o tom, co bylo vhodné, a proto Fit(IDataView) metoda vrací objekt s konkrétním typem, spíše než jen obecný ITransformerobjekt . Zároveň IEstimator<TTransformer> jsou však často tvořeny kanály s mnoha objekty, takže možná budeme muset vytvořit řetězec odhadců, kde EstimatorChain<TLastTransformer> je odhadovač, pro který chceme získat transformátor, uložen někde v tomto řetězci. Pro tento scénář můžeme pomocí této metody připojit delegáta, který bude volána po zavolání fit. |