WordEmbeddingEstimator Třída
Definice
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Textový featurizátor, který převádí vektory textových tokenů na číselný vektor pomocí předem natrénovaného modelu vkládání.
public sealed class WordEmbeddingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.Transforms.Text.WordEmbeddingTransformer>
type WordEmbeddingEstimator = class
interface IEstimator<WordEmbeddingTransformer>
Public NotInheritable Class WordEmbeddingEstimator
Implements IEstimator(Of WordEmbeddingTransformer)
- Dědičnost
-
WordEmbeddingEstimator
- Implementuje
Poznámky
Charakteristiky estimátoru
Potřebuje tento estimátor podívat se na data, aby vytrénovala jeho parametry? | No |
Datový typ vstupního sloupce | Vektor textu |
Datový typ výstupního sloupce | Známý vektor velikosti Single |
Exportovatelné do ONNX | No |
Vytvoří WordEmbeddingTransformer nový sloupec s názvem zadaným v parametrech názvu výstupního sloupce, kde se každý vstupní vektor mapuje na číselný vektor s velikostí 3 * dimenzionální hodnoty použitého modelu vkládání. Všimněte si, že to je nezávislé na velikosti vstupního vektoru.
Například při použití GloVe50D, který je samotný 50 dimenzionální, výstupní sloupec je vektor velikosti 150. První třetina slotů obsahuje minimální hodnoty vložených hodnot odpovídajících každému řetězci ve vstupním vektoru. Druhá třetina obsahuje průměr vkládání. Poslední třetina slotů obsahuje maximální hodnoty zjištěných vkládání. Minimální/maximální hodnota poskytuje ohraničující hyper-obdélník pro slova ve slově vkládání prostoru. To může pomoci pro delší fráze, kde průměr mnoha slov utopí užitečný signál.
Uživatel může zadat vlastní předem vytrénovaný model vkládání nebo některý z dostupných předem natrénovaných modelů. Dostupné možnosti jsou různé verze modelů GloVe, FastText a SSWE.
Odkazy na příklady použití najdete v části Viz také.
Metody
Fit(IDataView) |
Vlaky a vrací hodnotu WordEmbeddingTransformer. |
GetOutputSchema(SchemaShape) |
SchemaShape Vrátí schéma, které bude vytvořen transformátorem. Používá se pro šíření a ověřování schématu v kanálu. |
Metody rozšíření
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Připojte k řetězci estimátoru kontrolní bod ukládání do mezipaměti. Tím zajistíte, aby podřízené estimátory byly vytrénovány proti datům uloženým v mezipaměti. Před průchodem více dat je užitečné mít kontrolní bod ukládání do mezipaměti. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Vzhledem k estimátoru vraťte zalamovací objekt, který zavolá delegáta jednou Fit(IDataView) . Často je důležité, aby odhadovač vrátil informace o tom, co bylo vhodné, což je důvod, proč Fit(IDataView) metoda vrací konkrétně typ objekt, nikoli jen obecné ITransformer. Ve stejnou dobu se však často vytvářejí do kanálů s mnoha objekty, takže možná budeme muset vytvořit řetězec estimátorů, kde EstimatorChain<TLastTransformer> je odhadovač, IEstimator<TTransformer> pro který chceme získat transformátor, zakopán někde v tomto řetězci. Pro tento scénář můžeme prostřednictvím této metody připojit delegáta, který bude volána po zavolání fit. |