TextFeaturizingEstimator Classe
Définition
Important
Certaines informations portent sur la préversion du produit qui est susceptible d’être en grande partie modifiée avant sa publication. Microsoft exclut toute garantie, expresse ou implicite, concernant les informations fournies ici.
Estimateur qui transforme une collection de documents texte en vecteurs de caractéristiques numériques. Les vecteurs de caractéristiques sont des nombres normalisés de mots et/ou de n-grammes de caractères (en fonction des options fournies).
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- Héritage
-
TextFeaturizingEstimator
- Implémente
Remarques
Caractéristiques de l’estimateur
Cet estimateur doit-il examiner les données pour effectuer l’apprentissage de ses paramètres ? | Oui. |
Type de données de colonne d’entrée | text |
Type de données de colonne de sortie | Vecteur de Single |
Exportable vers ONNX | Non |
Cet estimateur offre à l’utilisateur une solution à guichet unique pour effectuer les actions suivantes :
- Détection de la langue
- Segmentation du texte en unités lexicales
- Normalisation du texte
- Suppression de mots vides prédéfinis et personnalisés
- [Word-based or character-based Ngram extraction and SkipGram extraction (via les options avancées)](https://en.wikipedia.org/wiki/N-gram)
- TF, IDF ou TF-IDF
- [Normalisation vectorielle L-p] (xref : Microsoft.ML.Transforms.LpNormNormalizingTransformer)
Par défaut, les caractéristiques sont constituées de n-grammes/skip-grammes (mot/caractère) et le nombre de caractéristiques est égal à la taille de vocabulaire trouvée en analysant les données. Pour générer une colonne supplémentaire avec les jetons générés, utilisez OutputTokensColumnName. Le nombre de caractéristiques peut également être spécifié en sélectionnant le nombre maximal de n-grammes à conserver dans , TextFeaturizingEstimator.Optionsoù l’estimateur peut être ajusté davantage.
Consultez la section Voir aussi pour obtenir des liens vers des exemples d’utilisation.
Méthodes
Fit(IDataView) |
Entraîne et retourne un ITransformer. |
GetOutputSchema(SchemaShape) |
Retourne le SchemaShape du schéma qui sera produit par le transformateur. Utilisé pour la propagation et la vérification du schéma dans un pipeline. |
Méthodes d’extension
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
Ajoutez un « point de contrôle de mise en cache » à la chaîne de l’estimateur. Cela garantit que les estimateurs en aval seront entraînés sur les données mises en cache. Il est utile d’avoir un point de contrôle de mise en cache avant les formateurs qui effectuent plusieurs passes de données. |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
Avec un estimateur, retournez un objet d’habillage qui appellera un délégué une fois Fit(IDataView) appelé. Il est souvent important pour un estimateur de retourner des informations sur ce qui était adapté, c’est pourquoi la Fit(IDataView) méthode retourne un objet spécifiquement typé, plutôt qu’un simple général ITransformer. Toutefois, dans le même temps, IEstimator<TTransformer> sont souvent formés dans des pipelines avec de nombreux objets, nous devrons donc créer une chaîne d’estimateurs par le biais EstimatorChain<TLastTransformer> de l’emplacement où l’estimateur pour lequel nous voulons obtenir le transformateur est enterré quelque part dans cette chaîne. Pour ce scénario, nous pouvons, par le biais de cette méthode, attacher un délégué qui sera appelé une fois que fit est appelé. |