Microsoft.ML.Tokenizers Espace de noms
Important
Certaines informations portent sur la préversion du produit qui est susceptible d’être en grande partie modifiée avant sa publication. Microsoft exclut toute garantie, expresse ou implicite, concernant les informations fournies ici.
Classes
Bpe |
Représente le modèle d’encodage de paire d’octets. |
BpeDecoder |
Autorise le décodage de l’api BPE d’origine en joignant tous les jetons, puis en remplaçant le suffixe utilisé pour identifier la fin des mots par des espaces blancs |
BpeTrainer |
Formateur Bpe responsable de l’apprentissage du modèle Bpe. |
EnglishRoberta |
Représente le modèle d’encodage de paire d’octets. |
LowerCaseNormalizer |
Normalisez la chaîne en minuscules avant de la traiter avec le générateur de jetons. |
Model |
Représente un modèle utilisé pendant la tokenisation (par exemple, BPE, Word Piece ou Unigram). |
Normalizer |
Normalisez la chaîne avant de la traiter avec le générateur de jetons. |
PreTokenizer |
Classe de base pour toutes les classes de pré-générateurs de jetons. Le PreTokenizer est chargé d’effectuer l’étape de pré-segmentation. |
RobertaPreTokenizer |
Pré-générateur de jetons pour Roberta English Tokenizer. |
Split |
Ce fractionnement contient le jeton de fractionnement sous-jacent ainsi que ses décalages dans la chaîne d’origine. Ces décalages sont dans le |
Token |
Représente le jeton produit à partir du processus de création de jetons contenant la sous-chaîne de jetons, l’ID associé à la sous-chaîne de jeton et le mappage de décalage à la chaîne d’origine. |
Tokenizer |
Un générateur de jetons fonctionne comme un pipeline. Il traite du texte brut en tant qu’entrée et génère un objet TokenizerResult. |
TokenizerDecoder |
Un décodeur a la responsabilité de fusionner la liste donnée de jetons dans une chaîne. |
TokenizerResult |
L’encodage représente la sortie d’un générateur de jetons. |
Trainer |
A |
UpperCaseNormalizer |
Normalisez la chaîne en majuscules avant de la traiter avec le générateur de jetons. |
WhiteSpace |
Pré-générateur de jetons qui fractionne le texte à la limite du mot. Le mot est un ensemble de caractères alphabétiques, numériques et de trait de soulignement. |
Structures
AddedToken |
Représente un jeton ajouté par l’utilisateur au-dessus du vocabulaire de modèle existant. AddedToken peut être configuré pour spécifier le comportement qu’il doit avoir dans différentes situations telles que :
|
NormalizedString |
Contient la chaîne normalisée et le mappage à la chaîne d’origine. |
Progress |
Énumérations
ProgressState |
Représente l’état de la progression signalée. |
Délégués
ReportProgress |