Microsoft.ML.Tokenizers Espace de noms

Référence

Important

Certaines informations portent sur la préversion du produit qui est susceptible d’être en grande partie modifiée avant sa publication. Microsoft exclut toute garantie, expresse ou implicite, concernant les informations fournies ici.

Classes

Bpe	Représente le modèle d’encodage de paire d’octets.
BpeDecoder	Autorise le décodage de l’api BPE d’origine en joignant tous les jetons, puis en remplaçant le suffixe utilisé pour identifier la fin des mots par des espaces blancs
BpeTrainer	Formateur Bpe responsable de l’apprentissage du modèle Bpe.
EnglishRoberta	Représente le modèle d’encodage de paire d’octets.
LowerCaseNormalizer	Normalisez la chaîne en minuscules avant de la traiter avec le générateur de jetons.
Model	Représente un modèle utilisé pendant la tokenisation (par exemple, BPE, Word Piece ou Unigram).
Normalizer	Normalisez la chaîne avant de la traiter avec le générateur de jetons.
PreTokenizer	Classe de base pour toutes les classes de pré-générateurs de jetons. Le PreTokenizer est chargé d’effectuer l’étape de pré-segmentation.
RobertaPreTokenizer	Pré-générateur de jetons pour Roberta English Tokenizer.
Split	Ce fractionnement contient le jeton de fractionnement sous-jacent ainsi que ses décalages dans la chaîne d’origine. Ces décalages sont dans le `original` référentiel. Il contient également tous les `Token` éléments associés au fractionnement actuel.
Token	Représente le jeton produit à partir du processus de création de jetons contenant la sous-chaîne de jetons, l’ID associé à la sous-chaîne de jeton et le mappage de décalage à la chaîne d’origine.
Tokenizer	Un générateur de jetons fonctionne comme un pipeline. Il traite du texte brut en tant qu’entrée et génère un objet TokenizerResult.
TokenizerDecoder	Un décodeur a la responsabilité de fusionner la liste donnée de jetons dans une chaîne.
TokenizerResult	L’encodage représente la sortie d’un générateur de jetons.
Trainer	A `Trainer` la responsabilité d’entraîner un modèle. Nous l’alimentons avec des lignes/phrases, puis il peut entraîner le donné `Model`.
UpperCaseNormalizer	Normalisez la chaîne en majuscules avant de la traiter avec le générateur de jetons.
WhiteSpace	Pré-générateur de jetons qui fractionne le texte à la limite du mot. Le mot est un ensemble de caractères alphabétiques, numériques et de trait de soulignement.

Structures

AddedToken

Représente un jeton ajouté par l’utilisateur au-dessus du vocabulaire de modèle existant. AddedToken peut être configuré pour spécifier le comportement qu’il doit avoir dans différentes situations telles que :

Indique s’ils ne doivent correspondre qu’à un seul mot
Indique s’il faut inclure un espace blanc à gauche ou à droite

NormalizedString

Contient la chaîne normalisée et le mappage à la chaîne d’origine.

Progress

Énumérations

ProgressState

Représente l’état de la progression signalée.

Délégués

ReportProgress

Partager via

Microsoft.ML.Tokenizers Espace de noms

Classes

Structures

Énumérations

Délégués

Ressources supplémentaires