Partager via


Microsoft.ML.Tokenizers Espace de noms

Classes

Bpe

Représente le modèle d’encodage de paire d’octets.

BpeDecoder

Autorise le décodage de l’api BPE d’origine en joignant tous les jetons, puis en remplaçant le suffixe utilisé pour identifier la fin des mots par des espaces blancs

BpeTrainer

Formateur Bpe responsable de l’apprentissage du modèle Bpe.

EnglishRoberta

Représente le modèle d’encodage de paire d’octets.

LowerCaseNormalizer

Normalisez la chaîne en minuscules avant de la traiter avec le générateur de jetons.

Model

Représente un modèle utilisé pendant la tokenisation (par exemple, BPE, Word Piece ou Unigram).

Normalizer

Normalisez la chaîne avant de la traiter avec le générateur de jetons.

PreTokenizer

Classe de base pour toutes les classes de pré-générateurs de jetons. Le PreTokenizer est chargé d’effectuer l’étape de pré-segmentation.

RobertaPreTokenizer

Pré-générateur de jetons pour Roberta English Tokenizer.

Split

Ce fractionnement contient le jeton de fractionnement sous-jacent ainsi que ses décalages dans la chaîne d’origine. Ces décalages sont dans le original référentiel. Il contient également tous les Token éléments associés au fractionnement actuel.

Token

Représente le jeton produit à partir du processus de création de jetons contenant la sous-chaîne de jetons, l’ID associé à la sous-chaîne de jeton et le mappage de décalage à la chaîne d’origine.

Tokenizer

Un générateur de jetons fonctionne comme un pipeline. Il traite du texte brut en tant qu’entrée et génère un objet TokenizerResult.

TokenizerDecoder

Un décodeur a la responsabilité de fusionner la liste donnée de jetons dans une chaîne.

TokenizerResult

L’encodage représente la sortie d’un générateur de jetons.

Trainer

A Trainer la responsabilité d’entraîner un modèle. Nous l’alimentons avec des lignes/phrases, puis il peut entraîner le donné Model.

UpperCaseNormalizer

Normalisez la chaîne en majuscules avant de la traiter avec le générateur de jetons.

WhiteSpace

Pré-générateur de jetons qui fractionne le texte à la limite du mot. Le mot est un ensemble de caractères alphabétiques, numériques et de trait de soulignement.

Structures

AddedToken

Représente un jeton ajouté par l’utilisateur au-dessus du vocabulaire de modèle existant. AddedToken peut être configuré pour spécifier le comportement qu’il doit avoir dans différentes situations telles que :

  • Indique s’ils ne doivent correspondre qu’à un seul mot
  • Indique s’il faut inclure un espace blanc à gauche ou à droite
NormalizedString

Contient la chaîne normalisée et le mappage à la chaîne d’origine.

Progress

Énumérations

ProgressState

Représente l’état de la progression signalée.

Délégués

ReportProgress