Microsoft.ML.Tokenizers Namespace
Importante
Algumas informações se referem a produtos de pré-lançamento que podem ser substancialmente modificados antes do lançamento. A Microsoft não oferece garantias, expressas ou implícitas, das informações aqui fornecidas.
Classes
Bpe |
Represente o modelo de codificação de par de bytes. |
BpeDecoder |
Permite a decodificação do BPE Original unindo todos os tokens e, em seguida, substituindo o sufixo usado para identificar o fim das palavras por espaços em branco |
BpeTrainer |
O treinador bpe responsável por treinar o modelo Bpe. |
EnglishRoberta |
Represente o modelo de codificação de par de bytes. |
LowerCaseNormalizer |
Normalize a cadeia de caracteres para o formulário em minúsculas antes de processá-la com o criador de tokens. |
Model |
Representa um modelo usado durante a geração de tokens (como BPE, Word Piece ou Unigram). |
Normalizer |
Normalize a cadeia de caracteres antes de processá-la com o criador de tokens. |
PreTokenizer |
Classe base para todas as classes pré-tokenizers. O PreTokenizer é responsável por realizar a etapa de pré-segmentação. |
RobertaPreTokenizer |
O pré-tokenizer para o criador de tokens em inglês roberta. |
Split |
Essa Divisão contém o token de divisão subjacente, bem como seus deslocamentos na cadeia de caracteres original. Esses deslocamentos estão no |
Token |
Represente o token produzido do processo de tokenização que contém a subcadeia de caracteres do token, a ID associada à subcadeia de caracteres do token e o mapeamento de deslocamento para a cadeia de caracteres original. |
Tokenizer |
Um Tokenizer funciona como um pipeline. Ele processa algum texto bruto como entrada e gera um objeto TokenizerResult. |
TokenizerDecoder |
Um Decodificador tem a responsabilidade de mesclar a lista de tokens fornecida em uma cadeia de caracteres. |
TokenizerResult |
A Codificação representa a saída de um Criador de Token. |
Trainer |
Um |
UpperCaseNormalizer |
Normalize a cadeia de caracteres para o formulário maiúsculo antes de processá-la com o criador de tokens. |
WhiteSpace |
O pré-tokenizer que divide o texto no limite da palavra. A palavra é um conjunto de caracteres alfabéticos, numéricos e sublinhados. |
Estruturas
AddedToken |
Represente um token adicionado pelo usuário sobre o vocabulário do Modelo existente. AddedToken pode ser configurado para especificar o comportamento que eles devem ter em várias situações, como:
|
NormalizedString |
Contém a cadeia de caracteres normalizada e o mapeamento para a cadeia de caracteres original. |
Progress |
Enumerações
ProgressState |
Representa o estado do progresso relatado. |
Delegados
ReportProgress |