Microsoft.ML.Tokenizers Espacio de nombres
Importante
Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.
Clases
Bpe |
Representa el modelo de codificación de par de bytes. |
BpeDecoder |
Permite descodificar BPE original mediante la combinación de todos los tokens y, a continuación, reemplazando el sufijo usado para identificar palabras finales por espacios en blanco. |
BpeTrainer |
El instructor de Bpe responsable de entrenar el modelo Bpe. |
EnglishRoberta |
Representa el modelo de codificación de par de bytes. |
LowerCaseNormalizer |
Normalice la cadena en formato en minúsculas antes de procesarla con el tokenizador. |
Model |
Representa un modelo usado durante la tokenización (como BPE o Word Piece o Unigram). |
Normalizer |
Normalice la cadena antes de procesarla con el tokenizador. |
PreTokenizer |
Clase base para todas las clases de tokenizadores previos. PreTokenizer se encarga de realizar el paso de segmentación previa. |
RobertaPreTokenizer |
Tokenizador previo para tokenizador en inglés de Roberta. |
Split |
Esta división contiene el token de división subyacente, así como sus desplazamientos en la cadena original. Estos desplazamientos se encuentran en el |
Token |
Representa el token generado a partir del proceso de tokenización que contiene la subcadena del token, el identificador asociado a la subcadena del token y la asignación de desplazamiento a la cadena original. |
Tokenizer |
Un tokenizador funciona como una canalización. Procesa texto sin formato como entrada y genera un objeto TokenizerResult. |
TokenizerDecoder |
Un descodificador tiene la responsabilidad de combinar la lista de tokens especificada en una cadena. |
TokenizerResult |
La codificación representa la salida de un tokenizador. |
Trainer |
Un |
UpperCaseNormalizer |
Normalice la cadena al formulario en mayúsculas antes de procesarla con el tokenizador. |
WhiteSpace |
Pre-tokenizer que divide el texto en el límite de la palabra. La palabra es un conjunto de caracteres alfabéticos, numéricos y de subrayado. |
Estructuras
AddedToken |
Representa un token agregado por el usuario sobre el vocabulario modelo existente. AddedToken se puede configurar para especificar el comportamiento que deben tener en varias situaciones como:
|
NormalizedString |
Contiene la cadena normalizada y la asignación a la cadena original. |
Progress |
Enumeraciones
ProgressState |
Representa el estado del progreso notificado. |
Delegados
ReportProgress |