Microsoft.ML.Tokenizers Espacio de nombres

Referencia

Importante

Parte de la información hace referencia a la versión preliminar del producto, que puede haberse modificado sustancialmente antes de lanzar la versión definitiva. Microsoft no otorga ninguna garantía, explícita o implícita, con respecto a la información proporcionada aquí.

Clases

Bpe	Representa el modelo de codificación de par de bytes.
BpeDecoder	Permite descodificar BPE original mediante la combinación de todos los tokens y, a continuación, reemplazando el sufijo usado para identificar palabras finales por espacios en blanco.
BpeTrainer	El instructor de Bpe responsable de entrenar el modelo Bpe.
EnglishRoberta	Representa el modelo de codificación de par de bytes.
LowerCaseNormalizer	Normalice la cadena en formato en minúsculas antes de procesarla con el tokenizador.
Model	Representa un modelo usado durante la tokenización (como BPE o Word Piece o Unigram).
Normalizer	Normalice la cadena antes de procesarla con el tokenizador.
PreTokenizer	Clase base para todas las clases de tokenizadores previos. PreTokenizer se encarga de realizar el paso de segmentación previa.
RobertaPreTokenizer	Tokenizador previo para tokenizador en inglés de Roberta.
Split	Esta división contiene el token de división subyacente, así como sus desplazamientos en la cadena original. Estos desplazamientos se encuentran en el `original` elemento referencial. También contiene cualquier `Token` asociado a la división actual.
Token	Representa el token generado a partir del proceso de tokenización que contiene la subcadena del token, el identificador asociado a la subcadena del token y la asignación de desplazamiento a la cadena original.
Tokenizer	Un tokenizador funciona como una canalización. Procesa texto sin formato como entrada y genera un objeto TokenizerResult.
TokenizerDecoder	Un descodificador tiene la responsabilidad de combinar la lista de tokens especificada en una cadena.
TokenizerResult	La codificación representa la salida de un tokenizador.
Trainer	Un `Trainer` tiene la responsabilidad de entrenar un modelo. Lo alimentamos con líneas y oraciones y, a continuación, puede entrenar el dado `Model`.
UpperCaseNormalizer	Normalice la cadena al formulario en mayúsculas antes de procesarla con el tokenizador.
WhiteSpace	Pre-tokenizer que divide el texto en el límite de la palabra. La palabra es un conjunto de caracteres alfabéticos, numéricos y de subrayado.

Estructuras

AddedToken

Representa un token agregado por el usuario sobre el vocabulario modelo existente. AddedToken se puede configurar para especificar el comportamiento que deben tener en varias situaciones como:

Si solo deben coincidir con palabras únicas
Si se debe incluir cualquier espacio en blanco a la izquierda o a la derecha

NormalizedString

Contiene la cadena normalizada y la asignación a la cadena original.

Progress

Enumeraciones

ProgressState

Representa el estado del progreso notificado.

Delegados

ReportProgress

Compartir a través de

Microsoft.ML.Tokenizers Espacio de nombres

Clases

Estructuras

Enumeraciones

Delegados

Recursos adicionales