Compartir a través de


Microsoft.ML.Tokenizers Espacio de nombres

Clases

Bpe

Representa el modelo de codificación de par de bytes.

BpeDecoder

Permite descodificar BPE original mediante la combinación de todos los tokens y, a continuación, reemplazando el sufijo usado para identificar palabras finales por espacios en blanco.

BpeTrainer

El instructor de Bpe responsable de entrenar el modelo Bpe.

EnglishRoberta

Representa el modelo de codificación de par de bytes.

LowerCaseNormalizer

Normalice la cadena en formato en minúsculas antes de procesarla con el tokenizador.

Model

Representa un modelo usado durante la tokenización (como BPE o Word Piece o Unigram).

Normalizer

Normalice la cadena antes de procesarla con el tokenizador.

PreTokenizer

Clase base para todas las clases de tokenizadores previos. PreTokenizer se encarga de realizar el paso de segmentación previa.

RobertaPreTokenizer

Tokenizador previo para tokenizador en inglés de Roberta.

Split

Esta división contiene el token de división subyacente, así como sus desplazamientos en la cadena original. Estos desplazamientos se encuentran en el original elemento referencial. También contiene cualquier Token asociado a la división actual.

Token

Representa el token generado a partir del proceso de tokenización que contiene la subcadena del token, el identificador asociado a la subcadena del token y la asignación de desplazamiento a la cadena original.

Tokenizer

Un tokenizador funciona como una canalización. Procesa texto sin formato como entrada y genera un objeto TokenizerResult.

TokenizerDecoder

Un descodificador tiene la responsabilidad de combinar la lista de tokens especificada en una cadena.

TokenizerResult

La codificación representa la salida de un tokenizador.

Trainer

Un Trainer tiene la responsabilidad de entrenar un modelo. Lo alimentamos con líneas y oraciones y, a continuación, puede entrenar el dado Model.

UpperCaseNormalizer

Normalice la cadena al formulario en mayúsculas antes de procesarla con el tokenizador.

WhiteSpace

Pre-tokenizer que divide el texto en el límite de la palabra. La palabra es un conjunto de caracteres alfabéticos, numéricos y de subrayado.

Estructuras

AddedToken

Representa un token agregado por el usuario sobre el vocabulario modelo existente. AddedToken se puede configurar para especificar el comportamiento que deben tener en varias situaciones como:

  • Si solo deben coincidir con palabras únicas
  • Si se debe incluir cualquier espacio en blanco a la izquierda o a la derecha
NormalizedString

Contiene la cadena normalizada y la asignación a la cadena original.

Progress

Enumeraciones

ProgressState

Representa el estado del progreso notificado.

Delegados

ReportProgress