Microsoft.ML.Tokenizers 命名空间

Bpe

表示字节对编码模型。

BpeDecoder

允许通过联接所有标记,然后用空格替换用于标识词尾的后缀来解码原始 BPE

BpeTrainer

负责训练 Bpe 模型的 Bpe 培训师。

EnglishRoberta

表示字节对编码模型。

LowerCaseNormalizer

在使用 tokenizer 处理字符串之前,将字符串规范化为小写形式。

Model

表示在标记化 ((如 BPE、Word Piece 或 Unigram) )中使用的模型。

Normalizer

在使用 tokenizer 处理字符串之前规范化字符串。

PreTokenizer

所有预 tokenizer 类的基类。 PreTokenizer 负责执行预分段步骤。

RobertaPreTokenizer

Roberta English tokenizer 的预 tokenizer。

Split

此拆分包含基础拆分标记及其在原始字符串中的偏移量。 这些偏移量位于 original 引用中。 它还包含与当前拆分关联的任何 Token 内容。

Token

表示通过标记化过程生成的令牌,其中包含令牌子字符串、与令牌子字符串关联的 ID 以及与原始字符串的偏移映射。

Tokenizer

Tokenizer 用作管道。 它处理一些原始文本作为输入并输出 TokenizerResult 对象。

TokenizerDecoder

解码器负责将给定的令牌列表合并到字符串中。

TokenizerResult

编码表示 Tokenizer 的输出。

Trainer

负责 Trainer 训练模型。 我们使用行/句子馈送它,然后它可以训练给定 Model的 。

UpperCaseNormalizer

在使用 tokenizer 处理字符串之前,将字符串规范化为大写形式。

WhiteSpace

在单词边界处拆分文本的预标记器。 单词是一组字母、数字和下划线字符。

结构

AddedToken

表示用户在现有 Model 词汇表上添加的令牌。 可以将 AddedToken 配置为指定它们在各种情况下应具有的行为,例如:

  • 它们是否应仅匹配单个单词
  • 是在其左侧还是右侧包含任何 WhiteSpace
NormalizedString

包含规范化字符串和与原始字符串的映射。

Progress

枚举

ProgressState

表示报告进度的状态。

委托

ReportProgress