Microsoft.ML.Tokenizers 命名空间

参考

重要

一些信息与预发行产品相关，相应产品在发行之前可能会进行重大修改。对于此处提供的信息，Microsoft 不作任何明示或暗示的担保。

类

Bpe	表示字节对编码模型。
BpeDecoder	允许通过联接所有标记，然后用空格替换用于标识词尾的后缀来解码原始 BPE
BpeTrainer	负责训练 Bpe 模型的 Bpe 培训师。
EnglishRoberta	表示字节对编码模型。
LowerCaseNormalizer	在使用 tokenizer 处理字符串之前，将字符串规范化为小写形式。
Model	表示在标记化 (（如 BPE、Word Piece 或 Unigram) ）中使用的模型。
Normalizer	在使用 tokenizer 处理字符串之前规范化字符串。
PreTokenizer	所有预 tokenizer 类的基类。 PreTokenizer 负责执行预分段步骤。
RobertaPreTokenizer	Roberta English tokenizer 的预 tokenizer。
Split	此拆分包含基础拆分标记及其在原始字符串中的偏移量。这些偏移量位于 `original` 引用中。它还包含与当前拆分关联的任何 `Token` 内容。
Token	表示通过标记化过程生成的令牌，其中包含令牌子字符串、与令牌子字符串关联的 ID 以及与原始字符串的偏移映射。
Tokenizer	Tokenizer 用作管道。它处理一些原始文本作为输入并输出 TokenizerResult 对象。
TokenizerDecoder	解码器负责将给定的令牌列表合并到字符串中。
TokenizerResult	编码表示 Tokenizer 的输出。
Trainer	负责 `Trainer` 训练模型。我们使用行/句子馈送它，然后它可以训练给定 `Model`的。
UpperCaseNormalizer	在使用 tokenizer 处理字符串之前，将字符串规范化为大写形式。
WhiteSpace	在单词边界处拆分文本的预标记器。单词是一组字母、数字和下划线字符。

结构

表示用户在现有 Model 词汇表上添加的令牌。可以将 AddedToken 配置为指定它们在各种情况下应具有的行为，例如：

它们是否应仅匹配单个单词
是在其左侧还是右侧包含任何 WhiteSpace

NormalizedString

包含规范化字符串和与原始字符串的映射。

Progress

枚举

表示报告进度的状态。

委托