Microsoft.ML.Tokenizers 命名空间
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
类
Bpe |
表示字节对编码模型。 |
BpeDecoder |
允许通过联接所有标记,然后用空格替换用于标识词尾的后缀来解码原始 BPE |
BpeTrainer |
负责训练 Bpe 模型的 Bpe 培训师。 |
EnglishRoberta |
表示字节对编码模型。 |
LowerCaseNormalizer |
在使用 tokenizer 处理字符串之前,将字符串规范化为小写形式。 |
Model |
表示在标记化 ((如 BPE、Word Piece 或 Unigram) )中使用的模型。 |
Normalizer |
在使用 tokenizer 处理字符串之前规范化字符串。 |
PreTokenizer |
所有预 tokenizer 类的基类。 PreTokenizer 负责执行预分段步骤。 |
RobertaPreTokenizer |
Roberta English tokenizer 的预 tokenizer。 |
Split |
此拆分包含基础拆分标记及其在原始字符串中的偏移量。 这些偏移量位于 |
Token |
表示通过标记化过程生成的令牌,其中包含令牌子字符串、与令牌子字符串关联的 ID 以及与原始字符串的偏移映射。 |
Tokenizer |
Tokenizer 用作管道。 它处理一些原始文本作为输入并输出 TokenizerResult 对象。 |
TokenizerDecoder |
解码器负责将给定的令牌列表合并到字符串中。 |
TokenizerResult |
编码表示 Tokenizer 的输出。 |
Trainer |
负责 |
UpperCaseNormalizer |
在使用 tokenizer 处理字符串之前,将字符串规范化为大写形式。 |
WhiteSpace |
在单词边界处拆分文本的预标记器。 单词是一组字母、数字和下划线字符。 |
结构
AddedToken |
表示用户在现有 Model 词汇表上添加的令牌。 可以将 AddedToken 配置为指定它们在各种情况下应具有的行为,例如:
|
NormalizedString |
包含规范化字符串和与原始字符串的映射。 |
Progress |
枚举
ProgressState |
表示报告进度的状态。 |
委托
ReportProgress |