Tokenizer 类

定义

Tokenizer 用作管道。 它处理一些原始文本作为输入并输出 TokenizerResult 对象。

public class Tokenizer
type Tokenizer = class
Public Class Tokenizer
继承
Tokenizer

构造函数

Tokenizer(Model, PreTokenizer, Normalizer)

创建新的 Tokenizer 对象。

属性

Decoder

获取或设置 Tokenizer 正在使用的解码器。

Model

获取 Tokenizer 正在使用的模型。

Normalizer

获取或设置 Tokenizer 正在使用的规范化程序。

PreTokenizer

获取或设置 Tokenizer 使用的 PreTokenizer。

方法

Decode(IEnumerable<Int32>, Boolean)

将给定 ID 解码回字符串。

Decode(Int32, Boolean)

将 ID 解码到映射的令牌。

Encode(String)

将输入文本编码为具有标记列表、令牌 ID、令牌偏移映射的对象。

IsValidChar(Char)

Tokenizer 用作管道。 它处理一些原始文本作为输入并输出 TokenizerResult 对象。

TrainFromFiles(Trainer, ReportProgress, String[])

使用输入文件训练 tokenizer 模型。

适用于