EnglishRoberta 类

定义

表示字节对编码模型。

public sealed class EnglishRoberta : Microsoft.ML.Tokenizers.Model
type EnglishRoberta = class
    inherit Model
Public NotInheritable Class EnglishRoberta
Inherits Model
继承
EnglishRoberta

构造函数

EnglishRoberta(Stream, Stream, Stream)

构造与英语 Robert 模型一起使用的 tokenizer 对象。

EnglishRoberta(String, String, String)

构造与英语 Robert 模型一起使用的 tokenizer 对象。

属性

PadIndex

获取符号列表中填充符号的索引。

SymbolsCount

获取符号列表长度。

方法

AddMaskSymbol(String)

将掩码符号添加到符号列表。

GetTrainer()

获取用于训练模型的训练器对象,并生成词汇和合并数据。

GetVocab()

获取将令牌映射到 ID 的字典。

GetVocabSize()

获取将令牌映射到 ID 的字典大小。

IdsToOccurrenceRanks(IReadOnlyList<Int32>)

将令牌 ID 列表转换为最高出现次数排名。

IdsToOccurrenceValues(IReadOnlyList<Int32>)

将令牌 ID 列表转换为最高出现次数值。

IdToString(Int32, Boolean)

将标记化的 ID 映射到原始字符串。

IdToToken(Int32, Boolean)

将标记化 ID 映射到令牌。

IsValidChar(Char)

表示字节对编码模型。

OccurrenceRanksIds(IReadOnlyList<Int32>)

将最高出现次数排名的列表转换为令牌 ID 列表。

Save(String, String)

将模型数据保存到词汇、合并和匹配项映射文件中。

Tokenize(String)

将序列字符串标记化为标记列表。

TokenToId(String)

将令牌映射到标记化 ID。

适用于