EnglishRoberta 类
定义
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
表示字节对编码模型。
public sealed class EnglishRoberta : Microsoft.ML.Tokenizers.Model
type EnglishRoberta = class
inherit Model
Public NotInheritable Class EnglishRoberta
Inherits Model
- 继承
构造函数
EnglishRoberta(Stream, Stream, Stream) |
构造与英语 Robert 模型一起使用的 tokenizer 对象。 |
EnglishRoberta(String, String, String) |
构造与英语 Robert 模型一起使用的 tokenizer 对象。 |
属性
PadIndex |
获取符号列表中填充符号的索引。 |
SymbolsCount |
获取符号列表长度。 |
方法
AddMaskSymbol(String) |
将掩码符号添加到符号列表。 |
GetTrainer() |
获取用于训练模型的训练器对象,并生成词汇和合并数据。 |
GetVocab() |
获取将令牌映射到 ID 的字典。 |
GetVocabSize() |
获取将令牌映射到 ID 的字典大小。 |
IdsToOccurrenceRanks(IReadOnlyList<Int32>) |
将令牌 ID 列表转换为最高出现次数排名。 |
IdsToOccurrenceValues(IReadOnlyList<Int32>) |
将令牌 ID 列表转换为最高出现次数值。 |
IdToString(Int32, Boolean) |
将标记化的 ID 映射到原始字符串。 |
IdToToken(Int32, Boolean) |
将标记化 ID 映射到令牌。 |
IsValidChar(Char) |
表示字节对编码模型。 |
OccurrenceRanksIds(IReadOnlyList<Int32>) |
将最高出现次数排名的列表转换为令牌 ID 列表。 |
Save(String, String) |
将模型数据保存到词汇、合并和匹配项映射文件中。 |
Tokenize(String) |
将序列字符串标记化为标记列表。 |
TokenToId(String) |
将令牌映射到标记化 ID。 |