EnglishRoberta 클래스

정의

중요

일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.

바이트 쌍 인코딩 모델을 나타냅니다.

public sealed class EnglishRoberta : Microsoft.ML.Tokenizers.Model

type EnglishRoberta = class
    inherit Model

Public NotInheritable Class EnglishRoberta
Inherits Model

EnglishRoberta(Stream, Stream, Stream)	영어 Robert 모델과 함께 사용할 tokenizer 개체를 생성합니다.
EnglishRoberta(String, String, String)	영어 Robert 모델과 함께 사용할 tokenizer 개체를 생성합니다.

PadIndex	기호 목록 내의 패드 기호 인덱스를 가져옵니다.
SymbolsCount	기호 목록 길이를 가져옵니다.

AddMaskSymbol(String)	기호 목록에 마스크 기호를 추가합니다.
GetTrainer()	모델 학습에 사용할 트레이너 개체를 가져오고 어휘를 생성하고 데이터를 병합합니다.
GetVocab()	ID에 대한 사전 매핑 토큰을 가져옵니다.
GetVocabSize()	토큰을 ID에 매핑하는 사전 크기를 가져옵니다.
IdsToOccurrenceRanks(IReadOnlyList<Int32>)	토큰 ID 목록을 가장 높은 순위로 변환합니다.
IdsToOccurrenceValues(IReadOnlyList<Int32>)	토큰 ID 목록을 가장 높은 발생 값으로 변환합니다.
IdToString(Int32, Boolean)	토큰화된 ID를 원래 문자열에 매핑합니다.
IdToToken(Int32, Boolean)	토큰화된 ID를 토큰에 매핑합니다.
IsValidChar(Char)	바이트 쌍 인코딩 모델을 나타냅니다.
OccurrenceRanksIds(IReadOnlyList<Int32>)	가장 많이 발생하는 순위 목록을 토큰 ID 목록 으로 변환합니다.
Save(String, String)	모델 데이터를 어휘, 병합 및 발생 매핑 파일에 저장합니다.
Tokenize(String)	시퀀스 문자열을 토큰 목록으로 토큰화합니다.
TokenToId(String)	토큰을 토큰화된 ID에 매핑합니다.