다음을 통해 공유


EnglishRoberta 클래스

정의

바이트 쌍 인코딩 모델을 나타냅니다.

public sealed class EnglishRoberta : Microsoft.ML.Tokenizers.Model
type EnglishRoberta = class
    inherit Model
Public NotInheritable Class EnglishRoberta
Inherits Model
상속
EnglishRoberta

생성자

EnglishRoberta(Stream, Stream, Stream)

영어 Robert 모델과 함께 사용할 tokenizer 개체를 생성합니다.

EnglishRoberta(String, String, String)

영어 Robert 모델과 함께 사용할 tokenizer 개체를 생성합니다.

속성

PadIndex

기호 목록 내의 패드 기호 인덱스를 가져옵니다.

SymbolsCount

기호 목록 길이를 가져옵니다.

메서드

AddMaskSymbol(String)

기호 목록에 마스크 기호를 추가합니다.

GetTrainer()

모델 학습에 사용할 트레이너 개체를 가져오고 어휘를 생성하고 데이터를 병합합니다.

GetVocab()

ID에 대한 사전 매핑 토큰을 가져옵니다.

GetVocabSize()

토큰을 ID에 매핑하는 사전 크기를 가져옵니다.

IdsToOccurrenceRanks(IReadOnlyList<Int32>)

토큰 ID 목록을 가장 높은 순위로 변환합니다.

IdsToOccurrenceValues(IReadOnlyList<Int32>)

토큰 ID 목록을 가장 높은 발생 값으로 변환합니다.

IdToString(Int32, Boolean)

토큰화된 ID를 원래 문자열에 매핑합니다.

IdToToken(Int32, Boolean)

토큰화된 ID를 토큰에 매핑합니다.

IsValidChar(Char)

바이트 쌍 인코딩 모델을 나타냅니다.

OccurrenceRanksIds(IReadOnlyList<Int32>)

가장 많이 발생하는 순위 목록을 토큰 ID 목록 으로 변환합니다.

Save(String, String)

모델 데이터를 어휘, 병합 및 발생 매핑 파일에 저장합니다.

Tokenize(String)

시퀀스 문자열을 토큰 목록으로 토큰화합니다.

TokenToId(String)

토큰을 토큰화된 ID에 매핑합니다.

적용 대상