EnglishRoberta 클래스
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
바이트 쌍 인코딩 모델을 나타냅니다.
public sealed class EnglishRoberta : Microsoft.ML.Tokenizers.Model
type EnglishRoberta = class
inherit Model
Public NotInheritable Class EnglishRoberta
Inherits Model
- 상속
생성자
EnglishRoberta(Stream, Stream, Stream) |
영어 Robert 모델과 함께 사용할 tokenizer 개체를 생성합니다. |
EnglishRoberta(String, String, String) |
영어 Robert 모델과 함께 사용할 tokenizer 개체를 생성합니다. |
속성
PadIndex |
기호 목록 내의 패드 기호 인덱스를 가져옵니다. |
SymbolsCount |
기호 목록 길이를 가져옵니다. |
메서드
AddMaskSymbol(String) |
기호 목록에 마스크 기호를 추가합니다. |
GetTrainer() |
모델 학습에 사용할 트레이너 개체를 가져오고 어휘를 생성하고 데이터를 병합합니다. |
GetVocab() |
ID에 대한 사전 매핑 토큰을 가져옵니다. |
GetVocabSize() |
토큰을 ID에 매핑하는 사전 크기를 가져옵니다. |
IdsToOccurrenceRanks(IReadOnlyList<Int32>) |
토큰 ID 목록을 가장 높은 순위로 변환합니다. |
IdsToOccurrenceValues(IReadOnlyList<Int32>) |
토큰 ID 목록을 가장 높은 발생 값으로 변환합니다. |
IdToString(Int32, Boolean) |
토큰화된 ID를 원래 문자열에 매핑합니다. |
IdToToken(Int32, Boolean) |
토큰화된 ID를 토큰에 매핑합니다. |
IsValidChar(Char) |
바이트 쌍 인코딩 모델을 나타냅니다. |
OccurrenceRanksIds(IReadOnlyList<Int32>) |
가장 많이 발생하는 순위 목록을 토큰 ID 목록 으로 변환합니다. |
Save(String, String) |
모델 데이터를 어휘, 병합 및 발생 매핑 파일에 저장합니다. |
Tokenize(String) |
시퀀스 문자열을 토큰 목록으로 토큰화합니다. |
TokenToId(String) |
토큰을 토큰화된 ID에 매핑합니다. |