다음을 통해 공유


Bpe 클래스

정의

바이트 쌍 인코딩 모델을 나타냅니다.

public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
    inherit Model
Public NotInheritable Class Bpe
Inherits Model
상속

생성자

Bpe()

토큰화 어휘 없이 새 Bpe 모델 개체를 생성합니다. 이 생성자는 학습 시나리오에서만 유용합니다.

Bpe(String, String, String, String, String)

문장 토큰화 및 토큰화 학습에 사용할 새 Bpe 모델 개체를 생성합니다.

속성

ContinuingSubwordPrefix

다른 단어 뒤에만 존재하는 모든 하위 단어에 사용할 선택적 접두사

Decoder

Bpe 디코더 개체를 가져옵니다.

EndOfWordSuffix

단어 끝 부분 단어의 특징을 지정하는 선택적 접미사

FuseUnknownTokens

알 수 없는 여러 토큰이 융합되도록 허용할지 여부를 가져오거나 설정합니다.

UnknownToken

알 수 없는 토큰을 가져오거나 설정합니다. 알 수 없는 문자를 발견할 때 사용할 알 수 없는 토큰

메서드

GetTrainer()

모델 학습에 사용할 트레이너 개체를 가져오고 어휘를 생성하고 데이터를 병합합니다.

GetVocab()

ID에 대한 사전 매핑 토큰을 가져옵니다.

GetVocabSize()

토큰을 ID에 매핑하는 사전 크기를 가져옵니다.

IdToString(Int32, Boolean)

토큰화된 ID를 토큰에 매핑합니다.

IdToToken(Int32, Boolean)

토큰화된 ID를 토큰에 매핑합니다.

IsValidChar(Char)

바이트 쌍 인코딩 모델을 나타냅니다.

Save(String, String)

모델 데이터를 어휘에 저장하고 파일을 병합합니다.

Tokenize(String)

시퀀스 문자열을 토큰 목록으로 토큰화합니다.

TokenToId(String)

토큰을 토큰화된 ID에 매핑합니다.

적용 대상