Bpe 클래스
정의
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
바이트 쌍 인코딩 모델을 나타냅니다.
public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
inherit Model
Public NotInheritable Class Bpe
Inherits Model
- 상속
생성자
Bpe() |
토큰화 어휘 없이 새 Bpe 모델 개체를 생성합니다. 이 생성자는 학습 시나리오에서만 유용합니다. |
Bpe(String, String, String, String, String) |
문장 토큰화 및 토큰화 학습에 사용할 새 Bpe 모델 개체를 생성합니다. |
속성
ContinuingSubwordPrefix |
다른 단어 뒤에만 존재하는 모든 하위 단어에 사용할 선택적 접두사 |
Decoder |
Bpe 디코더 개체를 가져옵니다. |
EndOfWordSuffix |
단어 끝 부분 단어의 특징을 지정하는 선택적 접미사 |
FuseUnknownTokens |
알 수 없는 여러 토큰이 융합되도록 허용할지 여부를 가져오거나 설정합니다. |
UnknownToken |
알 수 없는 토큰을 가져오거나 설정합니다. 알 수 없는 문자를 발견할 때 사용할 알 수 없는 토큰 |
메서드
GetTrainer() |
모델 학습에 사용할 트레이너 개체를 가져오고 어휘를 생성하고 데이터를 병합합니다. |
GetVocab() |
ID에 대한 사전 매핑 토큰을 가져옵니다. |
GetVocabSize() |
토큰을 ID에 매핑하는 사전 크기를 가져옵니다. |
IdToString(Int32, Boolean) |
토큰화된 ID를 토큰에 매핑합니다. |
IdToToken(Int32, Boolean) |
토큰화된 ID를 토큰에 매핑합니다. |
IsValidChar(Char) |
바이트 쌍 인코딩 모델을 나타냅니다. |
Save(String, String) |
모델 데이터를 어휘에 저장하고 파일을 병합합니다. |
Tokenize(String) |
시퀀스 문자열을 토큰 목록으로 토큰화합니다. |
TokenToId(String) |
토큰을 토큰화된 ID에 매핑합니다. |