다음을 통해 공유


Tokenizer 클래스

정의

Tokenizer는 파이프라인으로 작동합니다. 일부 원시 텍스트를 입력으로 처리하고 TokenizerResult 개체를 출력합니다.

public class Tokenizer
type Tokenizer = class
Public Class Tokenizer
상속
Tokenizer

생성자

Tokenizer(Model, PreTokenizer, Normalizer)

새 Tokenizer 개체를 만듭니다.

속성

Decoder

Tokenizer에서 사용 중인 디코더를 가져오거나 설정합니다.

Model

Tokenizer에서 사용 중인 모델을 가져옵니다.

Normalizer

Tokenizer에서 사용 중인 Normalizer를 가져오거나 설정합니다.

PreTokenizer

Tokenizer에서 사용하는 PreTokenizer를 가져오거나 설정합니다.

메서드

Decode(IEnumerable<Int32>, Boolean)

지정된 ID를 다시 String으로 디코딩합니다.

Decode(Int32, Boolean)

ID를 매핑된 토큰으로 디코딩합니다.

Encode(String)

입력 텍스트를 개체에 인코딩하면 토큰 목록, 토큰 ID, 토큰 오프셋 매핑이 있습니다.

IsValidChar(Char)

Tokenizer는 파이프라인으로 작동합니다. 일부 원시 텍스트를 입력으로 처리하고 TokenizerResult 개체를 출력합니다.

TrainFromFiles(Trainer, ReportProgress, String[])

입력 파일을 사용하여 토큰화기 모델을 학습합니다.

적용 대상