Microsoft.ML.Tokenizers 네임스페이스
중요
일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.
클래스
Bpe |
바이트 쌍 인코딩 모델을 나타냅니다. |
BpeDecoder |
모든 토큰을 조인한 다음 공백으로 단어 끝을 식별하는 데 사용되는 접미사를 바꿔서 원래 BPE를 디코딩할 수 있습니다. |
BpeTrainer |
Bpe 모델을 학습시킬 책임이 있는 Bpe 트레이너입니다. |
EnglishRoberta |
바이트 쌍 인코딩 모델을 나타냅니다. |
LowerCaseNormalizer |
문자열을 토큰라이저로 처리하기 전에 소문자로 정규화합니다. |
Model |
토큰화 중에 사용되는 모델(예: BPE 또는 Word Piece 또는 유니그램)을 나타냅니다. |
Normalizer |
토큰라이저를 사용하여 처리하기 전에 문자열을 정규화합니다. |
PreTokenizer |
모든 사전 토큰 변환기 클래스에 대한 기본 클래스입니다. PreTokenizer는 사전 세분화 단계를 담당합니다. |
RobertaPreTokenizer |
Roberta English tokenizer의 사전 토큰화기입니다. |
Split |
이 분할에는 기본 분할 토큰과 원래 문자열의 오프셋이 포함됩니다. 이러한 오프셋은 참조에 |
Token |
토큰 부분 문자열, 토큰 부분 문자열에 연결된 ID 및 원래 문자열에 대한 오프셋 매핑을 포함하는 토큰화 프로세스에서 생성된 토큰을 나타냅니다. |
Tokenizer |
Tokenizer는 파이프라인으로 작동합니다. 일부 원시 텍스트를 입력으로 처리하고 TokenizerResult 개체를 출력합니다. |
TokenizerDecoder |
디코더는 지정된 토큰 목록을 문자열에 병합할 책임이 있습니다. |
TokenizerResult |
인코딩은 Tokenizer의 출력을 나타냅니다. |
Trainer |
|
UpperCaseNormalizer |
토큰라이저를 사용하여 처리하기 전에 문자열을 대문자 형식으로 정규화합니다. |
WhiteSpace |
단어 경계에서 텍스트를 분할하는 사전 토큰화기입니다. 단어는 알파벳, 숫자 및 밑줄 문자 집합입니다. |
구조체
AddedToken |
사용자가 기존 모델 어휘 위에 추가한 토큰을 나타냅니다. AddedToken은 다음과 같은 다양한 상황에서 수행해야 하는 동작을 지정하도록 구성할 수 있습니다.
|
NormalizedString |
정규화된 문자열과 원래 문자열에 대한 매핑을 포함합니다. |
Progress |
열거형
ProgressState |
보고된 진행률의 상태를 나타냅니다. |
대리자
ReportProgress |