Microsoft.ML.Tokenizers 네임스페이스

참조

중요

일부 정보는 릴리스되기 전에 상당 부분 수정될 수 있는 시험판 제품과 관련이 있습니다. Microsoft는 여기에 제공된 정보에 대해 어떠한 명시적이거나 묵시적인 보증도 하지 않습니다.

클래스

Bpe	바이트 쌍 인코딩 모델을 나타냅니다.
BpeDecoder	모든 토큰을 조인한 다음 공백으로 단어 끝을 식별하는 데 사용되는 접미사를 바꿔서 원래 BPE를 디코딩할 수 있습니다.
BpeTrainer	Bpe 모델을 학습시킬 책임이 있는 Bpe 트레이너입니다.
EnglishRoberta	바이트 쌍 인코딩 모델을 나타냅니다.
LowerCaseNormalizer	문자열을 토큰라이저로 처리하기 전에 소문자로 정규화합니다.
Model	토큰화 중에 사용되는 모델(예: BPE 또는 Word Piece 또는 유니그램)을 나타냅니다.
Normalizer	토큰라이저를 사용하여 처리하기 전에 문자열을 정규화합니다.
PreTokenizer	모든 사전 토큰 변환기 클래스에 대한 기본 클래스입니다. PreTokenizer는 사전 세분화 단계를 담당합니다.
RobertaPreTokenizer	Roberta English tokenizer의 사전 토큰화기입니다.
Split	이 분할에는 기본 분할 토큰과 원래 문자열의 오프셋이 포함됩니다. 이러한 오프셋은 참조에 `original` 있습니다. 또한 현재 분할에 연결된 모든 `Token` 항목이 포함되어 있습니다.
Token	토큰 부분 문자열, 토큰 부분 문자열에 연결된 ID 및 원래 문자열에 대한 오프셋 매핑을 포함하는 토큰화 프로세스에서 생성된 토큰을 나타냅니다.
Tokenizer	Tokenizer는 파이프라인으로 작동합니다. 일부 원시 텍스트를 입력으로 처리하고 TokenizerResult 개체를 출력합니다.
TokenizerDecoder	디코더는 지정된 토큰 목록을 문자열에 병합할 책임이 있습니다.
TokenizerResult	인코딩은 Tokenizer의 출력을 나타냅니다.
Trainer	`Trainer` 은 모델을 학습시킬 책임이 있습니다. 줄/문장으로 피드한 다음 지정된 `Model`를 학습시킬 수 있습니다.
UpperCaseNormalizer	토큰라이저를 사용하여 처리하기 전에 문자열을 대문자 형식으로 정규화합니다.
WhiteSpace	단어 경계에서 텍스트를 분할하는 사전 토큰화기입니다. 단어는 알파벳, 숫자 및 밑줄 문자 집합입니다.

구조체

사용자가 기존 모델 어휘 위에 추가한 토큰을 나타냅니다. AddedToken은 다음과 같은 다양한 상황에서 수행해야 하는 동작을 지정하도록 구성할 수 있습니다.

단일 단어와만 일치해야 하는지 여부
왼쪽 또는 오른쪽에 WhiteSpace를 포함할지 여부

NormalizedString

정규화된 문자열과 원래 문자열에 대한 매핑을 포함합니다.

Progress

열거형

보고된 진행률의 상태를 나타냅니다.

대리자