다음을 통해 공유


Microsoft.ML.Tokenizers 네임스페이스

클래스

Bpe

바이트 쌍 인코딩 모델을 나타냅니다.

BpeDecoder

모든 토큰을 조인한 다음 공백으로 단어 끝을 식별하는 데 사용되는 접미사를 바꿔서 원래 BPE를 디코딩할 수 있습니다.

BpeTrainer

Bpe 모델을 학습시킬 책임이 있는 Bpe 트레이너입니다.

EnglishRoberta

바이트 쌍 인코딩 모델을 나타냅니다.

LowerCaseNormalizer

문자열을 토큰라이저로 처리하기 전에 소문자로 정규화합니다.

Model

토큰화 중에 사용되는 모델(예: BPE 또는 Word Piece 또는 유니그램)을 나타냅니다.

Normalizer

토큰라이저를 사용하여 처리하기 전에 문자열을 정규화합니다.

PreTokenizer

모든 사전 토큰 변환기 클래스에 대한 기본 클래스입니다. PreTokenizer는 사전 세분화 단계를 담당합니다.

RobertaPreTokenizer

Roberta English tokenizer의 사전 토큰화기입니다.

Split

이 분할에는 기본 분할 토큰과 원래 문자열의 오프셋이 포함됩니다. 이러한 오프셋은 참조에 original 있습니다. 또한 현재 분할에 연결된 모든 Token 항목이 포함되어 있습니다.

Token

토큰 부분 문자열, 토큰 부분 문자열에 연결된 ID 및 원래 문자열에 대한 오프셋 매핑을 포함하는 토큰화 프로세스에서 생성된 토큰을 나타냅니다.

Tokenizer

Tokenizer는 파이프라인으로 작동합니다. 일부 원시 텍스트를 입력으로 처리하고 TokenizerResult 개체를 출력합니다.

TokenizerDecoder

디코더는 지정된 토큰 목록을 문자열에 병합할 책임이 있습니다.

TokenizerResult

인코딩은 Tokenizer의 출력을 나타냅니다.

Trainer

Trainer 은 모델을 학습시킬 책임이 있습니다. 줄/문장으로 피드한 다음 지정된 Model를 학습시킬 수 있습니다.

UpperCaseNormalizer

토큰라이저를 사용하여 처리하기 전에 문자열을 대문자 형식으로 정규화합니다.

WhiteSpace

단어 경계에서 텍스트를 분할하는 사전 토큰화기입니다. 단어는 알파벳, 숫자 및 밑줄 문자 집합입니다.

구조체

AddedToken

사용자가 기존 모델 어휘 위에 추가한 토큰을 나타냅니다. AddedToken은 다음과 같은 다양한 상황에서 수행해야 하는 동작을 지정하도록 구성할 수 있습니다.

  • 단일 단어와만 일치해야 하는지 여부
  • 왼쪽 또는 오른쪽에 WhiteSpace를 포함할지 여부
NormalizedString

정규화된 문자열과 원래 문자열에 대한 매핑을 포함합니다.

Progress

열거형

ProgressState

보고된 진행률의 상태를 나타냅니다.

대리자

ReportProgress