Microsoft.ML.Tokenizers Obor názvů
Důležité
Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.
Třídy
Bpe |
Představuje model kódování páru bajtů. |
BpeDecoder |
Umožňuje dekódovat původní BPE spojením všech tokenů a následným nahrazením přípony používané k identifikaci konce slov prázdnými znaky. |
BpeTrainer |
Školitel Bpe zodpovědný za trénování modelu Bpe. |
EnglishRoberta |
Představuje model kódování páru bajtů. |
LowerCaseNormalizer |
Před zpracováním pomocí tokenizátoru normalizujte řetězec na malá písmena. |
Model |
Představuje model použitý během tokenizace (například BPE, Word Piece nebo Unigram). |
Normalizer |
Před zpracováním pomocí tokenizátoru normalizujte řetězec. |
PreTokenizer |
Základní třída pro všechny třídy pre-tokenizers. PreTokenizer je zodpovědný za provedení kroku před segmentací. |
RobertaPreTokenizer |
Pre-tokenizer pro Roberta English tokenizer. |
Split |
Toto rozdělení obsahuje základní token rozdělení a také jeho posuny v původním řetězci. Tyto posuny jsou v referenční hodnotě |
Token |
Představuje token vygenerovaný procesem tokenizace obsahující podřetězce tokenu, ID přidružené k podřetězci tokenu a mapování posunu na původní řetězec. |
Tokenizer |
Tokenizátor funguje jako kanál. Zpracovává nezpracovaný text jako vstup a výstupem objektu TokenizerResult. |
TokenizerDecoder |
Dekodér zodpovídá za sloučení daného seznamu tokenů v řetězci. |
TokenizerResult |
Kódování představuje výstup tokenizátoru. |
Trainer |
Zodpovídá |
UpperCaseNormalizer |
Před zpracováním pomocí tokenizátoru normalizujte řetězec na velká písmena. |
WhiteSpace |
Pre-tokenizer, který rozděluje text na hranici slova. Slovo je sada znaků abecedy, čísel a podtržítka. |
Struktury
AddedToken |
Představuje token přidaný uživatelem nad stávající slovník modelu. AddedToken je možné nakonfigurovat tak, aby určoval chování, které by mělo mít v různých situacích, jako jsou:
|
NormalizedString |
Obsahuje normalizovaný řetězec a mapování na původní řetězec. |
Progress |
Výčty
ProgressState |
Představuje stav nahlášeného průběhu. |
Delegáti
ReportProgress |