Microsoft.ML.Tokenizers Obor názvů

Reference

Důležité

Některé informace platí pro předběžně vydaný produkt, který se může zásadně změnit, než ho výrobce nebo autor vydá. Microsoft neposkytuje žádné záruky, výslovné ani předpokládané, týkající se zde uváděných informací.

Třídy

Bpe	Představuje model kódování páru bajtů.
BpeDecoder	Umožňuje dekódovat původní BPE spojením všech tokenů a následným nahrazením přípony používané k identifikaci konce slov prázdnými znaky.
BpeTrainer	Školitel Bpe zodpovědný za trénování modelu Bpe.
EnglishRoberta	Představuje model kódování páru bajtů.
LowerCaseNormalizer	Před zpracováním pomocí tokenizátoru normalizujte řetězec na malá písmena.
Model	Představuje model použitý během tokenizace (například BPE, Word Piece nebo Unigram).
Normalizer	Před zpracováním pomocí tokenizátoru normalizujte řetězec.
PreTokenizer	Základní třída pro všechny třídy pre-tokenizers. PreTokenizer je zodpovědný za provedení kroku před segmentací.
RobertaPreTokenizer	Pre-tokenizer pro Roberta English tokenizer.
Split	Toto rozdělení obsahuje základní token rozdělení a také jeho posuny v původním řetězci. Tyto posuny jsou v referenční hodnotě `original` . Obsahuje také všechny `Token` přidružené k aktuálnímu rozdělení.
Token	Představuje token vygenerovaný procesem tokenizace obsahující podřetězce tokenu, ID přidružené k podřetězci tokenu a mapování posunu na původní řetězec.
Tokenizer	Tokenizátor funguje jako kanál. Zpracovává nezpracovaný text jako vstup a výstupem objektu TokenizerResult.
TokenizerDecoder	Dekodér zodpovídá za sloučení daného seznamu tokenů v řetězci.
TokenizerResult	Kódování představuje výstup tokenizátoru.
Trainer	Zodpovídá `Trainer` za vytrénování modelu. Podáváme ho řádky/větami a pak může danou `Model`.
UpperCaseNormalizer	Před zpracováním pomocí tokenizátoru normalizujte řetězec na velká písmena.
WhiteSpace	Pre-tokenizer, který rozděluje text na hranici slova. Slovo je sada znaků abecedy, čísel a podtržítka.

Struktury

AddedToken

Představuje token přidaný uživatelem nad stávající slovník modelu. AddedToken je možné nakonfigurovat tak, aby určoval chování, které by mělo mít v různých situacích, jako jsou:

Jestli se mají shodovat jenom s jedním slovem
Jestli se mají na levé nebo pravé straně zahrnout nějaké prázdné znaky

NormalizedString

Obsahuje normalizovaný řetězec a mapování na původní řetězec.

Progress

Výčty

ProgressState

Představuje stav nahlášeného průběhu.

Delegáti

ReportProgress

Sdílet prostřednictvím

Microsoft.ML.Tokenizers Obor názvů

Třídy

Struktury

Výčty

Delegáti

Další materiály