Microsoft.ML.Tokenizers 名前空間
重要
一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。
クラス
Bpe |
バイト ペア エンコード モデルを表します。 |
BpeDecoder |
すべてのトークンを結合し、単語の終わりを空白で識別するために使用されるサフィックスを置き換えることによって、元の BPE のデコードを許可します |
BpeTrainer |
Bpe モデルのトレーニングを担当する Bpe トレーナー。 |
EnglishRoberta |
バイト ペア エンコード モデルを表します。 |
LowerCaseNormalizer |
トークナイザーで処理する前に、文字列を小文字に正規化します。 |
Model |
トークン化中に使用されるモデルを表します (BPE、Word Piece、Unigram など)。 |
Normalizer |
トークナイザーで処理する前に、文字列を正規化します。 |
PreTokenizer |
すべての事前トークナイザー クラスの基底クラス。 PreTokenizer は、事前セグメント化ステップの実行を担当します。 |
RobertaPreTokenizer |
Roberta English トークナイザーの事前トークナイザー。 |
Split |
この分割には、基になる分割トークンと、元の文字列内のオフセットが含まれます。 これらのオフセットは参照内 |
Token |
トークン部分文字列、トークン部分文字列に関連付けられた ID、および元の文字列へのオフセット マッピングを含むトークン化プロセスから生成されたトークンを表します。 |
Tokenizer |
トークナイザーはパイプラインとして機能します。 生のテキストを入力として処理し、TokenizerResult オブジェクトを出力します。 |
TokenizerDecoder |
デコーダーには、指定されたトークンの一覧を文字列にマージする必要があります。 |
TokenizerResult |
Encoding はトークナイザーの出力を表します。 |
Trainer |
には |
UpperCaseNormalizer |
トークナイザーで処理する前に、文字列を大文字に正規化します。 |
WhiteSpace |
単語の境界でテキストを分割する事前トークナイザー。 単語は、アルファベット、数字、アンダースコアの文字のセットです。 |
構造体
AddedToken |
既存のモデル ボキャブラリの上にユーザーによって追加されたトークンを表します。 AddedToken は、次のようなさまざまな状況で必要な動作を指定するように構成できます。
|
NormalizedString |
正規化された文字列と、元の文字列へのマッピングが含まれます。 |
Progress |
列挙型
ProgressState |
報告された進行状況の状態を表します。 |
代理人
ReportProgress |