Microsoft.ML.Tokenizers 名前空間

リファレンス

重要

一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。

クラス

Bpe	バイトペアエンコードモデルを表します。
BpeDecoder	すべてのトークンを結合し、単語の終わりを空白で識別するために使用されるサフィックスを置き換えることによって、元の BPE のデコードを許可します
BpeTrainer	Bpe モデルのトレーニングを担当する Bpe トレーナー。
EnglishRoberta	バイトペアエンコードモデルを表します。
LowerCaseNormalizer	トークナイザーで処理する前に、文字列を小文字に正規化します。
Model	トークン化中に使用されるモデルを表します (BPE、Word Piece、Unigram など)。
Normalizer	トークナイザーで処理する前に、文字列を正規化します。
PreTokenizer	すべての事前トークナイザークラスの基底クラス。 PreTokenizer は、事前セグメント化ステップの実行を担当します。
RobertaPreTokenizer	Roberta English トークナイザーの事前トークナイザー。
Split	この分割には、基になる分割トークンと、元の文字列内のオフセットが含まれます。これらのオフセットは参照内 `original` にあります。また、現在の分割に関連付けられているも `Token` のも含まれます。
Token	トークン部分文字列、トークン部分文字列に関連付けられた ID、および元の文字列へのオフセットマッピングを含むトークン化プロセスから生成されたトークンを表します。
Tokenizer	トークナイザーはパイプラインとして機能します。生のテキストを入力として処理し、TokenizerResult オブジェクトを出力します。
TokenizerDecoder	デコーダーには、指定されたトークンの一覧を文字列にマージする必要があります。
TokenizerResult	Encoding はトークナイザーの出力を表します。
Trainer	には `Trainer` 、モデルをトレーニングする責任があります。それを行/文でフィードし、指定 `Model`されたをトレーニングできます。
UpperCaseNormalizer	トークナイザーで処理する前に、文字列を大文字に正規化します。
WhiteSpace	単語の境界でテキストを分割する事前トークナイザー。単語は、アルファベット、数字、アンダースコアの文字のセットです。

構造体

既存のモデルボキャブラリの上にユーザーによって追加されたトークンを表します。 AddedToken は、次のようなさまざまな状況で必要な動作を指定するように構成できます。

1 つの単語のみと一致させる必要があるかどうか
WhiteSpace を左または右に含めるかどうか

NormalizedString

正規化された文字列と、元の文字列へのマッピングが含まれます。

Progress

列挙型

報告された進行状況の状態を表します。

代理人