次の方法で共有


Microsoft.ML.Tokenizers 名前空間

クラス

Bpe

バイト ペア エンコード モデルを表します。

BpeDecoder

すべてのトークンを結合し、単語の終わりを空白で識別するために使用されるサフィックスを置き換えることによって、元の BPE のデコードを許可します

BpeTrainer

Bpe モデルのトレーニングを担当する Bpe トレーナー。

EnglishRoberta

バイト ペア エンコード モデルを表します。

LowerCaseNormalizer

トークナイザーで処理する前に、文字列を小文字に正規化します。

Model

トークン化中に使用されるモデルを表します (BPE、Word Piece、Unigram など)。

Normalizer

トークナイザーで処理する前に、文字列を正規化します。

PreTokenizer

すべての事前トークナイザー クラスの基底クラス。 PreTokenizer は、事前セグメント化ステップの実行を担当します。

RobertaPreTokenizer

Roberta English トークナイザーの事前トークナイザー。

Split

この分割には、基になる分割トークンと、元の文字列内のオフセットが含まれます。 これらのオフセットは参照内 original にあります。 また、現在の分割に関連付けられているも Token のも含まれます。

Token

トークン部分文字列、トークン部分文字列に関連付けられた ID、および元の文字列へのオフセット マッピングを含むトークン化プロセスから生成されたトークンを表します。

Tokenizer

トークナイザーはパイプラインとして機能します。 生のテキストを入力として処理し、TokenizerResult オブジェクトを出力します。

TokenizerDecoder

デコーダーには、指定されたトークンの一覧を文字列にマージする必要があります。

TokenizerResult

Encoding はトークナイザーの出力を表します。

Trainer

には Trainer 、モデルをトレーニングする責任があります。 それを行/文でフィードし、指定 Modelされた をトレーニングできます。

UpperCaseNormalizer

トークナイザーで処理する前に、文字列を大文字に正規化します。

WhiteSpace

単語の境界でテキストを分割する事前トークナイザー。 単語は、アルファベット、数字、アンダースコアの文字のセットです。

構造体

AddedToken

既存のモデル ボキャブラリの上にユーザーによって追加されたトークンを表します。 AddedToken は、次のようなさまざまな状況で必要な動作を指定するように構成できます。

  • 1 つの単語のみと一致させる必要があるかどうか
  • WhiteSpace を左または右に含めるかどうか
NormalizedString

正規化された文字列と、元の文字列へのマッピングが含まれます。

Progress

列挙型

ProgressState

報告された進行状況の状態を表します。

代理人

ReportProgress