次の方法で共有


Tokenizer クラス

定義

トークナイザーはパイプラインとして機能します。 生のテキストを入力として処理し、TokenizerResult オブジェクトを出力します。

public class Tokenizer
type Tokenizer = class
Public Class Tokenizer
継承
Tokenizer

コンストラクター

Tokenizer(Model, PreTokenizer, Normalizer)

新しい Tokenizer オブジェクトを作成します。

プロパティ

Decoder

トークナイザーで使用されているデコーダーを取得または設定します。

Model

トークナイザーで使用されているモデルを取得します。

Normalizer

トークナイザーで使用されているノーマライザーを取得または設定します。

PreTokenizer

トークナイザーで使用される PreTokenizer を取得または設定します。

メソッド

Decode(IEnumerable<Int32>, Boolean)

指定した ID をデコードし、文字列に戻します。

Decode(Int32, Boolean)

ID をマップされたトークンにデコードします。

Encode(String)

オブジェクトに入力テキストをエンコードします。トークン リスト、トークン ID、トークン オフセット マッピングがあります。

IsValidChar(Char)

トークナイザーはパイプラインとして機能します。 生のテキストを入力として処理し、TokenizerResult オブジェクトを出力します。

TrainFromFiles(Trainer, ReportProgress, String[])

入力ファイルを使用してトークナイザー モデルをトレーニングします。

適用対象