次の方法で共有


Bpe クラス

定義

バイト ペア エンコード モデルを表します。

public sealed class Bpe : Microsoft.ML.Tokenizers.Model
type Bpe = class
    inherit Model
Public NotInheritable Class Bpe
Inherits Model
継承

コンストラクター

Bpe()

トークン化ボキャブラリを使用しない新しい Bpe モデル オブジェクトを構築します。 このコンストラクターは、トレーニング シナリオでのみ役立ちます。

Bpe(String, String, String, String, String)

文のトークン化とトークナイザーのトレーニングに使用する新しい Bpe モデル オブジェクトを構築します。

プロパティ

ContinuingSubwordPrefix

別のサブワードの背後にのみ存在するサブワードで使用する省略可能なプレフィックス

Decoder

Bpe デコーダー オブジェクトを取得します。

EndOfWordSuffix

特徴付けおよび単語の終わりを示す省略可能なサフィックス

FuseUnknownTokens

複数の不明なトークンを許可するかどうかを取得または設定します。

UnknownToken

不明なトークンを取得または設定します。 不明な文字が発生したときに使用される不明なトークン

メソッド

GetTrainer()

モデルのトレーニングに使用するトレーナー オブジェクトを取得し、ボキャブラリを生成してデータをマージします。

GetVocab()

ID へのディクショナリ マッピング トークンを取得します。

GetVocabSize()

トークンを ID にマップするディクショナリ サイズを取得します。

IdToString(Int32, Boolean)

トークン化された ID をトークンにマップします。

IdToToken(Int32, Boolean)

トークン化された ID をトークンにマップします。

IsValidChar(Char)

バイト ペア エンコード モデルを表します。

Save(String, String)

モデル データをボキャブラリに保存し、ファイルをマージします。

Tokenize(String)

シーケンス文字列をトークンの一覧にトークン化します。

TokenToId(String)

トークンをトークン化された ID にマップします。

適用対象