2 クラス デシジョン ジャングル
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
デシジョン ジャングル アルゴリズムを使用して 2 クラス分類モデルを作成します
カテゴリ: Machine Learning/ モデルの初期化 / 分類
注意
適用対象: Machine Learning Studio (クラシック) のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) の 2 クラス の Decision Supervis モジュールを使用して、意思決定のペットと呼ばれる教師ありアンサンブル学習アルゴリズムに基づく機械学習モデルを作成する方法について説明します。
2 クラス の Decision Jungle モジュールは、トレーニングされていない分類子を返します。 次に、[モデルのトレーニング] または [モデルの調整] ハイパーパラメーターを使用して、ラベル付けされたトレーニング データ セットでこのモデルをトレーニングします。 その後、トレーニング済みのモデルは、予測に使用できます。
デシジョン の詳細
意思決定の動物は 、意思決定フォレストに対する最近 の拡張です。 デシジョン ジャングルは、決定の無閉路有向グラフ (DAG) のアンサンブルで構成されます。
デシジョン ジャングルには次のような利点があります。
ツリー ブランチのマージを許可することで、デシジョン DAG は通常、トレーニング時間がやや長くなりますが、デシジョン ツリーよりもメモリフットプリントが小さく、一般化のパフォーマンスが向上します。
デシジョン ジャングルは、非線形の決定境界を表す非パラメーター型のモデルです。
統合された特徴選択と分類が行われ、ノイズの多い特徴が存在する状況での回復性がある。
ヒント
この機械学習アルゴリズムの背後にある調査の詳細については、「 Decision Jungles: Compact and Rich Models for Classification (分類のためのコンパクトでリッチ なモデル)」(ダウンロード可能な PDF) を参照してください。
Decision Jungle を構成Two-Class方法
Studio ( クラシック) の実験に 2 クラス の Decision Jungle モジュールを追加します。
[Resampling method]\(再サンプリング方法\) で、個々のツリーの作成に使用される方法を選択します。 [Bagging]\(バギング\) または [レプリケート] から選択できます。
[バグ]: このオプションを選択すると、バグリング (ブートストラップ集計とも呼ばれる) を使用できます。
決定の動物の各ツリーは、予測としてハウス分布を出力します。 アグリゲーションとは、個々のツリーから返された全ガウス分布の組み合わせによって得られるガウス分布の融合体のモーメントと最初の 2 つのモーメントが一致するガウス分布を見つけ出すことです。
[レプリケート] : レプリケーションでは、各ツリーがまったく同じ入力データでトレーニングされます。 それぞれのツリー ノードでどの分割述語が使用されるかの決定はランダムなままであり、ツリーは多様になります。
[Create trainer mode](トレーナー モードの作成) オプションを設定して、モデルのトレーニング方法を指定します。
[ 決定 DAG の数] で、アンサンブルで作成できるグラフの最大数を指定します。
[ 決定 DAG の最大深度] で、各グラフの最大深度を指定します。
[ 決定 DAG の最大幅] で、各グラフの最大幅を指定します。
[ Number of optimization steps per decision DAG layer]/(決定 DAG レイヤーあたりの最適化ステップ数)で、各 DAG の構築時に実行するデータに対する反復回数を示します。
[カテゴリ特徴 の不明な値を許可する ] オプションを選択して、テストデータまたは検証データで不明な値のグループを作成します。
これを選択解除した場合、モデルはトレーニング データに含まれる値のみを受け入れることができます。 前者の場合、既知の値に対するモデルの精度は低下するものの、新しい (不明な) 値に対する予測精度は向上する可能性があります。
タグ付けされたデータセットを実験に追加し、いずれかのトレーニング モジュールを接続します。
[Create trainer mode]\(トレーナー モードの作成\) を [Single Parameter]\(単一パラメーター\) に設定した場合は、モデルのトレーニング モジュールを使用します。
[Create trainer mode]\(トレーナー モードの作成\) を [Parameter Range]\(パラメーター範囲\) を設定する場合は、[Tune Model Hyperparameters]\(モデルのハイパーパラメーターの調整\) モジュールを使用します。
注意
パラメーター範囲を [モデルのトレーニング] に渡すと、パラメーター範囲リストの 1 番目の値のみが使用されます。
[Tune Model Hyperparameters]\(モデルのハイパーパラメーターの調整\) モジュールによって、パラメーターごとに設定の範囲が求められているとき、それに単一のパラメーター値セットを渡した場合、それらの値は無視され、学習器の既定値が使用されます。
[Parameter Range]\(パラメーター範囲\) オプションを選択し、任意のパラメーターに単一の値を入力した場合、指定した単一の値はスイープ全体で使用されます。これは、他のパラメーターが値の範囲の中で変化する場合でも同様です。
結果
トレーニングの完了後:
- スコアリングにモデルを使用するには、それをモデルのスコア付けに接続し、新しい入力例の値を予測します。
例
機械学習で意思決定の動物がどのように使用されるのかの例については、次のAzure AI Gallery。
- バイナリ分類子の比較: いくつかのアルゴリズムを使用し、その長所と短所について説明します。
テクニカル ノート
このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。
使用上のヒント
データが限られている場合、またはモデルのトレーニングに費やされた時間を最小限に抑える場合は、これらの設定をお試しください。
制限付きトレーニング セット
トレーニング セットが小さい場合:
- 多数の (たとえば、20 を超える) デシジョン DAG を使用してデシジョン ジャングルを作成する。
- バギング オプションを使用して再サンプリングする。
- DAG 層ごとに多数の (たとえば、10,000 を超える) 最適化ステップを指定する。
トレーニング時間の制限
トレーニング セットが大きいが、トレーニング時間が制限されている場合:
- より少ない (たとえば、5 ~ 10 の) デシジョン DAG を使用して、デシジョン ジャングルを作成します。
- レプリケート オプションを使用して再サンプリングする。
- DAG 層ごとにより少ない (たとえば、2,000 未満の) 最適化ステップを指定する。
モジュールのパラメーター
名前 | Range | Type | Default | 説明 |
---|---|---|---|---|
再サンプリング方法 | Any | ResamplingMethod | バギング | 再サンプリング方法を選択します |
デシジョン DAG の数 | >=1 | Integer | 8 | アンサンブルに作成するデシジョン グラフの数を指定します。 |
デシジョン DAG の最大深度 | >=1 | Integer | 32 | アンサンブル内のデシジョン グラフの最大の深さを指定します。 |
デシジョン DAG の最大幅 | >= 8 | Integer | 128 | アンサンブル内のデシジョン グラフの最大幅を指定します。 |
デシジョン DAG 層ごとの最適化ステップの数 | >= 1000 | Integer | 2048 | デシジョン グラフの各レベルの最適化に使用するステップの数を指定します。 |
カテゴリ型の特徴の不明な値を許可する | Any | Boolean | True | 既存のカテゴリ型の特徴の不明な値を新しい追加の特徴にマップできるかどうかを示します |
出力
名前 | 型 | 説明 |
---|---|---|
未トレーニング モデル | ILearner インターフェイス | 未トレーニング二項分類モデル |