ML.NET モデルを改善する
ML.NET モデルを改善する方法について説明します。
問題を再フレーム化する
場合によっては、モデルの改善は、モデルのトレーニングに使用されるデータや手法とは関係ない場合があります。 代わりに、間違った質問が行われているだけかもしれません。 さまざまな角度から問題を見て、データを活用して潜在的な指標と隠れた関係を抽出して質問を絞り込みます。
その他のデータ サンプルを提供する
人間と同様に、より多くのトレーニング アルゴリズムが得られるほど、パフォーマンスが向上する可能性が高くなります。 モデルのパフォーマンスを向上させる 1 つの方法は、より多くのトレーニング データ サンプルをアルゴリズムに提供することです。 学習するデータが多いほど、正しく識別できるケースが多くなります。
データにコンテキストを追加する
1 つのデータ ポイントの意味は、解釈が困難な場合があります。 データ ポイントに関するコンテキストを構築すると、アルゴリズムと主題の専門家がより良い意思決定を行うのに役立ちます。 たとえば、家に3つの寝室があるという事実は、それ自体がその価格を十分に示していません。 ただし、コンテキストを追加し、平均年齢が 38 歳の主要な都市圏外の郊外にあることがわかっている場合、平均世帯収入は $80,000 で、学校は上位 20 パーセンタイルに含まれている場合は、アルゴリズムの決定に基づいてより多くの情報が得られます。 このコンテキストはすべて、特徴として機械学習モデルへの入力として追加できます。
意味のあるデータと機能を使用する
より多くのデータ サンプルと特徴はモデルの精度を向上させるのに役立ちますが、すべてのデータと特徴が意味を持つわけではないため、ノイズが発生する可能性もあります。 したがって、アルゴリズムによって行われた決定に最も大きな影響を与える特徴を理解することが重要です。 順列特徴量の重要度 (PFI) などの手法を使用すると、これらの顕著な特徴を特定するのに役立つだけでなく、モデルを説明するのに役立つだけでなく、トレーニング プロセスに入るノイズの多い特徴の量を減らすための特徴選択方法として出力を使用することもできます。
PFI の使用の詳細については、「順列特徴量の重要度を使用したモデル予測の説明」を参照してください。
クロス検証
クロス検証は、データを複数のパーティションに分割し、これらのパーティションで複数のアルゴリズムをトレーニングするトレーニングおよびモデル評価手法です。 この手法では、トレーニング プロセスからデータを保持することで、モデルの堅牢性が向上します。 データが制約された環境では、見えない観察のパフォーマンスが向上するだけでなく、データセットが小さいモデルをトレーニングするための効果的なツールになる可能性があります。
ML.NETでクロス検証を使用する方法
ハイパーパラメーターのチューニング
機械学習モデルのトレーニングは、反復的で探索的なプロセスです。 たとえば、K-Means アルゴリズムを使用してモデルをトレーニングするときのクラスターの最適な数は何ですか? 答えは、データの構造などの多くの要因に依存します。 その数値を見つけるには、k に対して異なる値を実験し、パフォーマンスを評価して最適な値を判断する必要があります。 最適なモデルを見つけるためにトレーニング プロセスをガイドするパラメーターをチューニングする方法は、ハイパーパラメーター 調整と呼ばれます。
別のアルゴリズムを選択する
回帰や分類などの機械学習タスクには、さまざまなアルゴリズムの実装が含まれています。 解決しようとしている問題とデータの構造化方法が現在のアルゴリズムに適していない場合があります。 このような場合は、タスクに別のアルゴリズムを使用して、データからより良い学習を行うかどうかを確認することを検討してください。
次のリンクでは、を選択するアルゴリズムに関するより
.NET