テスト セットの微妙な差異
テスト セットは、機械学習のほとんどの側面に対するベスト プラクティスと考えられますが、まだ新しい分野であるため、正確な方法とタイミングは論争の対象になることがよくあります。 考慮すべき点をいくつか見ていきましょう。
テスト セットは誤解を招く可能性があります
テスト セットはオーバートレーニングを識別するのに役立ちますが、偽の信頼を与えることがあります。 具体的には、テスト セットは、現実の世界で目にするデータが反映されている場合にのみ役立ちます。 たとえば、テスト セットは非常に小さいため、現実の世界で見られる可能性のあるさまざまなデータの代表とは言えません。 テスト データセットの良さは、ソースと同程度でしかありません。 テスト データセットのソースに偏りがある場合、メトリックには実際の動作が反映されません。
たとえば、救助件数と犬が訓練を始めた年齢の間の関係を見つけようとしているとします。 テスト セットの犬が 3 頭だけであった場合、これらの犬は、実際の環境で働いているさまざまな犬を適切に表していない可能性があります。 また、子犬の扱い方を知らない 1 人のブリーダーからテスト セットを取得したとします。 このモデルでは年取った犬が訓練に最適であることが予測され、テスト データセットでそれが確認されますが、実際には他のトレーナーが多くの若い犬で成功しているかもしれません。
テスト セットは無料ではない
トレーニング データの量が多いほど、モデルがオーバーフィットする可能性が低くなることを既に見ました。 同様に、テスト セットが大きいほど、テスト結果を信頼できるようになると思います。 しかし、通常は、有限の量のデータを処理し、データポイントをトレーニング セットとテスト セットの両方に置くことはできません。 つまり、テスト セットが大きくなるほど、トレーニング データセットは小さくなり、その逆もいえます。 テスト データセットにどの程度のデータを使用する必要があるかは、個々の状況によって異なり、使用可能なデータの量に応じて、10-50% の間が比較的一般的です。
トレーニングとテストが唯一のアプローチではない
トレーニングとテストは一般的ですが、広く使用されている唯一の方法ではないことに注意してください。 別のより一般的な 2 つの方法は、"ホールドアウト アプローチ" と "統計的アプローチ" の方法です。
ホールドアウト アプローチ
ホールドアウト アプローチは、トレーニングとテストに似ていますが、データセットを 2 つに分割するのではなく、"トレーニング"、"テスト" ("検証" とも呼ばれます)、"ホールドアウト" という 3 つに分割します。トレーニング データセットとテスト データセットは、前述のとおりです。 ホールドアウト データセットは、実際の使用のためにモデルをデプロイする準備ができたときに 1 回だけ使われるテスト セットの一種です。 つまり、さまざまな種類のトレーニング法、さまざまな種類のモデルなどによる実験が終了するまでは使用されません。
このアプローチは、通常、さまざまなモデルとトレーニング法で実験するという事実に対処します。 たとえば、モデルを適合させ、テスト データセットでうまくいかないことがわかったら、トレーニング対象のモデルのいくつかの側面を変更し、適切な結果が得られるまで再び試します。 つまり、トレーニング データセットでの通常のトレーニングと同じように、特定のデータ セットに対応するようにモデルを意図的に変更します。 これにより、テスト データセットで動作するには実質的にトレーニングされすぎたモデルが作成される可能性があります。
3 番目のデータセットのアイデアでは、このこともテストできます。 このアプローチは、データを 3 つに分割することを意味します。つまり、少ないトレーニング データから始めます。 使用するデータが大量にない場合、このアプローチにより、優れたモデルを取得する能力が低下する可能性があります。
統計的アプローチ
多くの場合、統計が基になっている比較的単純なモデルでは、テスト データセットは必要ありません。 代わりに、モデルがどの程度オーバーフィットしているかを、"P 値" という統計的有意性として直接計算できます。
これらの統計的手法は強力でよく確立されており、最新の科学の基盤となります。 その利点は、トレーニング セットを分割する必要がなく、モデルを信頼できる程度をはるかに正確に把握できることです。 たとえば、0.01 という P 値は、現実世界では実際に存在しない関係がモデルによって検出される可能性が非常に小さいことを意味します。 これに対し、0.5 という P 値は、モデルがトレーニング データでは良いように見えるかもしれませんが、現実ではコインを投げるのと変わらないことを意味します。
これらのアプローチの欠点は、学習に使ってきた線形回帰モデルなど、特定の種類のモデルにだけ簡単に適用できることです。 最も単純なモデルを除いて、これらの計算は適切に実行するのが非常に複雑であるため、現在のコースでは対象になっていません。 また、データの選択に関しても同じ制限があり、トレーニング データに偏りがある場合、P 値は誤解を招くものになります。