カテゴリ分類モデルのパフォーマンスを向上させる
お使いのモデルのパフォーマンスが要件を満たしていない場合は、いくつかのことを試してみてください。 これらのヒントは、モデルを微調整してその予測力を向上させるのに役立ちます。
より適切にラベル付けしたトレーニング データを追加する
正しくラベル付けされたトレーニング データが多いほど、モデルのパフォーマンスが向上します。 たとえば、はい/いいえラベルがあるとします。 使用するデータのほとんどでこの列が "はい" のみだった場合、おそらく、AI モデルはこのデータから多くを学習することはできません。 データが正しくラベル付けされていない場合、モデルはおそらく充分に学習しない場合があります。 正しくラベル付けされた例の少数のセット (おそらく 100 以下) から始めるのが理想的です。 そこから、例の数を 2 倍に増やし続け、毎回再トレーニングして、パフォーマンスの変化を記録できます。 一般的に言って、データが多いほど良いですが、データセットが大きくなるほど、データを追加することによるメリットは減少します。
その他のヒント
- トレーニング データにおけるタグの使用のバランスがとれていることを確認します。 例: 100 個のテキスト アイテムに 4 つのタグがあります。 最初の 2 つのタグ (tag1 と tag2) は 90 個のテキスト項目に使用されますが、他の 2 つ (tag3 および tag4) は残りの 10 個のテキスト項目でのみ使用されます。 バランスが取れていないと、モデルが tag3 または tag4 を正しく予測できない場合があります。
- モデルの使用目的と同様のデータを使用して、モデルをトレーニングしてください。