カスタム感情分析用にデータを準備する方法
カスタム感情分析モデルを作成するには、それをトレーニングするための高品質なデータが必要です。 この記事では、スキーマの定義と共に、データの選択と準備を行う方法について説明します。 スキーマの定義は、プロジェクト開発ライフサイクルの最初の手順であり、実行時、モデルにテキストを分類させるクラスを定義します。
データの選択
モデルをトレーニングするデータの品質は、モデルのパフォーマンスに大きく影響します。
ドメインの問題空間を反映した実際のデータを使用して、モデルを効果的にトレーニングします。 合成データを使用すると、最初のモデル トレーニング プロセスを加速できますが、実際のデータとは異なる可能性が高く、使用したときにモデルから得られる効果が少なくなることがあります。
実際の分布から大きく離れることなく、可能な限りデータ分散のバランスを取ります。
モデルのオーバーフィットを回避するために、可能な限り多様なデータを使用します。 トレーニング データの多様性が低いと、実際のデータに存在しない場合がある偽の相関関係をモデルが学習する可能性があります。
データ内のドキュメントが重複しないようにします。 重複するデータは、トレーニング プロセス、モデル メトリック、モデルのパフォーマンスに悪影響を及ぼす可能性があります。
データの取得場所を検討します。 1 人の人物、1 つの部署、またはシナリオの一部からデータを収集する場合は、モデルが学ぶべき重要な多様性が欠落している可能性があります。
Note
ドキュメントで複数の言語が使われている場合は、プロジェクトの作成で [複数言語] オプションを選択し、[言語] オプションをドキュメントの主要な言語に設定します。
データ準備
カスタム感情分析プロジェクトを作成するための前提条件として、トレーニング データをストレージ アカウントの BLOB コンテナーにアップロードする必要があります。 トレーニング ドキュメントの作成とアップロードは、Azure から直接行うことも、Azure Storage Explorer ツールを使って行うこともできます。 Azure Storage Explorer を使用すると、より多くのデータをすばやくアップロードできます。
カスタム テキスト分類に使用できるのは、.txt
カスタム テキストのドキュメント。 データが他の形式の場合は、CLUtils 解析コマンドを使用してファイル形式を変更できます。
テスト セット
テスト セットを定義するときは、トレーニング セットに存在しないドキュメントの例を必ず含めてください。 テスト セットの定義は、モデルのパフォーマンスを計算するための重要な手順です。 また、テスト セットに、プロジェクトで使用されるすべてのクラスを表すドキュメントが含まれていることを確認します。
次のステップ
まだ作成していない場合は、カスタム感情分析プロジェクトを作成します。 カスタム感情分析を初めて使用する場合は、クイックスタートに従ってサンプル プロジェクトを作成することを検討してください。 また、プロジェクトの作成に必要なことの詳細については、プロジェクトの要件に関する記事を参照してください。