データ マイニングの準備のチェック リスト
データ マイニング アドインを使うと、モデルの作成およびテストをかなり容易に楽しく行うことができますが、反復可能で実用的な結果を得る必要がある場合は、十分な時間をかけて基本的なビジネス要件を明確にし、データの取得と準備を実行する必要があります。 ここでは、調査を計画するために役立つチェックリストを提供し、一般的な問題について説明します。
データ準備のチェック リスト
明確に定義された出力を特定しました。
結果の使用方法の計画を立てます。 モデルの種類が異なれば、出力も異なります。 タイム シリーズ モデルは、簡単に理解し、実施することができる将来のシリーズの値を生成します。 他のモデルは、最大限の価値を引き出すために、その分野の専門家によって分析される必要のある複雑なセットを生成します。
どのような出力が必要であるか。
出力を 1 つの列または値として、あるいは他の実用的な結果として定義できるか。
モデルが役に立つかどうかを判断する基準は何か。
これらの結果をどのように使用し、解釈するか。
期待される結果に新しい入力データをマップできるか。
入力データの意味、データ型、分布がわかっています。
ある程度の時間をかけてソース データについて調べ、理解しておきます。 モデルを調べる人が、どのような種類の入力データが使用されたかを把握していること、そして、データ型と可変性、バランスと品質の解釈方法を知っていることが重要です。
どれほどの量のデータがあるか。 モデリングを行うために十分なデータがあるか
それは膨大な量である必要はありません - 小さく、バランスが良くなる可能性があります。
データのソースは複数あるか 1 つだけであるか。
データは既に処理されていてクリーンであるか。 使用できる入力データがもっとあるか。
データを受け取る前に操作された方法 (データが切り捨てられたり、要約されたり、変換されたりする方法) を知っていますか?
トレーニングに使用できる結果の例が入力データに付随しているか。
データ整合性の現在のレベルと必要なレベルを理解しています。
データが不適切であると、モデルの品質が低くなる可能性があり、モデルを構築できない場合もあります。 データの分布と意味、そして、この状態になった経緯の両方をよく理解している必要があります。 ラベル付け、数値データ型の切り捨て、または集計によってデータを簡略化することが可能か適切なのかを理解する必要があります。
データ ラベル: 明確で正しいか。
データ型: 適切か、変更されているか。
不適切なデータを選別したか、クリーンアップしたか、または破棄したか。
重複がないことを確認したか。
不足値をどのように処理するか。 不足値に意味があるか。
ソースを検証して、インポート処理でエラーが発生した可能性があるかどうかを確認したか。
入力はどこに保存されているか。 入力はどの程度の期間、使用できるか。
データ辞書はあるか。 1 つ作成できるか。
データセットを結合した場合、同じデータを表す列が複数あるかどうかを確認したか。
ソース データの保存場所、出所、処理方法がわかっています。 処理は、必要に応じて繰り返すことができます。
1 回限りのデータ セットは実験に適していますが、モデルを運用環境に移行する場合は、クリーニング プロセスを運用データに適用する方法について事前に考える必要があります。 また、運用データがある場合は、それを取得する前に変更された可能性がある方法を知る必要があります。丸められたか、または要約された方法を確かに知る必要があります。
テストは反復可能である必要があるか。
データ分析をサポートする形式でデータを準備するときに、どのツールを使用するか。 それは自動化できるか、それとも、Excel で見直してクリーンアップする必要があるか。
データのソースとして別のシステムを使用する場合、適用されたフィルターをキャプチャし、追跡できるか。
データ処理フレームワークは、機械学習アルゴリズムを適用し、テストを実行し、結果を表示することができるか。
予測の望ましいきめ細かさについて合意し、そのような単位で出力できるようにデータが修正されています。
データを準備する前に結果のきめ細かさを決定します。たとえば、必要な売上予測は 1 日ごとか、四半期ごとかを決めます。 さまざまなレベルの集約を処理できるよう、同じデータについて複数の異なるデータ構造を設定することも検討します。
現在の測定の単位または時間の単位は何か。
どの単位を結果で使用するか。
すべての入力データに対して基本単位 (例: 日/時間/分/命令呼び出し) を定義できますか?
より上位の単位にロールアップする必要があるか。
カテゴリのラベル付けに一貫性があるか。 カテゴリを簡単に追加または削除できるか。
テスト設計が反復可能で再現可能です。
データへの影響を遡って調べることができるよう、結果を分析および検証する戦略と、データ スナップショットをキャプチャする計画を策定します。 ランダム シードを使用した場合、結果は微妙に異なる場合があります。 これにより、モデルを比較して検証することが難しくなる可能性があります。
データに対して多くのカスタム変更を加えた場合、次回モデルを構築する必要があるときにどうなるか。
入力を処理し、必要な出力を取得するために使用する必要のある手動プロシージャまたは承認済みプロセスが既に定義されているか。
モデルのシードを使用することにしたか。
自分たちにドメインのナレッジがあり結果を検証できるか、または、その分野の専門家に問い合わせて助言を得ることができます。
時間をかけて変数、モデル、および結果を検証します。 専門家の補助のもとで対話と結果を評価します。 ただし、仮定が証拠を覆さないようにしてください。 新しい結果、予期しなかった結果も受け入れるようにします。
ドメインのナレッジをデータのフィルター処理と入力のノイズの削減に役立てるために使用できるか。
ドメインの専門家は結果の解釈と理解を促し、改善点を提案することができるか。