データ サイエンス プロセスを理解する
データから分析情報を抽出する一般的な方法は、データを視覚化することです。 複雑なデータセットがある場合は常に、詳細を確認し、データ内の入り組んだパターンを見つけることをお勧めします。
データ サイエンティストは、機械学習モデルをトレーニングして、データ内のパターンを見つけることができます。 これらのパターンを使用して、新しい分析情報または予測を生成できます。 たとえば、今後 1 週間に売れることが予期される製品の数を予測できます。
モデルのトレーニングは重要ですが、データ サイエンス プロジェクトのタスクはこれのみではありません。 一般的なデータ サイエンス プロセスを調べる前に、トレーニングできる一般的な機械学習モデルを調べましょう。
一般的な機械学習モデルを調べる
機械学習の目的は、大量のデータに存在するパターンを識別できるようにモデルをトレーニングすることです。 その後、そのパターンを使って、アクションを実行できる新しい分析情報を提供する予測を行うことができます。
機械学習には無限の可能性があるように見えるかもしれないので、まず 4 つの一般的な機械学習モデルの種類を理解しましょう。
- 分類: カテゴリ値を予測します (例: 顧客がチャーンできるかどうか)。
- 回帰: 数値を予測します (例: 製品の価格)。
- クラスタリング: 類似のデータ ポイントをクラスターまたはグループにグループ化します。
- 時系列予測: 時系列データに基づいて将来の数値を予測します (例: 今後の月の予想売上)。
トレーニングする必要がある機械学習モデルの種類を決めるには、まず、ビジネス上の問題と利用できるデータを理解する必要があります。
データ サイエンス プロセスを理解する
機械学習モデルをトレーニングするプロセスには、通常、次のステップが含まれます。
- 問題を定義する: ビジネス ユーザーやアナリストと共に、モデルで予測する必要がある内容と、どのようなときにモデルは成功かを決めます。
- データを取得する: データ ソースを見つけ、レイクハウスにデータを格納してアクセスできるようにします。
- データを準備する: レイクハウスからノートブックにデータを読み取ることによって探索します。 モデルの要件に基づいてデータをクリーンアップして変換します。
- モデルのトレーニング: MLflow で実験を追跡することにより、試行錯誤に基づいてアルゴリズムとハイパーパラメーターの値を選びます。
- 分析情報を生成する: モデル バッチ スコアリングを使用して、要求された予測を生成します。
データ科学者のほとんどの時間は、データの準備とモデルのトレーニングに費やされます。 データを準備する方法と、モデルをトレーニングするために選ぶアルゴリズムは、モデルの成功を左右する可能性があります。
選んだ言語で利用できるオープンソース ライブラリを使って、モデルの準備とトレーニングを行うことができます。 たとえば、Python を使う場合は、Pandas と Numpy を使ってデータを準備し、Scikit-Learn、PyTorch、SynapseML などのライブラリを使ってモデルをトレーニングできます。
実験するときは、トレーニングしたさまざまなモデルのすべてについて、その概要を保持する必要があります。 選択がモデルの成功にどのように影響するかを理解する必要があります。 Microsoft Fabric で MLflow を使用して実験を追跡することにより、トレーニングしたモデルを簡単に管理およびデプロイできます。