データ サイエンスのエンド ツー エンド シナリオ: 概要とアーキテクチャ
この一連のチュートリアルでは、Fabric データ サイエンス エクスペリエンスのエンド ツー エンドのサンプル シナリオを示します。 データ インジェスト、クレンジング、準備から機械学習モデルのトレーニング、分析情報の生成までの各手順を実装し、Power BI などの視覚化ツールを使用してこれらの分析情報を使用します。
Microsoft Fabric を初めて使用する場合は、「Microsoft Fabric とは 」を参照してください。.
紹介
データ サイエンス プロジェクトのライフサイクルには、通常、次の手順が (多くの場合、反復的に) 含まれます。
- ビジネスの理解
- データの取得
- データの探索、クレンジング、準備、視覚化
- モデルのトレーニングと実験の追跡
- モデルのスコア付けと分析情報の生成。
各ステージの目標と成功基準は、コラボレーション、データ共有、ドキュメントによって異なります。 Fabric データ サイエンス エクスペリエンスは、コラボレーション、データの取得、共有、およびシームレスな方法での使用を可能にする複数のネイティブ構築機能で構成されています。
これらのチュートリアルでは、銀行で 10,000 人の顧客のチャーン状態を含むデータセットを探索、クリーンアップ、変換するタスクを与えられたデータ サイエンティストの役割を担います。 次に、機械学習モデルを構築して、離れる可能性が高い銀行の顧客を予測します。
次のアクティビティを実行する方法について説明します。
- データ サイエンスシナリオには Fabric ノートブックを使用します。
- Apache Spark を使用して Fabric Lakehouse にデータを取り込みます。
- レイクハウスのデルタ テーブルから既存のデータを読み込みます。
- Apache Spark と Python ベースのツールを使用して、データをクリーンアップして変換します。
- さまざまな機械学習モデルをトレーニングするための実験と実行を作成します。
- MLflow と Fabric UI を使用して、トレーニング済みのモデルを登録して追跡します。
- 大規模なスコアリングを実行し、予測と推論結果を lakehouse に保存します。
- DirectLake を使用して Power BI で予測を視覚化する。
建築
このチュートリアル シリーズでは、以下を含むエンド ツー エンドのデータ サイエンスの簡略化されたシナリオを紹介します。
- 外部データ ソースからデータを取り込む。
- データを探索してクリーンアップします。
- 機械学習モデルをトレーニングして登録します。
- バッチ スコアリングを実行し、予測を保存します。
- Power BIで予測結果を視覚化します。
データ サイエンス シナリオのさまざまなコンポーネント
データ ソース - Fabric を使用すると、Azure Data Services、他のクラウド プラットフォーム、オンプレミスのデータ ソースに簡単かつ迅速に接続してデータを取り込むことができます。 Fabric Notebook を使用すると、組み込みの Lakehouse、Data Warehouse、セマンティック モデル、および Apache Spark と Python でサポートされているさまざまなカスタム データ ソースからデータを取り込むことができます。 このチュートリアル シリーズでは、Lakehouse からのデータの取り込みと読み込みに重点を置いています。
探索、クリーンアップ、準備 - Fabric のデータ サイエンス エクスペリエンスは、Spark の組み込みエクスペリエンスと、Data Wrangler や SemPy ライブラリなどの Python ベースのツールを使用して、データ クレンジング、変換、探索、特徴付けをサポートします。 このチュートリアルでは、Python ライブラリ seaborn
を使用したデータ探索と、Apache Spark を使用したデータ クレンジングと準備について説明します。
モデルと実験 - Fabric を使用すると、組み込みの実験項目とモデル項目を使用して機械学習モデルをトレーニング、評価、スコア付けし、実験の追跡とモデルの登録/デプロイに MLflow とシームレスに統合できます。 Fabric には、ビジネスの分析情報を取得して共有するための大規模なモデル予測 (PREDICT) 機能も備えています。
Storage - Fabric は、Delta Lakeで標準化されています。つまり、Fabric のすべてのエンジンは、レイクハウスに格納されている同じデータセットと対話できます。 このストレージ レイヤーを使用すると、ファイル ベースのストレージと表形式の両方をサポートする構造化データと非構造化データの両方を格納できます。 格納されているデータセットとファイルは、ノートブックやパイプラインなどのすべての Fabric エクスペリエンス項目を介して簡単にアクセスできます。
分析と洞察を活用する - レポートと視覚化のために、業界をリードするビジネスインテリジェンスツールである Power BI がレイクハウスからのデータを利用することができます。 lakehouse に永続化されたデータは、matplotlib
、seaborn
、plotly
などの Spark または Python ネイティブ視覚化ライブラリを使用してノートブックで視覚化することもできます。 セマンティック データ モデル、依存関係とその違反、分類と回帰のユース ケースに対して、組み込みの豊富なタスク固有の視覚化をサポートする SemPy ライブラリを使用して、データを視覚化することもできます。
次の手順
データ サイエンスチュートリアルの 用にシステムを準備する