データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

[アーティクル]
02/06/2025

この一連のチュートリアルでは、Fabric データサイエンスエクスペリエンスのエンドツーエンドのサンプルシナリオを示します。データインジェスト、クレンジング、準備から機械学習モデルのトレーニング、分析情報の生成までの各手順を実装し、Power BI などの視覚化ツールを使用してこれらの分析情報を使用します。

Microsoft Fabric を初めて使用する場合は、「Microsoft Fabric とは」を参照してください。.

紹介

データサイエンスプロジェクトのライフサイクルには、通常、次の手順が (多くの場合、反復的に) 含まれます。

ビジネスの理解
データの取得
データの探索、クレンジング、準備、視覚化
モデルのトレーニングと実験の追跡
モデルのスコア付けと分析情報の生成。

各ステージの目標と成功基準は、コラボレーション、データ共有、ドキュメントによって異なります。 Fabric データサイエンスエクスペリエンスは、コラボレーション、データの取得、共有、およびシームレスな方法での使用を可能にする複数のネイティブ構築機能で構成されています。

これらのチュートリアルでは、銀行で 10,000 人の顧客のチャーン状態を含むデータセットを探索、クリーンアップ、変換するタスクを与えられたデータサイエンティストの役割を担います。次に、機械学習モデルを構築して、離れる可能性が高い銀行の顧客を予測します。

次のアクティビティを実行する方法について説明します。

データサイエンスシナリオには Fabric ノートブックを使用します。
Apache Spark を使用して Fabric Lakehouse にデータを取り込みます。
レイクハウスのデルタテーブルから既存のデータを読み込みます。
Apache Spark と Python ベースのツールを使用して、データをクリーンアップして変換します。
さまざまな機械学習モデルをトレーニングするための実験と実行を作成します。
MLflow と Fabric UI を使用して、トレーニング済みのモデルを登録して追跡します。
大規模なスコアリングを実行し、予測と推論結果を lakehouse に保存します。
DirectLake を使用して Power BI で予測を視覚化する。

建築

このチュートリアルシリーズでは、以下を含むエンドツーエンドのデータサイエンスの簡略化されたシナリオを紹介します。

外部データソースからデータを取り込む。
データを探索してクリーンアップします。
機械学習モデルをトレーニングして登録します。
バッチスコアリングを実行し、予測を保存します。
Power BIで予測結果を視覚化します。

データサイエンスシナリオのさまざまなコンポーネント

データソース - Fabric を使用すると、Azure Data Services、他のクラウドプラットフォーム、オンプレミスのデータソースに簡単かつ迅速に接続してデータを取り込むことができます。 Fabric Notebook を使用すると、組み込みの Lakehouse、Data Warehouse、セマンティックモデル、および Apache Spark と Python でサポートされているさまざまなカスタムデータソースからデータを取り込むことができます。このチュートリアルシリーズでは、Lakehouse からのデータの取り込みと読み込みに重点を置いています。

探索、クリーンアップ、準備 - Fabric のデータサイエンスエクスペリエンスは、Spark の組み込みエクスペリエンスと、Data Wrangler や SemPy ライブラリなどの Python ベースのツールを使用して、データクレンジング、変換、探索、特徴付けをサポートします。このチュートリアルでは、Python ライブラリ seaborn を使用したデータ探索と、Apache Spark を使用したデータクレンジングと準備について説明します。

モデルと実験 - Fabric を使用すると、組み込みの実験項目とモデル項目を使用して機械学習モデルをトレーニング、評価、スコア付けし、実験の追跡とモデルの登録/デプロイに MLflow とシームレスに統合できます。 Fabric には、ビジネスの分析情報を取得して共有するための大規模なモデル予測 (PREDICT) 機能も備えています。

Storage - Fabric は、Delta Lakeで標準化されています。つまり、Fabric のすべてのエンジンは、レイクハウスに格納されている同じデータセットと対話できます。このストレージレイヤーを使用すると、ファイルベースのストレージと表形式の両方をサポートする構造化データと非構造化データの両方を格納できます。格納されているデータセットとファイルは、ノートブックやパイプラインなどのすべての Fabric エクスペリエンス項目を介して簡単にアクセスできます。

分析と洞察を活用する - レポートと視覚化のために、業界をリードするビジネスインテリジェンスツールである Power BI がレイクハウスからのデータを利用することができます。 lakehouse に永続化されたデータは、matplotlib、seaborn、plotlyなどの Spark または Python ネイティブ視覚化ライブラリを使用してノートブックで視覚化することもできます。セマンティックデータモデル、依存関係とその違反、分類と回帰のユースケースに対して、組み込みの豊富なタスク固有の視覚化をサポートする SemPy ライブラリを使用して、データを視覚化することもできます。

次の手順

データサイエンスチュートリアルの用にシステムを準備する

次の方法で共有

データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

紹介

建築

データサイエンスシナリオのさまざまなコンポーネント

次の手順

フィードバック

その他のリソース

次の方法で共有

データ サイエンスのエンド ツー エンド シナリオ: 概要とアーキテクチャ

紹介

建築

データ サイエンス シナリオのさまざまなコンポーネント

次の手順

フィードバック

その他のリソース

データサイエンスのエンドツーエンドシナリオ: 概要とアーキテクチャ

データサイエンスシナリオのさまざまなコンポーネント