Microsoft Fabric の Data Science とは
Microsoft Fabric には Data Science エクスペリエンスが用意されており、ユーザーはこれを利用して、データ エンリッチメントとビジネス分析情報を目的とするエンド ツー エンドのデータ サイエンス ワークフローを完了できます。 データの探索、準備、クレンジングから実験、モデリング、モデル スコアリング、予測分析情報の BI レポートへの提供まで、データ サイエンス プロセス全体にまたがる幅広いアクティビティを完了できます。
Microsoft Fabric ユーザーは Data Science ホーム ページにアクセスできます。 ここから、さまざまな関連リソースの確認や利用を行えます。 たとえば、機械学習の実験、モデル、ノートブックを作成できます。 また、Data Science のホームページで既存のノートブックをインポートすることもできます。
一般的なデータ サイエンス プロセスがどのように機能するかについてはご存じかもしれません。 よく知られたプロセスであり、ほとんどの機械学習プロジェクトはこれに従います。
大まかなプロセスには、次の手順が含まれます。
- 問題の定式化と構想
- データの検出と前処理
- 実験とモデリング
- エンリッチと運用化
- インサイトの取得
この記事では、データ サイエンス プロセスの観点から Microsoft Fabric Data Science の機能について説明します。 この記事では、Microsoft Fabric の役立つ機能を、データ サイエンス プロセスの各ステップごとにまとめています。
問題の定式化と構想
Microsoft Fabric の Data Science ユーザーは、ビジネス ユーザーやアナリストと同じプラットフォームで作業します。 そのため、異なるロール間でのデータ共有やコラボレーションがシームレスになります。 アナリストは、Power BI レポートやデータセットをデータ サイエンスの専門家と簡単に共有できます。 Microsoft Fabric ではロールをまたいだコラボレーションが容易であり、問題の定式化フェーズにおけるハンドオフがはるかに簡単になります。
データの検出と前処理
Microsoft Fabric ユーザーは、レイクハウス項目を使用してOneLake のデータを操作できます。 レイクハウスをノートブックに簡単にアタッチして、データの参照や操作を行えます。
ユーザーは、レイクハウスから Pandas データフレームへのデータの直接読み込みを簡単に行えます。 これにより、探索用の OneLake からのシームレスなデータ読み取りが可能になります。
Microsoft Fabric にネイティブに統合されているデータ統合パイプラインでは、データ インジェストとデータ オーケストレーションのパイプラインに強力なツール セットを利用できます。 簡単に構築できるデータ パイプラインでデータにアクセスして、機械学習で使用できる形式に変換できます。
データの探索
機械学習プロセスにおいて、探索と視覚化によってデータについて理解することは重要な部分となります。
Microsoft Fabric には、分析と機械学習のためのデータ探索、準備のためのさまざまなツールが用意されており、データの保存場所に応じて利用できます。 ノートブックが、データ探索を始めるための最も簡単な方法の 1 つになります。
データ準備のための Apache Spark と Python
Microsoft Fabric には、大規模なデータの変換、準備、探索を行う機能が用意されています。 Spark を使用すると、ユーザーは PySpark/Python、Scala、SparkR/SparklyR ツールを利用して、大規模なデータの前処理を行うことができます。 強力なオープンソースの視覚化ライブラリを使用することで、データ探索のエクスペリエンスを向上させ、データの理解を深めることができます。
シームレスなデータ クレンジングのための Data Wrangler
Microsoft Fabric のノートブック エクスペリエンスで、データを準備して Python コードを生成するコード ツールである Data Wrangler を使用する機能が追加されました。 このエクスペリエンスにより、データ クレンジングなどの退屈で平凡なタスクを簡単に高速化して、生成されたコードによる再現性と自動化を構築できます。 Data Wrangler の詳細については、このドキュメントの「Data Wrangler」セクションを参照してください。
実験と ML モデリング
PySpark/Python、SparklyR/R などのツールを使用して、ノートブックで機械学習モデルのトレーニングを処理できます。
ML アルゴリズムとライブラリは、機械学習モデルのトレーニングに役立てられます。 ライブラリ管理ツールで、これらのライブラリとアルゴリズムをインストールできます。 そのためユーザーは、さまざまな人気の機械学習ライブラリを利用して、Microsoft Fabric での ML モデル トレーニングを完了することができます。
また、Scikit Learn などの一般的なライブラリでもモデルを開発できます。
MLflow の実験と実行では、ML モデルのトレーニングを追跡できます。 Microsoft Fabric には組み込みの MlFlow エクスペリエンスが用意されており、ユーザーは対話形式でやりとりを行い、実験やモデルをログに保存できます。 MLflow を使用して実験を追跡し、Microsoft Fabric でモデルを管理する方法について学習します。
SynapseML
Microsoft が所有および管理する SynapseML (以前は MMLSpark と呼ばれていました) オープン ソース ライブラリは、高度にスケーラブルな機械学習パイプラインの作成を簡素化します。 これはツールのエコシステムであり、Apache Spark フレームワークをいくつかの新しい方向へ拡張します。 SynapseML は、いくつかの既存の機械学習フレームワークと新しい Microsoft アルゴリズムを単一のスケーラブルな API に統合します。 オープンソースの SynapseML ライブラリには、予測モデルを開発するための ML ツールの豊富なエコシステムが含まれており、Azure AI サービスの事前トレーニング済みの AI モデルを活用できます。 詳細については、「SynapseML」を参照してください。
エンリッチと運用化
ノートブックは、予測用のオープンソース ライブラリ、または Microsoft Fabric モデル レジストリで MLflow パッケージ モデルをサポートする Microsoft Fabric のスケーラブルでユニバーサルな Spark Predict 関数を使用して、機械学習モデルのバッチ スコアリングを処理できます。
インサイトの取得
Microsoft Fabric では、予測値を OneLake に簡単に書き込むことができます。また、予測値は Power BI Direct Lake モードを使用して Power BI レポートからシームレスに使用できます。 そのため、データ サイエンスの専門家による作業の結果の利害関係者との共有が簡単に行えるようになり、また運用化もシンプルになります。
バッチ スコアリングを含むノートブックは、ノートブックのスケジュール機能を使用して実行するようにスケジュールできます。 バッチ スコアリングは、データ パイプライン アクティビティまたは Spark ジョブの一部としてスケジュールすることもできます。 Microsoft Fabric の Direct Lake モードがあるため、データの読み込みや更新を行うことなく、Power BI で最新の予測を自動的に取得できます。
セマンティック リンクを使用したデータの探索 (プレビュー)
重要
この機能はプレビュー段階にあります。
データ サイエンティストやビジネス アナリストは、意味のある分析を開始する前に、データの理解、クリーニング、変換に多くの時間を費やしています。 ビジネス アナリストは通常、セマンティック モデルを操作し、ドメインの知識とビジネス ロジックを Power BI メジャーにエンコードします。 一方、データ サイエンティストは同じデータを扱えますが、通常は別のコード環境または言語で作業できます。
セマンティック リンク (プレビュー) を使用すると、データ サイエンティストは、SemPy Python ライブラリを介して、Power BI セマンティック モデルと Microsoft Fabric エクスペリエンスの Synapse Data Science との間に接続を確立できます。 SemPy は、ユーザーがセマンティック モデルに対してさまざまな変換を実行する際に、データ セマンティクスを取得して利用して、データ分析を簡略化します。 セマンティック リンクを利用することで、データ サイエンティストは次のことができます。
- ビジネス ロジックとドメインの知識をコードに再実装する必要性を回避する
- コードで Power BI メジャーに簡単にアクセスし、使用する
- セマンティクスを使用して、セマンティック関数などの新しいエクスペリエンスを実現する
- データ間の機能依存関係とリレーションシップを調査して検証する
SemPy を使用することで、組織は次のことを期待できます。
- 同じデータセットを操作するチーム間の生産性の向上とコラボレーションの高速化
- ビジネス インテリジェンス チームと AI チームの間のクロスコラボレーションの増加
- 新しいモデルまたはデータセットへのオンボード時のあいまいさの減少と学習曲線の短縮
セマンティック リンクの詳細については、「セマンティック リンクとは (プレビュー)」を参照してください。
関連するコンテンツ
- エンド ツー エンドのデータ サイエンス サンプルの使用を始める場合は、「データ サイエンス チュートリアル」を参照してください
- Data Wrangler を使用したデータ準備とクレンジングの詳細については、「Data Wrangler」を参照してください
- 実験の追跡の詳細については、「機械学習の実験」を参照してください
- モデルの管理の詳細については、「機械学習モデル」を参照してください
- Predict を使用したバッチ スコアリングの詳細については、「PREDICT を使用してモデルをスコア付けする」を参照してください
- Direct Lake モードを使用してレイクハウスから Power BI に予測を供給する