次の方法で共有


Microsoft Fabric のデータ サイエンスとは

Microsoft Fabric では、データ エンリッチメントとビジネス分析情報を目的として、ユーザーがエンド ツー エンドのデータ サイエンス ワークフローを完了できるようにするデータ サイエンス エクスペリエンスを提供しています。 データの探索、準備、クレンジングから実験、モデリング、モデルスコアリング、BI レポートへの予測分析情報の提供まで、データ サイエンス プロセス全体にわたる幅広いアクティビティを完了できます。

Microsoft Fabric ユーザーは、データ サイエンスのホーム ページにアクセスできます。 そこから、さまざまな関連リソースを検出してアクセスできます。 たとえば、機械学習の実験、モデル、ノートブックを作成できます。 また、データ サイエンスのホーム ページで既存のノートブックをインポートすることもできます。

データ サイエンスホーム ページのスクリーンショット。

一般的なデータ サイエンス プロセスのしくみを知っているかもしれません。 よく知られているプロセスとして、ほとんどの機械学習プロジェクトがそれに従います。

大まかに言えば、プロセスには次の手順が含まれます。

  • 問題の定式化とイデーション
  • データの検出と前処理
  • 実験とモデリング
  • 機能強化および運用に移行
  • 洞察を得る

データ サイエンス プロセスの図。

この記事では、データ サイエンス プロセスの観点から Microsoft Fabric データ サイエンス機能について説明します。 この記事では、データ サイエンス プロセスの各手順について、役立つ Microsoft Fabric の機能をまとめています。

問題の定式化とイデーション

Microsoft Fabric のデータ サイエンス ユーザーは、ビジネス ユーザーやアナリストと同じプラットフォームで作業します。 その結果、データ共有とコラボレーションは、さまざまなロール間でよりシームレスになります。 アナリストは、Power BI レポートとデータセットをデータ サイエンスの実践者と簡単に共有できます。 Microsoft Fabric のロール間のコラボレーションが容易になり、問題の策定フェーズ中のハンドオフがはるかに簡単になります。

データの検出と前処理

Microsoft Fabric ユーザーは、Lakehouse アイテムを使用して OneLake のデータを操作できます。 Lakehouse は、ノートブックに簡単にアタッチして、データを参照および操作します。

ユーザーは Lakehouse から Pandas データフレームに直接データを簡単に読み取ることができます。 探索のために、これにより OneLake からのシームレスなデータ読み取りが可能になります。

データ統合パイプライン (Microsoft Fabric のネイティブに統合された部分) を使用して、データ インジェストとデータ オーケストレーション パイプラインに強力なツール セットを使用できます。 簡単に構築できるデータ パイプラインは、データにアクセスして、機械学習で使用できる形式に変換できます。

データ探索

機械学習プロセスの重要な部分は、探索と視覚化を通じてデータを理解することです。

データストレージの場所に応じて、Microsoft Fabric には、分析と機械学習のためにデータを探索および準備するためのさまざまなツールのセットが用意されています。 ノートブックは、データ探索を開始する最も簡単な方法の 1 つです。

データ準備のための Apache Spark と Python

Microsoft Fabric には、大規模なデータの変換、準備、探索を行う機能が用意されています。 Spark を使用すると、ユーザーは PySpark/Python、Scala、SparkR/SparklyR ツールを利用して、大規模なデータの前処理を行うことができます。 強力なオープン ソース視覚化ライブラリを使用すると、データ探索エクスペリエンスを強化して、データの理解を深めることができます。

シームレスなデータクレンジングのためのデータ処理ツール

Microsoft Fabric Notebook エクスペリエンスでは、データを準備して Python コードを生成するコード ツールである Data Wrangler を使用する機能が追加されました。 このエクスペリエンスにより、データ クレンジングなどの面倒で日常的なタスクを簡単に高速化し、生成されたコードを使用して再現性と自動化を構築できます。 データ ラングラーの詳細については、このドキュメントの「Data Wrangler」セクションを参照してください。

実験と ML モデリング

PySpark/Python、SparklyR/R などのツールを使用すると、ノートブックで機械学習モデルのトレーニングを処理できます。

ML アルゴリズムとライブラリは、機械学習モデルのトレーニングに役立ちます。 ライブラリ管理ツールでは、これらのライブラリとアルゴリズムをインストールできます。 そのため、ユーザーは、さまざまな人気のある機械学習ライブラリを利用して、Microsoft Fabric で ML モデルのトレーニングを完了できます。

さらに、Scikit Learn などの一般的なライブラリでもモデルを開発できます。

MLflow の実験と実行では、ML モデルのトレーニングを追跡できます。 Microsoft Fabric には、ユーザーが実験とモデルをログに記録するために対話できる組み込みの MLflow エクスペリエンスが用意されています。 MLflow を使用して実験を追跡し、Microsoft Fabric でモデルを管理する方法について説明します。

SynapseML

Microsoft が所有および管理する SynapseML (旧称 MMLSpark) オープンソース ライブラリは、非常にスケーラブルな機械学習パイプラインの作成を簡略化します。 ツール エコシステムとして、Apache Spark フレームワークをいくつかの新しい方向に拡張します。 SynapseML は、複数の既存の機械学習フレームワークと新しい Microsoft アルゴリズムを 1 つのスケーラブルな API に統合します。 オープン ソースの SynapseML ライブラリには、予測モデルを開発するための ML ツールの豊富なエコシステムと、Azure AI サービスから事前トレーニング済みの AI モデルを活用する機能が含まれています。 SynapseML について詳しく知ってください。

エンリッチと運用化

ノートブックでは、予測用のオープンソース ライブラリを使用した機械学習モデルのバッチ スコアリング、または Microsoft Fabric モデル レジストリで MLflow パッケージ モデルをサポートする Microsoft Fabric スケーラブルなユニバーサル Spark Predict 関数を処理できます。

洞察を得る

Microsoft Fabric では、Power BI Direct Lake モードを使用して、予測値を OneLake に簡単に書き込み、Power BI レポートからシームレスに使用できます。 これにより、データ サイエンスの実践者が作業の結果を関係者と簡単に共有できるようになり、運用化も簡素化されます。

バッチ スコアリングを含むノートブックは、ノートブックのスケジュール機能を使用して実行するようにスケジュールできます。 バッチ スコアリングは、データ パイプライン アクティビティまたは Spark ジョブの一部としてスケジュールすることもできます。 Power BI は、Microsoft Fabric の Direct Lake モードにより、データの読み込みまたは更新を必要とせずに、最新の予測を自動的に取得します。

データ サイエンティストやビジネス アナリストは、意味のある分析を開始する前に、データの理解、クリーニング、変換に多くの時間を費やしています。 ビジネス アナリストは通常、セマンティック モデルを操作し、ドメインの知識とビジネス ロジックを Power BI メジャーにエンコードします。 一方、データ サイエンティストは同じデータを操作できますが、通常は別のコード環境または言語で作業できます。

セマンティック リンクを使用すると、データ サイエンティストは、SemPy Python ライブラリを使用して、Power BI セマンティック モデルと Microsoft Fabric の Synapse Data Science エクスペリエンス間の接続を確立できます。 SemPy は、ユーザーがセマンティック モデルに対してさまざまな変換を実行する場合に、データ セマンティクスをキャプチャして利用することで、データ分析を簡略化します。 セマンティック リンクを利用することで、データ サイエンティストは次のことができます。

  • ビジネス ロジックとドメインの知識をコードに再実装する必要性を回避する
  • コード内で Power BI の計算項目に簡単にアクセスして使用する
  • セマンティクスを使用して、セマンティック関数などの新しいエクスペリエンスを実現する
  • データ間の機能依存関係とリレーションシップを探索して検証する

SemPy を使用することで、組織は次のことが期待できます。

  • 同じデータセットを操作するチーム間の生産性の向上とコラボレーションの高速化
  • ビジネス インテリジェンスと AI チーム間のクロスコラボレーションの増加
  • 新しいモデルまたはデータセットへのオンボード時のあいまいさと学習曲線の短縮

セマンティック リンクの詳細については、「セマンティック リンクとは」を参照してください。.

  • エンドツーエンドのデータサイエンスサンプルを始めたい方は、「Data Science Tutorials」をご覧ください。
  • Data Wrangler を使用したデータ準備とクレンジングの詳細については、データ ラングラー を参照してください。
  • 実験の追跡の詳細については、機械学習の実験 参照してください
  • モデルの管理の詳細については、機械学習モデルの 参照してください
  • Predict を使用したバッチ スコアリングの詳細については、「PREDICT を使用してモデル スコア付けする」を参照してください。
  • Direct Lake Mode を使用して、Lakehouse から Power BI への予測結果を配信する