Microsoft Fabric の Data Science とは

[アーティクル]
02/06/2025

Microsoft Fabric には Data Science エクスペリエンスが用意されており、ユーザーはこれを利用して、データエンリッチメントとビジネス分析情報を目的とするエンドツーエンドのデータサイエンスワークフローを完了できます。データの探索、準備、クレンジングから実験、モデリング、モデルスコアリング、予測分析情報の BI レポートへの提供まで、データサイエンスプロセス全体にまたがる幅広いアクティビティを完了できます。

Microsoft Fabric ユーザーは Data Science ホームページにアクセスできます。ここから、さまざまな関連リソースの確認や利用を行えます。たとえば、機械学習の実験、モデル、ノートブックを作成できます。また、Data Science のホームページで既存のノートブックをインポートすることもできます。

一般的なデータサイエンスプロセスがどのように機能するかについてはご存じかもしれません。よく知られたプロセスであり、ほとんどの機械学習プロジェクトはこれに従います。

大まかなプロセスには、次の手順が含まれます。

問題の定式化と構想
データの検出と前処理
実験とモデリング
機能強化および運用に移行
洞察を得る

この記事では、データサイエンスプロセスの観点から Microsoft Fabric Data Science の機能について説明します。この記事では、Microsoft Fabric の役立つ機能を、データサイエンスプロセスの各ステップごとにまとめています。

問題の定式化と構想

Microsoft Fabric の Data Science ユーザーは、ビジネスユーザーやアナリストと同じプラットフォームで作業します。そのため、異なるロール間でのデータ共有やコラボレーションがシームレスになります。アナリストは、Power BI レポートやデータセットをデータサイエンスの専門家と簡単に共有できます。 Microsoft Fabric ではロールをまたいだコラボレーションが容易であり、問題の定式化フェーズにおけるハンドオフがはるかに簡単になります。

データの検出と前処理

Microsoft Fabric ユーザーは、レイクハウスアイテムを使用して OneLake のデータを操作できます。レイクハウスをノートブックに簡単にアタッチして、データの参照や操作を行えます。

ユーザーは、レイクハウスから Pandas データフレームへのデータの直接読み込みを簡単に行えます。これにより、探索用の OneLake からのシームレスなデータ読み取りが可能になります。

Microsoft Fabric にネイティブに統合されているデータ統合パイプラインでは、データインジェストとデータオーケストレーションのパイプラインに強力なツールセットを利用できます。簡単に構築できるデータパイプラインでデータにアクセスして、機械学習で使用できる形式に変換できます。

データの探索

機械学習プロセスにおいて、探索と視覚化によってデータについて理解することは重要な部分となります。

Microsoft Fabric には、分析と機械学習のためのデータ探索、準備のためのさまざまなツールが用意されており、データの保存場所に応じて利用できます。ノートブックが、データ探索を始めるための最も簡単な方法の 1 つになります。

データ準備のための Apache Spark と Python

Microsoft Fabric には、大規模なデータの変換、準備、探索を行う機能が用意されています。 Spark を使用すると、ユーザーは PySpark/Python、Scala、SparkR/SparklyR ツールを利用して、大規模なデータの前処理を行うことができます。強力なオープンソースの視覚化ライブラリを使用することで、データ探索のエクスペリエンスを向上させ、データの理解を深めることができます。

シームレスなデータクレンジングのためのデータ処理ツール

Microsoft Fabric のノートブックエクスペリエンスで、データを準備して Python コードを生成するコードツールである Data Wrangler を使用する機能が追加されました。このエクスペリエンスにより、データクレンジングなどの退屈で平凡なタスクを簡単に高速化して、生成されたコードによる再現性と自動化を構築できます。 Data Wrangler の詳細については、このドキュメントの「Data Wrangler」セクションを参照してください。

実験と ML モデリング

PySpark/Python、SparklyR/R などのツールを使用して、ノートブックで機械学習モデルのトレーニングを処理できます。

ML アルゴリズムとライブラリは、機械学習モデルのトレーニングに役立てられます。ライブラリ管理ツールで、これらのライブラリとアルゴリズムをインストールできます。そのためユーザーは、さまざまな人気の機械学習ライブラリを利用して、Microsoft Fabric での ML モデルトレーニングを完了することができます。

また、Scikit Learn などの一般的なライブラリでもモデルを開発できます。

MLflow の実験と実行では、ML モデルのトレーニングを追跡できます。 Microsoft Fabric には組み込みの MLflow エクスペリエンスが用意されており、ユーザーは対話形式でやりとりを行い、実験やモデルをログに保存できます。 MLflow を使用して実験を追跡し、Microsoft Fabric でモデルを管理する方法について学習します。

SynapseML

Microsoft が所有および管理する SynapseML (以前は MMLSpark と呼ばれていました) オープンソースライブラリにより、非常にスケーラブルな機械学習パイプラインの作成が簡素化されます。これはツールのエコシステムであり、Apache Spark フレームワークをいくつかの新しい方向へ拡張します。 SynapseML では、いくつかの既存の機械学習フレームワークと新しい Microsoft アルゴリズムを単一のスケーラブルな API に統合します。オープンソースの SynapseML ライブラリには、予測モデルを開発するための ML ツールの豊富なエコシステムが含まれており、Azure AI サービスの事前トレーニング済みの AI モデルを活用できます。 SynapseML について詳しく知ってください。

機能強化および運用に移行

ノートブックでは、予測用のオープンソースライブラリ、または Microsoft Fabric モデルレジストリで MLflow パッケージモデルをサポートする Microsoft Fabric のスケーラブルでユニバーサルな Spark Predict 関数を使用して、機械学習モデルのバッチスコアリングを処理できます。

洞察を得る

Microsoft Fabric では、予測値を OneLake に簡単に書き込むことができます。また、予測値は Power BI Direct Lake モードで Power BI レポートからシームレスに使用できます。そのため、データサイエンスの専門家による作業の結果の利害関係者との共有が簡単に行えるようになり、また運用化もシンプルになります。

バッチスコアリングを含むノートブックは、ノートブックのスケジュール機能を使用して実行するようにスケジュールできます。バッチスコアリングは、データパイプラインアクティビティまたは Spark ジョブの一部としてスケジュールすることもできます。 Microsoft Fabric の Direct Lake モードがあるため、データの読み込みや更新を行うことなく、Power BI で最新の予測を自動的に取得できます。

セマンティックリンクを使用したデータの探索

データサイエンティストやビジネスアナリストは、意味のある分析を開始する前に、データの理解、クリーニング、変換に多くの時間を費やしています。ビジネスアナリストは通常、セマンティックモデルを操作し、ドメインの知識とビジネスロジックを Power BI メジャーにエンコードします。一方、データサイエンティストは同じデータを扱えますが、通常は別のコード環境または言語で作業できます。

セマンティックリンクを使用すると、データサイエンティストは、SemPy Python ライブラリを使用して、Power BI セマンティックモデルと Microsoft Fabric の Synapse Data Science エクスペリエンス間の接続を確立できます。 SemPy は、ユーザーがセマンティックモデルに対してさまざまな変換を実行する際に、データセマンティクスを取得して利用して、データ分析を簡略化します。セマンティックリンクを利用することで、データサイエンティストは次のことができます。

ビジネスロジックとドメインの知識をコードに再実装する必要性を回避する
コード内で Power BI の計算項目に簡単にアクセスして使用する
セマンティクスを使用して、セマンティック関数などの新しいエクスペリエンスを実現する
データ間の機能依存関係とリレーションシップを調査して検証する

SemPy を使用することで、組織は次のことを期待できます。

同じデータセットを操作するチーム間の生産性の向上とコラボレーションの高速化
ビジネスインテリジェンスチームと AI チームの間のクロスコラボレーションの増加
新しいモデルまたはデータセットへのオンボード時のあいまいさの減少と学習曲線の短縮

セマンティックリンクの詳細については、「セマンティックリンクとは」を参照してください。

エンドツーエンドのデータサイエンスサンプルを始めたい方は、「Data Science Tutorials」をご覧ください。
Data Wrangler を使用したデータ準備とクレンジングの詳細については、データラングラーを参照してください。
実験の追跡の詳細については、「機械学習の実験」を参照してください
モデルの管理の詳細については、「機械学習モデル」を参照してください
Predict を使用したバッチスコアリングの詳細については、「PREDICT を使用してモデルをスコア付けする」を参照してください
Direct Lake Mode を使用して、Lakehouse から Power BI への予測結果を配信する

次の方法で共有

Microsoft Fabric の Data Science とは

問題の定式化と構想

データの検出と前処理

データの探索

データ準備のための Apache Spark と Python

シームレスなデータクレンジングのためのデータ処理ツール

実験と ML モデリング

SynapseML

機能強化および運用に移行

洞察を得る

セマンティックリンクを使用したデータの探索

フィードバック

その他のリソース

次の方法で共有

Microsoft Fabric の Data Science とは

問題の定式化と構想

データの検出と前処理

データの探索

データ準備のための Apache Spark と Python

シームレスなデータクレンジングのためのデータ処理ツール

実験と ML モデリング

SynapseML

機能強化および運用に移行

洞察を得る

セマンティック リンクを使用したデータの探索

関連コンテンツ

フィードバック

その他のリソース

セマンティックリンクを使用したデータの探索