Microsoft Fabric での Fabric データ エンジニアの新機能と計画
重要
リリース計画で説明されている機能は、まだリリースされていない場合があります。 提供タイムラインおよび予定されている機能は、変更される可能性、またはリリースされない可能性があります。 詳細については、「Microsoft ポリシー」をご覧ください。
Fabric データ エンジニア を使用すると、データ エンジニアは Spark を使用して大規模にデータを変換し、Lakehouse アーキテクチャを構築できます。
すべての組織データのためのレイクハウス: レイクハウスは、データ レイクとデータ ウェアハウスのベストを 1 つのエクスペリエンスで組み合わせたものになります。 これにより、ユーザーは、レイク内のオープン形式で組織データを取り込み、準備し、共有することができます。 後で Spark、T-SQL、Power BI などの複数のエンジンを介してアクセスできます。 データフローやパイプライン、外部データ ソースへのショートカット、データ製品共有機能など、さまざまなデータ統合オプションが提供されます。
パフォーマンスの高い Spark エンジンとランタイム: Fabric データ エンジニアリングは、Spark、Delta、Python の最新バージョンを使用して最適化された Spark ランタイムを提供します。 すべてのエンジンの共通テーブル形式として Delta Lake を使用するため、データ移動なしで簡単にデータ共有とレポートを行うことができます。 ランタイムには Spark の最適化が付属し、構成なしでクエリのパフォーマンスが向上します。 また、Spark セッションを高速化して再利用するためのスターター プールと高コンカレンシー モードも提供されるため、時間とコストを節約できます。
Spark 管理者と構成: 適切なアクセス許可を持つワークスペース管理者は、Spark ワークロードのパフォーマンスとコストを最適化するためのカスタム プールを作成して構成できます。 作成者は、ライブラリのインストール、ランタイム バージョンの選択、ノートブックと Spark ジョブの Spark プロパティの設定を行う環境を構成できます。
開発者エクスペリエンス: 開発者は、ノートブック、Spark ジョブ、または任意の IDE を使用して、Fabric で Spark コードを作成して実行できます。 レイクハウス データへのネイティブ アクセス、他のユーザーとの共同作業、ライブラリのインストール、履歴の追跡、インライン監視の実行、Spark Advisor からの推奨事項の取得を行うことができます。 また、Data Wrangler を使用して、低コード UI でデータを簡単に準備することもできます。
プラットフォーム統合: ノートブック、Spark ジョブ、環境、レイクハウスなど、すべての Fabric データ エンジニアリング項目は、Fabric プラットフォーム (エンタープライズ情報管理機能、系列、秘密度ラベル、保証) に深く統合されています。
投資分野
Python ノートブック
リリース予定のタイムライン: 2024 年第 4 四半期
リリースの種類: パブリック プレビュー
Fabric ノートブックでは、純粋な Python エクスペリエンスがサポートされています。 この新しいソリューションは、小さなデータセット (最大数 GB) で作業し、Pandas と Python をプライマリ言語として使用する BI 開発者とデータ科学者を対象としています。 この新しいエクスペリエンスを通じて、ネイティブ Python 言語とそのネイティブ機能とライブラリをすぐに利用でき、Python バージョンから別のバージョンに切り替えることができます (最初は 2 つのバージョンがサポートされます)。最後に、より小さな 2VCore マシンを使用することで、リソース使用率が向上します。
ArcGIS GeoAnalytics for Microsoft Fabric Spark
リリース予定のタイムライン: 2024 年第 4 四半期
リリースの種類: パブリック プレビュー
Microsoft と Esri は、空間分析を Microsoft Fabric に導入するために提携しています。 このコラボレーションにより、新しいライブラリ ArcGIS GeoAnalytics for Microsoft Fabric が導入され、Microsoft Fabric Spark ノートブックと Spark ジョブ定義内で (データ エンジニアとデータ サイエンスのエクスペリエンス/ワークロードの両方で) 広範な空間分析が可能になります。
この統合された製品エクスペリエンスにより、Spark 開発者またはデータ サイエンティストは、ArcGIS GeoAnalytics 関数とツールを Fabric Spark 内でネイティブに実行して、さまざまなユース ケースでデータの空間変換、エンリッチメント、パターン/傾向分析 (ビッグ データも含む) を実行できます。個別のインストールと構成は必要ありません。
ADLS Gen2 ストレージ アカウントからのライブラリのインストール
リリース予定のタイムライン: 2024 年第 4 四半期
リリースの種類: パブリック プレビュー
ユーザーがライブラリをインストールするための新しいソースのサポート。 ストレージ アカウントでホストされているカスタム conda/PyPI チャネルを作成することで、ユーザーは自分のストレージ アカウントから Fabric Environment にライブラリをインストールできます。
ノートブックのライブ バージョン管理
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
ライブ バージョン管理を使用すると、Fabric Notebook 開発者は、ノートブックに加えられた変更の履歴を追跡し、さまざまなバージョンを比較し、必要に応じて以前のバージョンを復元できます。
Fabric でのユーザー データ関数の VSCode Satellite 拡張機能
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
ユーザー データ関数用の VSCode Satellite 拡張機能は、Fabric のユーザー データ関数の開発者サポート (編集、ビルド、デバッグ、発行) を提供します。
Fabric のユーザー データ関数
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
ユーザー データ関数は、Fabric Data Science および Data Engineering のワークフローにカスタムの特殊なビジネス ロジックを実装して再利用し、効率と柔軟性を高めるための強力なメカニズムを提供します。
パブリック監視 API
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
Fabric Spark のパブリック監視 API 機能は、Spark 監視 API を公開することを目的としており、ユーザーは Spark ジョブの進行状況を監視したり、実行タスクを表示したり、ログにプログラムでアクセスしたりできます。 この機能はパブリック API 標準に準拠し、Spark アプリケーションのシームレスな監視エクスペリエンスを提供します。
Git およびデプロイ パイプラインの Lakehouse ショートカット メタデータ
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
魅力的なアプリケーション ライフサイクル管理ストーリーを提供するには、git でオブジェクト メタデータを追跡し、デプロイ パイプラインをサポートすることが不可欠です。 データ エンジニア モジュールでは、ワークスペースが git に統合されます。
この最初のイテレーションでは、OneLake ショートカットがパイプライン ステージとワークスペースにまたがって自動的にデプロイされます。 変数ライブラリという名前の新しい Microsoft Fabric 項目を使用して、ステージ間でショートカット接続を再マップできるため、お客様が期待する適切な分離と環境のセグメント化が保証されます。
Spark エクスペリエンスでの Delta Lake の機能強化
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: 一般提供
適切な既定値を設定し、最新の標準に合わせることは、Microsoft Fabric の Delta Lake 標準にとって最も重要です。 INT64 は、すべてのタイムスタンプ値の新しい既定のエンコードの種類になります。 これは、Apache Parquet が何年も前に非推奨としていた INT96 エンコードから離れています。 変更は読み取り機能には影響しません。既定では透過的で互換性がありますが、Delta Lake テーブル内のすべての新しい Parquet ファイルが、より効率的で将来の実証方法で確実に書き込まれます。
また、OPTIMIZE コマンドのより高速な実装をリリースし、既に V オーダーファイルをスキップしています。
進行中のノートブック ジョブのスナップショットのサポート
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
この機能を使用すると、実行中にノートブック スナップショットを表示できます。これは、進行状況の監視とパフォーマンスの問題のトラブルシューティングに不可欠です。 ユーザーは、元のソース コード、入力パラメーター、およびセル出力を確認して Spark ジョブを理解し、Spark の実行の進行状況をセル レベルで追跡できます。 また、完成したセルの出力を確認して Spark アプリケーションの精度を検証し、残りの作業を見積もることもできます。 さらに、既に実行されているセルからのエラーや例外が表示され、ユーザーが問題を早期に特定して対処するのに役立ちます。
Spark と Lakehouse の RLS/CLS サポート
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: パブリック プレビュー
この機能を使用すると、ユーザーは Spark エンジン内でデータ アクセス用のセキュリティ ポリシーを実装できます。 ユーザーは、オブジェクト、行、または列レベルのセキュリティを定義できます。これにより、Fabric Spark 経由でアクセスするときにこれらのポリシーによって定義されたとおりにデータがセキュリティで保護され、Microsoft Fabric 全体で有効になっている OneSecurity イニシアチブに合わせてデータが確保されます。
Spark Connector for Fabric Data Warehouse - 一般提供
リリース予定のタイムライン: 2025 年第 1 四半期
リリースの種類: 一般提供
Microsoft Fabric Data Warehouse 用の Spark コネクタを使用すると、Spark 開発者とデータ サイエンティストは、Lakehouse のウェアハウスと SQL 分析エンドポイントのデータにアクセスして操作できます。 簡略化された Spark API を提供し、基になる複雑さを抽象化し、1 行のコードで動作しながら、オブジェクト レベルのセキュリティ (OLS)、行レベルのセキュリティ (RLS)、列レベルのセキュリティ (CLS) などのセキュリティ モデルを維持します。
出荷済み機能
Lakehouse でテーブルとフォルダーを並べ替え、フィルター処理する機能
出荷済み (2024 年第 4 四半期)
リリースの種類: 一般提供
この機能を使用すると、お客様は、アルファベット順、作成日など、さまざまな方法で Lakehouse のテーブルとフォルダーを並べ替えたりフィルター処理したりできます。
アプリ内のノートブック
出荷済み (2024 年第 4 四半期)
リリースの種類: パブリック プレビュー
組織アプリは Fabric で新しい項目として使用できます。また、Power BI レポートやダッシュボードと共にノートブックを Fabric アプリに含め、ビジネス ユーザーに配布することができます。 アプリ コンシューマーは、代替のレポートとデータ探索メカニズムとして、ノートブック内のウィジェットやビジュアルと対話できます。 これにより、豊富で魅力的なストーリーを作成し、データと共有することができます。
Fabric 用の VSCode Core 拡張機能
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
Fabric 用の Core VSCode 拡張機能では、Fabric サービスの開発者向けの一般的なサポートが提供されます。
T-SQL ノートブック
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
ファブリック ノートブックでは、Data Warehouse に対してデータを使用するための T-SQL 言語がサポートされています。 データ ウェアハウスまたは SQL 分析エンドポイントをノートブックに追加することで、T-SQL 開発者は接続されたエンドポイントで直接クエリを実行できます。 BI アナリストは、データベース間クエリを実行して、複数のウェアハウスと SQL 分析エンドポイントから分析情報を収集することもできます。 T-SQL Notebook は、SQL ユーザーに対する既存のツールに代わる優れた作成方法を提供し、共有、GIT 統合、コラボレーションなどの Fabric ネイティブ機能を含みます。
Web 用の VS Code - デバッグのサポート
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
Web 用 Visual Studio Code は現在、プレビューで作成と実行のシナリオがサポートされています。 ノートブック用のこの拡張機能を使用してコードをデバッグする機能の一覧に追加します。
パイプラインでの高コンカレンシー
出荷済み (2024 年第 3 四半期)
リリースの種類: 一般提供
ノートブックのコンカレンシーが高いだけでなく、パイプラインでのコンカレンシーも高くなります。 この機能を使用すると、1 つのセッションのパイプラインで複数のノートブックを実行できます。
Lakehouse の名前空間でのスキーマのサポートとワークスペース
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
これにより、スキーマを使用してテーブルを整理したり、ワークスペースをまたいでデータをクエリしたりできます。
Spark ネイティブ実行エンジン
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
ネイティブ実行エンジンは、Microsoft Fabric での Apache Spark ジョブ実行の画期的な機能強化です。 このベクター化されたエンジンでは、Lakehouse インフラストラクチャで直接実行することで、Spark クエリのパフォーマンスと効率を最適化します。 エンジンのシームレスな統合は、コードの変更を必要とせず、ベンダーのロックインが回避されます。 Apache Spark API をサポートし、ランタイム 1.2 (Spark 3.4) と互換性があり、Parquet 形式と Delta 形式の両方で動作します。 OneLake 内のデータの場所に関係なく、またはショートカットを使用してデータにアクセスする場合でも、ネイティブ実行エンジンで効率とパフォーマンスが最大化されます。
Fabric データ ウェアハウス用 Spark コネクタ
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
Fabric DW (データ ウェアハウス) 用 Spark コネクタを使用すると、Spark 開発者またはデータ サイエンティストは、シンプルな Spark API を使用して Fabric データ ウェアハウスのデータにアクセスして操作できます。これは、文字どおり 1 行のコードで動作します。 Fabric データ ウェアハウスから並列でデータをクエリできるので、データ ボリュームの増加に合わせてスケーリングし、テーブルまたはビューにアクセスする際にデータ ウェアハウス レベルで定義されたセキュリティ モデル (OLS/RLS/CLS) が適用されます。 この最初のリリースでは、データの読み取りのみがサポートされ、データの書き戻しのサポートは近日中に提供される予定です。
GraphQL 用 Microsoft Fabric API
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
GraphQL 用 API を使用すると、Fabric データ エンジニア、科学者、データ ソリューション アーキテクトは、GraphQL の能力と柔軟性を活用して、Fabric データを簡単に公開および統合できるので、より応答性が高くパフォーマンスの高い機能豊富な分析アプリケーションを作成できます。
環境の作成とアタッチ
出荷済み (2024 年第 2 四半期)
リリースの種類: 一般提供
Spark エクスペリエンスをよりきめ細かくカスタマイズするには、環境を作成してノートブックと Spark ジョブにアタッチします。 環境では、ライブラリのインストール、新しいプールの構成、Spark プロパティの設定、ファイル システムへのスクリプトのアップロードを行うことができます。 これにより、ワークスペースの既定の設定に影響を与えることなく、Spark ワークロードの柔軟性と制御が向上します。 GA の一環として、API のサポートや CI/CD 統合など、環境に対してさまざまな改善を行っています。
ノートブック ジョブのキュー
出荷済み (2024 年第 2 四半期)
リリースの種類: 一般提供
この機能を使用すると、Spark の使用量が並列で実行できる最大のジョブ数に達した場合に、スケジュールされた Spark Notebook をキューに登録しておき、使用量が許可されている最大の並列ジョブ数を下回った後に実行することができます。
Fabric Spark のオプティミスティック ジョブ受付
出荷済み (2024 年第 2 四半期)
リリースの種類: 一般提供
オプティミスティック ジョブ受付では、ジョブをスケールダウンできるノードの最小数に応じて、ジョブで開始する必要がある最小数のコアのみが Fabric Spark によって予約されます。 これにより、最小要件を満たすのに十分なリソースがある場合に、より多くのジョブを受け付けることができます。 ジョブを後でスケールアップする必要がある場合、スケールアップ要求は、容量内の使用可能なコアに応じて承認または拒否されます。
Spark Autotune
出荷済み (2024 年第 1 四半期)
リリースの種類: パブリック プレビュー
Autotune では、機械学習を使用して、Spark ジョブのそれまでの実行を自動的に分析し、構成を調整してパフォーマンスを最適化します。 Spark によるデータのパーティション分割、結合、読み取り方法を構成します。 これにより、クエリのパフォーマンスが大幅に向上します。 この機能により、お客様のジョブの実行速度が 2 倍に向上しました。