Microsoft Fabric の Data Factory の新機能と予定されている機能
重要
リリース計画で説明されている機能は、まだリリースされていない場合があります。 提供タイムラインおよび予定されている機能は、変更される可能性、またはリリースされない可能性があります。 詳細については、「Microsoft ポリシー」をご覧ください。
Microsoft Fabric の Data Factory は、市民データ統合機能とプロ データ統合機能を 1 つの最新のデータ統合エクスペリエンスに組み合わせています。 100 を超えるリレーショナル データベースと非リレーショナル データベース、レイクハウス、データ ウェアハウスの他、REST API、OData などの汎用インターフェイスへの接続を提供します。
データフロー: データフロー Gen2 を使用すると、大規模なデータ変換を実行でき、Azure SQL Database、Lakehouse、Data Warehouse などへの書き込みのさまざまな出力先をサポートします。 データフロー エディターは、AI ベースのオプションを含む 300 を超える変換を提供し、他のどのツールよりも優れた柔軟性でデータを簡単に変換できます。 Web ページなどの非構造化データ ソースからデータを抽出する場合でも、Power Query エディターで既存のテーブルを再作成する場合でも、人工知能 (AI) を使用してプロセスを簡略化する Power Query の Data Extraction By Example を簡単に適用できます。
データ パイプライン: データ パイプラインは、データ抽出、優先データ ストアへの読み込み、Notebook の実行、SQL スクリプトの実行などのタスクをまとめる、汎用性の高いデータ オーケストレーション ワークフローを作成する機能を提供します。 反復的なタスクを自動化する強力なメタデータ駆動型データ パイプラインをすばやく構築できます。 たとえば、データベース内の異なるテーブルのデータの読み込みと抽出、Azure Blob Storage 内の複数のコンテナーの反復処理などです。 さらに、データ パイプラインを使用すると、Microsoft Graph データ接続 (MGDC) コネクタを使用して Microsoft 365 のデータにアクセスできます。
詳細については、このドキュメントを参照してください。
投資分野
今後数か月間に、Microsoft Fabric の Data Factory は接続オプションを拡張し、変換とデータ パイプライン アクティビティの豊富なライブラリに引き続き追加します。 さらに、運用データベースからリアルタイムで高パフォーマンスのデータ レプリケーションを実行し、分析のためにこのデータをレイクに取り込むことができます。
DBT のデータ パイプラインのサポート
推定リリース タイムライン: 2024 年第 1 四半期
リリースの種類: パブリック プレビュー
DBT CLI オーケストレーション (データ ビルド ツール): データ変換ワークフロー用のデータ ビルド ツール (dbt) が組み込まれています。
Dataflows Gen2 での高速コピーのサポート
リリース予定のタイムライン: 2024 年第 3 四半期
リリースの種類: 一般提供
パイプラインのコピー アクティビティ機能を利用した、直接 Dataflow Gen2 エクスペリエンス内での大規模なデータ インジェストのサポートが追加されます。 この機能強化により、Dataflow Gen2 のデータ処理能力が大幅にスケールアップされ、高スケールの ELT (抽出、読み込み、変換) 機能が提供されます。
データ ソース ID 管理 (マネージド ID)
リリース予定のタイムライン: 2024 年第 3 四半期
リリースの種類: パブリック プレビュー
これにより、マネージド ID をワークスペース レベルで構成できます。 Fabric マネージド ID を使用すると、データ ソースに安全に接続できます。
データフロー用の Data Factory Git 統合
リリース予定のタイムライン: 2024 年第 4 四半期
リリースの種類: パブリック プレビュー
Git リポジトリに接続し、データフローを開発できます。 この機能により、バージョン管理との統合が可能になり、コミットとプル要求が提供されます。
Data Factory の Copilot (データ パイプライン)
リリース予定のタイムライン: 2024 年第 4 四半期
リリースの種類: パブリック プレビュー
Data Factory の Copilot (データ パイプライン) を使用すると、お客様は自然言語を使用してデータ パイプラインを構築でき、トラブルシューティング ガイダンスが提供されます。
出荷済み機能
オンプレミス データ ゲートウェイ (OPDG) のサポートをデータ パイプラインに追加
出荷済み (2024 年第 3 四半期)
リリースの種類: 一般提供
この機能により、データ パイプラインは Fabric データ ゲートウェイを使用して、オンプレミスや仮想ネットワークの背後にあるデータにアクセスできます。 セルフホステッド統合ランタイム (SHIR) を使用しているユーザーは、Fabric のオンプレミス データ ゲートウェイに移動できます。
ワークスペース間データ パイプラインの呼び出しのサポート
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
パイプラインの呼び出しアクティビティの更新: パイプラインの呼び出しアクティビティに対して、いくつかの新しいエキサイティングな更新が有効になります。 お客様やコミュニティからの圧倒的な要求に応えて、ワークスペース間でのデータ パイプラインの実行が可能になります。 これで、実行するアクセス権を持つ他のワークスペースからパイプラインを呼び出すことができるようになります。 これにより、ワークスペース間および機能チーム間でデータ エンジニアリングチームと統合チームのコラボレーションを利用できる、非常に魅力的なデータ ワークフロー パターンが可能になります。
Fabric の Azure Data Factory
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
既存の Azure Data Factory (ADF) を Fabric ワークスペースに移動します。 これは、Fabric ワークスペースから既存の ADF ファクトリに接続できる新しいプレビュー機能です。
これで、Fabric ワークスペース UI から直接 ADF ファクトリを完全に管理できるようになります。 ADF が Fabric ワークスペースにリンクされると、ADF の場合と同様に、Fabric 内で直接パイプラインをトリガー、実行、監視できるようになります。
Dataflow Gen2 での増分更新のサポート
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
Dataflow Gen2 で増分更新のサポートを追加しています。 この機能を使用すると、データ ソースからデータを増分抽出し、Power Query 変換を適用して、さまざまな出力先に読み込むことができます。
Azure Databricks ジョブのデータ パイプラインのサポート
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
最新のジョブ API を使用するように Data Factory データ パイプラインの Azure Databricks アクティビティを更新し、DLT ジョブの実行などのエキサイティングなワークフロー機能を実現しています。
更新エラーに関する電子メール通知の改善
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
電子メール通知を使用すると、Dataflow Gen2 作成者はデータフローの更新操作の結果 (成功/失敗) を監視できます。
ジョブのコピー
出荷済み (2024 年第 3 四半期)
リリースの種類: パブリック プレビュー
コピー ジョブを使用すると、データフローまたはデータ パイプラインを作成しなくても、データを取り込む必要があるお客様のエクスペリエンスが簡素化されます。 コピー ジョブでは、任意のデータ ソースから任意のデータ変換先への完全な増分コピーがサポートされます。 今すぐプライベート プレビューにサインアップ。
Data Factory 用 Copilot (データフロー)
出荷済み (2024 年第 3 四半期)
リリースの種類: 一般提供
Data Factory 用 Copilot (データフロー) を使用すると、お客様は Dataflows Gen2 を使用してデータ統合ソリューションを作成するときに、自然言語を使用して要件を表現できるようになります。
データフロー Gen 2 出力先のステージングの既定値
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
Dataflow Gen2 には、さまざまなデータ ソースから Fabric OneLake にデータを取り込む機能が用意されています。 このデータをステージングすると、(Fabric Lakehouse/Warehouse SQL コンピューティングに基づいて) 高スケールのデータフロー Gen2 エンジンを利用して、高スケールで変換できます。
OneLake でデータをステージングして大規模なデータ変換を有効にすることが、Dataflows Gen2 の既定の動作です。 これは大規模なシナリオではうまく機能しますが、データフロー出力先に最終的に読み込まれる前にデータに追加ホップ (ステージング) が導入されることを考慮すると、少量のデータが取り込まれるシナリオには適していません。
計画的な機能強化により、ステージングを必要としない出力先 (つまり、Fabric Lakehouse と Azure SQL Database) を使用するクエリに対して、既定のステージング動作を無効にするように微調整しています。
ステージング動作は、クエリ設定ペインまたはクエリ ペインのクエリ コンテキスト メニューを使用して、クエリごとに手動で構成できます。
データ パイプラインのイベント ドリブン トリガーのサポート
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
Data Factory データ パイプラインを呼び出す一般的なユース ケースは、ファイルの到着やファイルの削除などのファイル イベントに対してパイプラインをトリガーすることです。 ADF または Synapse から Fabric に移行するお客様の場合、ADLS/Blog ストレージ イベントを使用することは、新しいパイプラインの実行を通知したり、作成されたファイルの名前を取得したりする方法として非常に一般的です。 Fabric Data Factory のトリガーでは、Eventstream や Reflex トリガーなどの Fabric プラットフォーム機能が活用されます。 Fabric Data Factory パイプライン デザイン キャンバス内には、パイプラインの Reflex トリガーを作成するための [トリガー] ボタンがあります。または、Data Activator 環境から直接トリガーを作成できます。
データ パイプラインの SparkJobDefinition のサポート
出荷済み (2024 年第 2 四半期)
リリースの種類: 一般提供
これで、パイプライン アクティビティから直接、JAR ファイルを含む Spark コードを実行できるようになります。 Spark コードを参照するだけで、パイプラインは Fabric の Spark クラスターでジョブを実行します。 この新しいアクティビティにより、ファブリックの Spark エンジンの機能を活用しながら、Spark ジョブと同じパイプラインに Data Factory 制御フローとデータ フロー機能を組み込むエキサイティングなデータ ワークフロー パターンが可能になります。
データ パイプラインの Azure HDInsight のサポート
出荷済み (2024 年第 2 四半期)
リリースの種類: 一般提供
HDInsight は Hadoop 向けの Azure PaaS サービスであり、これを利用すると、開発者はクラウドで非常に強力なビッグ データ ソリューションを構築できます。 新しい HDI パイプライン アクティビティにより、Data Factory データ パイプライン内の HDInsights ジョブ アクティビティが有効になります。これは、ADF および Synapse パイプラインで長年活用してきた既存の機能と似ています。 これで、この機能が Fabric データ パイプラインに直接取り込まれました。
Copy アクティビティ用の新しいコネクタ
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
データ パイプラインを活用しながら、お客様が Oracle、MySQL、Azure AI Search、Azure Files、Dynamics AX、Google BigQuery の各ソースから取り込める Copy アクティビティ用の新しいコネクタが追加されます。
Apache エアフロー ジョブ: Apache エアフローを利用してデータ パイプラインを構築する
出荷済み (2024 年第 2 四半期)
リリースの種類: パブリック プレビュー
Apache エアフロー ジョブ (以前はデータ ワークフローと呼ばれた) は Apache エアフローを利用し、統合された Apache エアフロー ランタイム環境を提供します。これにより、Python DAG を簡単に作成、実行、スケジュールできます。
データ ソース ID 管理 (SPN)
出荷済み (2024 年第 2 四半期)
リリースの種類: 一般提供
サービス プリンシパル - Azure AD テナントによってセキュリティ保護されているリソースにアクセスするには、アクセスを必要とするエンティティをセキュリティ プリンシパルで表す必要があります。 サービス プリンシパルを使用してデータ ソースに接続できるようになります。
データ取得エクスペリエンスの向上 (Azure リソースの参照)
出荷済み (2024 年第 1 四半期)
リリースの種類: パブリック プレビュー
Azure リソースを参照すると、Azure リソースを参照するためのシームレスなナビゲーションが可能になります。 直感的なユーザー インターフェイスを使用して、Azure サブスクリプション間を簡単に移動し、データ ソースに接続できます。 必要なデータをすばやく見つけて接続するのに役立ちます。
オンプレミス データ ゲートウェイ (OPDG) のサポートをデータ パイプラインに追加
出荷済み (2024 年第 1 四半期)
リリースの種類: パブリック プレビュー
この機能により、データ パイプラインは Fabric データ ゲートウェイを使用して、オンプレミスや仮想ネットワークの背後にあるデータにアクセスできます。 セルフホステッド統合ランタイム (SHIR) を使用しているユーザーは、Fabric のオンプレミス データ ゲートウェイに移動できます。
データ パイプライン用の Data Factory Git 統合
出荷済み (2024 年第 1 四半期)
リリースの種類: パブリック プレビュー
Git リポジトリに接続して、共同でデータ パイプラインを開発できます。 データ パイプラインと Fabric プラットフォームのアプリケーション ライフサイクル管理 (ALM) 機能の統合により、バージョン管理、分岐、コミット、プル要求が可能になります。
Dataflow Gen2 の出力先の機能強化 (クエリ スキーマ)
出荷済み (2024 年第 1 四半期)
リリースの種類: パブリック プレビュー
要望の多い次の機能を追加して、Dataflow Gen2 の出力先を強化しています。
- 出力先の構成後にクエリ スキーマの変更を処理する機能。
- データフローの作成を高速化するための既定の宛先設定。
詳細については、Dataflow Gen2 データの保存先とマネージド設定をご覧ください
Dataflows Gen2 での高速コピーのサポート
出荷済み (2024 年第 1 四半期)
リリースの種類: パブリック プレビュー
パイプラインのコピー アクティビティ機能を利用した、直接 Dataflow Gen2 エクスペリエンス内での大規模なデータ インジェストのサポートが追加されます。 これにより、Azure Data Lake Storage や Blob Storage 内の Azure SQL Database、CSV、Parquet ファイルなどのソースがサポートされます。
この機能強化により、Dataflow Gen2 のデータ処理能力が大幅にスケールアップされ、高スケールの ELT (抽出、読み込み、変換) 機能が提供されます。
Dataflow Gen2 での更新の取り消しのサポート
出荷済み (2023 年第 4 四半期)
リリースの種類: パブリック プレビュー
ワークスペース項目ビューから進行中の Dataflow Gen2 更新を取り消す機能のサポートを追加しています。