次の方法で共有


Microsoft Fabric のデータ エンジニアリングとは

Microsoft Fabric のデータ エンジニアリングにより、ユーザーは、組織が大量のデータを収集、保存、処理、分析できるインフラストラクチャとシステムを設計、構築、管理できます。

Microsoft Fabric には、データに簡単にアクセスでき、適切に整理され、高品質であることを保証するためのさまざまなデータ エンジニアリング機能が用意されています。 データ エンジニアリングのホームページでは、次のことができます。

  • Lakehouse を使用してデータを作成および管理する

  • レイクハウスにデータをコピーするためのパイプラインを設計する

  • Spark ジョブ定義を使用してバッチ/ストリーミング ジョブを Spark クラスターに送信する

  • ノートブックを使用してデータ インジェスト、準備、変換のコードを記述する

    データ エンジニアリング オブジェクトを示すスクリーンショット。

レイクハウス

Lakehouses は、組織がさまざまなツールやフレームワークを使用してそのデータを処理および分析することで、構造化データと非構造化データを 1 つの場所に格納および管理できるデータ アーキテクチャです。 これらのツールとフレームワークには、SQL ベースのクエリと分析のほか、機械学習やその他の高度な分析手法を含めることができます。

Apache Spark ジョブ定義

Spark ジョブ定義は、Spark クラスターでジョブを実行する方法を定義する一連の命令です。 これには、入力データ ソースと出力データ ソース、変換、Spark アプリケーションの構成設定などの情報が含まれます。 Spark ジョブ定義を使用すると、バッチ/ストリーミング ジョブを Spark クラスターに送信し、lakehouse でホストされているデータにさまざまな変換ロジックを他の多くのものを適用できます。

ノートパソコン

ノートブックは対話型コンピューティング環境であり、ユーザーはライブ コード、数式、視覚化、説明テキストを含むドキュメントを作成して共有できます。 ユーザーは、Python、R、Scala など、さまざまなプログラミング言語でコードを記述して実行できます。 ノートブックは、データ インジェスト、準備、分析、その他のデータ関連タスクに使用できます。

データ パイプライン

データ パイプラインは、生の形式から分析と意思決定に使用できる形式にデータを収集、処理、変換できる一連の手順です。 これらは、信頼性の高いスケーラブルで効率的な方法でデータをソースから宛先に移動する方法を提供するため、データ エンジニアリングの重要なコンポーネントです。

Fabric 試用版にサインアップするときに、Microsoft Fabric の Data Engineering を無料で使用できます。 Microsoft Fabric 容量または Fabric 予約容量を購入することもできます

データエンジニアリングを始める