Microsoft Fabric での Data Engineering とは
Microsoft Fabric の Data Engineering により、ユーザーは、組織が大量のデータを収集、保存、処理、分析できるインフラストラクチャとシステムを設計、構築、保守できます。
Microsoft Fabric には、データがアクセスが容易で、適切に整理され、高品質であることを確認するためのさまざまな Data Engineering 機能が用意されています。 Data Engineering のホームページから、次のことが可能です。
レイクハウスを使用して、データを作成および管理する
レイクハウスにデータをコピーするためのパイプラインを設計する
Spark ジョブ定義を使って、バッチまたはストリーミング ジョブを Spark クラスターに送信する
ノートブックを使用して、データ インジェスト、準備、変換のコードを記述する
レイクハウス
レイクハウスは、さまざまなツールとフレームワークを使用してそのデータを処理および分析することで、組織が構造化データと非構造化データを 1 か所で格納および管理できるデータ アーキテクチャです。 これらのツールとフレームワークには、SQL ベースのクエリと分析のほか、機械学習やその他の高度な分析手法が含まれます。
Apache Spark ジョブ定義
Spark ジョブ定義は、Spark クラスターでジョブを実行する方法を定義する一連の命令です。 これには、Spark アプリケーションの入力データ ソースと出力データ ソース、変換、構成設定などの情報が含まれます。 Spark ジョブ定義を使うと、バッチまたはストリーミング ジョブの Spark クラスターへの送信、レイクハウスでホストされているデータに対する異なる変換ロジックの適用など、さまざまなことができます。
ノートブック
ノートブックはインタラクティブなコンピューティング環境であり、ユーザーはそれらを使用して、ライブ コード、数式、視覚化、および説明テキストを含むドキュメントを作成して共有できます。 ユーザーは Python、R、Scala など、各種プログラミング言語でコードを書いて実行できます。 ノートブックは、データ インジェスト、準備、解析、その他のデータ関連タスクに使用できます。
データ パイプライン
データ パイプラインは、データを収集して、処理し、未加工の形式から分析と意思決定に使用できる形式に変換する一連の手順です。 それらは、信頼できるスケーラブルで効率的な方法でデータをソースからターゲットに移動する方法を提供するため、Data Engineering の重要なコンポーネントです。
Fabric 試用版にサインアップするときに、Microsoft Fabric の Data Engineering を無料で使用できます。 Microsoft Fabric 容量または Fabric 予約容量を購入することもできます
関連するコンテンツ
データ エンジニアリングの使用開始:
- レイクハウスの詳細については、「Microsoft Fabric のレイクハウスとは」を参照してください。
- レイクハウスの使用を開始するには、「Microsoft Fabric でレイクハウスを作成する」を参照してください。
- Apache Spark ジョブ定義の詳細については、「Apache Spark ジョブ定義とは」を参照してください。
- Apache Spark ジョブ定義の使用を開始するには、「Fabric で Apache Spark ジョブ定義を作成する方法」を参照してください。
- ノートブックの詳細については、ノートブックの作成および実行に関する記事を参照してください。
- パイプラインのコピー アクティビティの使用を開始するには、「コピー アクティビティを使用してデータをコピーする方法」を参照してください。