Spark ジョブ定義の Git 統合
この記事では、Microsoft Fabric での Spark ジョブ定義 (SJD) の Git 統合のしくみについて説明します。 リポジトリ接続を設定し、ソース管理を使用して Spark ジョブ定義の変更を管理し、さまざまなワークスペースにデプロイする方法について説明します。
Azure DevOps で Spark ジョブ定義の Git 統合を有効にすると、完全な Git 履歴を使用して変更を追跡できます。 PySpark または SparkR が選択されている場合は、メイン定義ファイルと参照ファイルがコミットの一部として含まれます。 これらのファイル内のソース コードの変更も追跡されます。
重要
この機能はプレビュー段階にあります。
接続を設定する
ワークスペース設定から、変更をコミットして同期するためのリポジトリへの接続を簡単に設定できます。 接続を設定するには、「Git 統合での作業開始」を参照してください。 接続すると、Spark ジョブ定義などの項目が [ソース コントロール] パネルに表示されます。
Spark ジョブ定義を Git リポジトリにコミットすると、ジョブ定義フォルダー構造がリポジトリに表示されます。
Git での Spark ジョブ定義の表明および保証
次の画像は、リポジトリ内の Spark ジョブ定義項目のファイル構造の例です:
Spark ジョブ定義項目をリポジトリにコミットすると、項目ごとに git フォルダーが作成され、次のスキーマに従って名前が付けられます: <アイテム名> + 「SparkJobDefinition」。 ワークスペース内のアイテムを追跡するために使用されるため、フォルダーの名前を変更しないでください。 たとえば、アイテム名が「sjd1」の場合、git フォルダー名は「sjd1SparkJobDefinition」になります。
git フォルダー内には 2 個のサブフォルダーがあります。 これらは、メイン と 参照 です。 メイン フォルダーにはメイン定義ファイルが含まれており、参照フォルダーには参照ファイルが含まれています。
メインファイルと参照ファイルに加えて、SparkJobDefinitionV1.json ファイルもあります。 これには Spark ジョブ定義項目のメタデータが保持されるため、変更しないでください。 .platform ファイルには、Git セットアップに関連するプラットフォーム情報が含まれています > こちらも変更しないでください。
Note
- 言語として Java または Scala を選択した場合、.jar ファイルとしてアップロードしても、メインファイルと参照ファイルはコミットされません。
- アタッチされた環境は、リポジトリから Fabric ワークスペースに同期した後も Spark ジョブ定義に保持されます。 現時点では、ワークスペース間参照環境はサポートされていません。 ジョブ定義を実行するには、新しい環境に手動でアタッチするかワークスペースの既定の設定を使用する必要があります。
- Spark ジョブ定義は、リポジトリから Fabric ワークスペースに同期するときに、既定のレイクハウス ID を保持します。 既定のレイクハウスを使用してノートブックをコミットする場合は、新しく作成されたレイクハウス項目を手動で参照する必要があります。 詳細については、「レイクハウス Git 統合」を参照してください。