ジョブのノートブック タスク
ノートブック タスクを使用して Databricks ノートブックをデプロイします。
ノートブック タスクを構成する
開始する前に、ジョブを構成するユーザーがアクセスできる場所にノートブックを配置する必要があります。
Note
ジョブ UI には、その他の構成済みの設定に基づいてオプションが動的に表示されます。
Notebook
タスクを構成するフローを開始するには:
- ジョブ UI の [タスク] タブに移動します。
- [種類] ドロップダウン メニューで、
Notebook
を選択します。
ソースを構成する
[ソース] ドロップダウン メニューで、次のいずれかのオプションを使用して Python スクリプトの場所を選択します。
ワークスペース
Workspace を使用して、次の手順を実行してワークスペースに格納されているノートブックを構成します。
- [パス] フィールドをクリックします。 [ノートブックの選択] ダイアログボックスが表示されます。
- ノートブックを閲覧し、クリックしてファイルを強調表示し、[確認] をクリックします。
Note
このオプションを使用すると、Databricks Git フォルダーに格納されているノートブックのタスクを構成できます。 Databricks では、ジョブでスケジュールされたアセットのバージョン管理に、[Git プロバイダー] オプションとリモート Git リポジトリを使用することをお勧めします。
Git プロバイダー
[Git プロバイダー] を使用して、リモート Git リポジトリでノートブックを構成します。
UI によって表示されるオプションは、他の場所で Git プロバイダーを既に構成しているかどうかによって異なります。 ジョブ内のすべてのタスクに使用できるリモート Git リポジトリは 1 つだけです。 「ジョブで Git を使用する」を参照してください。
重要
リモート Git リポジトリから実行される Azure Databricks ジョブによって作成されたノートブックは一時的なものであり、MLflow の実行、実験、またはモデルの追跡に使用することはできません。 ジョブからノートブックを作成する場合は、(ノートブック MLflow 実験ではなく) ワークスペース MLflow 実験を使用し、MLflow 追跡コードを実行する前に、ワークスペース ノートブックで mlflow.set_experiment("/path/to/experiment")
を呼び出します。 詳細については、MLflow 実験でのデータ損失の防止に関する記事を参照してください。
git リファレンスを構成した後、 [パス] フィールドが表示されます。
etl/bronze/ingest.py
など、ノートブックの相対パスを入力します。
重要
相対パスを入力するときは、先頭を /
または ./
にしないでください。 たとえば、アクセスするノートブックの絶対パスが /etl/bronze/ingest.py
の場合は、[パス] フィールドに「etl/bronze/ingest.py
」と入力します。
コンピューティング ライブラリと依存ライブラリを構成する
- [コンピューティング] を使用して、ノートブック内のロジックをサポートするクラスターを選択または構成します。
Serverless
コンピューティングを使用する場合は、[環境とライブラリ] フィールドを使用して、新しい環境を選択、編集、または追加します。 「ノートブックの依存関係をインストールする」を参照してください。- その他のすべてのコンピューティング構成については、[依存関係ライブラリ] の [+ 追加] をクリックします。 [依存ライブラリの追加] ダイアログが表示されます。
- 既存のライブラリを選択するか、新しいライブラリをアップロードできます。
- 使用できるのは、コンピューティング構成でサポートされている場所に格納されているライブラリのみです。 「Python ライブラリのサポート」を参照してください。
- ライブラリ ソース ごとに、ライブラリを選択またはアップロードするためのフローは異なります。 ライブラリをご参照ください。
ジョブ構成を完了する
- (省略可能)
dbutils.widgets
を使用してノートブックでアクセスできるキーと値のペアとして [パラメーター] を構成します。 「タスク パラメーターを構成する」を参照してください。 - [タスクの保存] をクリックします。
制限事項
ノートブック セルの合計出力 (すべてのノートブック セルの合計出力) には、20 MB のサイズ制限が適用されます。 さらに、個々のセル出力には、8 MB のサイズ制限が適用されます。 セルの合計出力サイズが 20 MB を超える場合、または個々のセルの出力が 8 MB を超える場合、実行は取り消され、失敗としてマークされます。
制限に近づいている、または制限を超えるセルを見つけるのに支援が必要な場合は、汎用クラスターに対してノートブックを実行し、このノートブックの自動保存の手法を使用します。