Databricks Connect for Scala をインストールする
Note
この記事では、Databricks Runtime 13.3 LTS 以降用の Databricks Connect について説明します。
この記事では、Databricks Connect for Scala をインストールする方法について説明します。 「Databricks Connect とは」を参照してください。 この記事の Python バージョンについては、「Databricks Connect for Python をインストールする」を参照してください。
要件
- ターゲットの Azure Databricks ワークスペースとクラスターは、Databricks Connect の Compute 構成の要件を満たしている必要があります。
- 開発マシンに Java Development Kit (JDK) がインストールされている。 Databricks は、使用する JDK インストールのバージョンを Azure Databricks クラスターの JDK バージョンと一致させることを推奨しています。 お使いのクラスターの JDK のバージョンを確認するには、クラスターの Databricks Runtime リリース ノートの「システム環境」セクションを参照してください。 たとえば、
Zulu 8.70.0.23-CA-linux64
は JDK 8 に対応します。 「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。 - 開発用マシンにインストールされている Scala。 Databricks では、Scala インストールのバージョンが Azure Databricks クラスター上の Scala バージョンと一致することを推奨します。 クラスターの Databricks Runtime バージョンの Scala バージョンを確認するには、そのバージョンの Databricks Runtime リリース ノートの System environment セクションを参照してください。 「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。
- ユーザー定義関数 (UDF) を使用している場合、ローカルの Scala と Java のバージョンは、クラスターの Databricks Runtime バージョンの Scala と Java のバージョンと一致している必要があります。 クラスターの Databricks Runtime バージョンの Scala と Java のバージョンを確認するには、そのバージョンの Databricks Runtime リリース ノートの システム環境の セクションを参照してください。 「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。
- 開発用マシン上の Scala ビルド ツール (
sbt
など)。
Databricks Connect クライアントへの参照を追加する
Databricks Connect クライアントを設定するには、最初にクライアントへの参照を追加します。 build.sbt
のsbt
、Maven のpom.xml
、Gradle のbuild.gradle
など、Scala プロジェクトのビルド ファイルで、Databricks Connect クライアントに次の参照を追加します。 14.0.0
を、クラスターの Databricks Runtime バージョンと一致する Databricks Connect ライブラリのバージョンに置き換えてください。 Databricks Connect ライブラリのバージョン番号は、Maven 中央リポジトリで確認できます。
Sbt
libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
Maven
<dependency>
<groupId>com.databricks</groupId>
<artifactId>databricks-connect</artifactId>
<version>14.0.0</version>
</dependency>
Gradle
implementation 'com.databricks.databricks-connect:14.0.0'
接続プロパティを構成する
次に、Databricks Connect とリモート Azure Databricks クラスターの間の接続を確立するプロパティを構成します。 これらのプロパティには、クラスターで Databricks Connect を認証するための設定が含まれます。 Databricks Connect の Compute 構成を参照してください。
Databricks Connect for Databricks Runtime 13.3 LTS 以降で、Scala の場合 Databricks Connect に Databricks SDK for Java が含まれています。 この SDK は、Databricks クライアント統合認証標準を実装しています。これは、統合されていて一貫性がある、アーキテクチャとプログラムによる認証アプローチです。 このアプローチは、Azure Databricks を使用した認証の設定と自動化を、より一元的で予測可能なものにします。 これにより、Azure Databricks 認証を一度構成すれば、それ以上認証構成を変更しなくても、複数の Azure Databricks ツールおよび SDK でその構成を使用できます。
Note
OAuth ユーザー対マシン (U2M) 認証は、Databricks SDK for Java 0.18.0 以降でサポートされています。 OAuth U2M 認証を使用するには、コード プロジェクトのインストールされている Databricks SDK for Java のバージョンを 0.18.0 以上に更新する必要がある場合があります。 「Databricks SDK for Java を使ってみる」を参照してください。
OAuth U2M 認証の場合は、Scala コードを実行する前に Databricks CLI を使用して認証する必要があります。 「チュートリアル」を参照してください。
OAuth マシン間 (M2M) 認証は、Databricks SDK for Java 0.17.0 以降でサポートされています。 OAuth U2M 認証を使用するには、コード プロジェクトのインストールされている Databricks SDK for Java のバージョンを 0.17.0 以上に更新する必要がある場合があります。 「Databricks SDK for Java を使ってみる」を参照してください。
Databricks SDK for Java では、まだ Azure マネージド ID 認証が実装されていません。