開発者ツール
Databricks には、Azure Databricks と統合し、Databricks のリソースとデータをプログラムで管理するアプリケーションとソリューションの開発に役立つツールのエコシステムが用意されています。
この記事では、これらのツールの概要と、一般的な開発者シナリオに最適なツールに関する推奨事項について説明します。
Databricks はどのようなツールを開発者に提供しますか?
次の表に、Databricks によって提供される開発者ツールの一覧を示します。
ツール | 説明 |
---|---|
認証と権限承認 | Azure Databricks を操作するためのツール、スクリプト、アプリの認証と承認を構成します。 |
Databricks Connect | PyCharm、IntelliJ IDEA、Eclipse、RStudio、JupyterLab などの一般的な統合開発環境 (IDE) を使用して Azure Databricks に接続します。 Visual Studio Code を使用している場合は、Databricks Connect の上に構築された Visual Studio Code 用の Databricks 拡張機能をお勧めします。これは、より簡単な構成を可能にする追加機能を提供するためです。 |
Visual Studio Code 用の Databricks 拡張機能 | Visual Studio Code 統合開発環境 (IDE) からリモートの Azure Databricks ワークスペースに接続します。 |
PyCharm Databricks プラグイン | リモート Databricks ワークスペースへの接続を構成し、PyCharm から Databricks クラスターでファイルを実行します。 このプラグインは、Databricks と提携して JetBrains によって開発および提供されています。 |
Databricks SDK | Python、Java、Go、R などの一般的な言語用に記述されたコード ライブラリから Azure Databricks を自動化します。curl/Postman を使用して REST API 呼び出しを直接送信する代わりに、SDK を使用して任意のプログラミング言語を使用して Databricks と対話できます。 |
SQL ドライバーとツール | Azure Databricks に接続して SQL コマンドとスクリプトを実行し、Azure Databricks とプログラムでやり取りし、Azure Databricks SQL 機能を Python、Go、JavaScript、TypeScript などの一般的な言語で記述されたアプリケーションに統合します。 |
Databricks CLI | Databricks のコマンド ライン インターフェイス (CLI) を使用して Azure Databricks 機能にアクセスします。 CLI は Databricks REST API をラップするため、curl または Postman を使用して REST API 呼び出しを直接送信する代わりに、Databricks CLI を使用して Databricks と対話できます。 |
Databricks アセット バンドル | Databricks Asset Bundles (DAB) を使用して、Azure Databricks データおよび AI プロジェクトの業界標準の開発、テスト、デプロイ (CI/CD) のベスト プラクティスを実装します。 |
Databricks Terraform プロバイダーおよび databricks 用の Terraform CDKTF | Teraform を使用して Azure Databricks インフラストラクチャとリソースをプロビジョニングします。 |
Pulumi Databricks リソース プロバイダー | Pulumi infrastructure-as-code (IaC) を使用して Azure Databricks インフラストラクチャとリソースをプロビジョニングします。 |
CI/CD ツール | GitHub Actions、Jenkins、Apache エアフローなどの一般的な CI/CD システムとフレームワークを統合。 |
ヒント
さらに、多くの追加の一般的なサードパーティ製ツールをクラスターと SQL ウェアハウスに接続して、Azure Databricks のデータにアクセスすることもできます。 「テクノロジ パートナー」を参照してください。
どの開発者ツールを使用する必要がありますか?
次の表は、一般的な開発者シナリオに関する Databricks ツールの推奨事項の概要を示しています。
シナリオ | 推奨 |
---|---|
- ローカル IDE からの対話型の開発とデバッグ | Visual Studio Code 用の Databricks 拡張機能 PyCharm Databricks プラグイン その他の IDE の場合は、Databricks Connect で Databricks CLI を使用します |
- コマンド ラインから Databricks と直接やり取りする - シェル スクリプト -実験 - REST API を直接呼び出す - ローカル認証プロファイルを管理する - IDE から Databricks ワークスペースにコードを同期する |
Databricks CLI |
- ワークフローを管理し、Databricks にプロジェクトをデプロイする - CI/CD のベスト プラクティスを適用する - リソースと資産を 1 つのユニットとして共同バージョン、共同編集、共同デプロイする - 最も一般的なリソースをサポートします |
Databricks アセット バンドル (CLI の機能) |
- コードとしてのインフラストラクチャ、CI/CD - ワークスペース、カタログ、メタストアを管理および作成し、アクセス許可を適用する - 環境の移植性とディザスター リカバリーを保証する - 多くのサポートされているリソース |
Databricks Terraform プロバイダー |
- アプリケーション開発 - 既存のデプロイ システムとの統合 - カスタム Databricks ワークフローと新しい Web サービスを作成する |
Databricks Python SDK Databricks Java SDK Databricks Go SDK Databricks R SDK |
- 高度なシナリオのみ - ほぼすべての Databricks リソースを使用できます |
Databricks REST API |