共用方式為


安裝適用於 Python 的 Databricks Connect

注意

本文涵蓋 Databricks Runtime 13.3 LTS 和更新版本適用的 Databricks Connect。

本文說明如何安裝適用於 Python 的 Databricks Connect。 請參閱什麼是 Databricks Connect?。 如需本文的 Scala 版本,請參閱 安裝適用於 Scala 的 Databricks Connect。

需求

若要安裝適用於 Python 的 Databricks Connect,必須符合下列需求:

  • 如果您要連線到 無伺服器計算,您的工作區必須符合 無伺服器計算的需求。

    注意

    Databricks Connect 15.1 版和更新版本支援無伺服器計算。 此外,Databricks Connect 版本位於或低於無伺服器上的 Databricks Runtime 版本完全相容。 請參閱 版本資訊。 若要確認 Databricks Connect 版本是否與無伺服器計算相容,請參閱 驗證 Databricks 的連線。

  • 如果您要連線到 叢集,您的目標叢集必須符合 叢集組態 需求,其中包括 Databricks 運行時間版本需求。

  • 您的開發計算機上必須安裝 Python 3,而安裝在開發電腦上的 Python 次要版本必須符合下表中的版本需求。

  • 如果您使用使用者定義的函式 (UDF),則 Python 的本機次要版本必須符合叢集或無伺服器計算之 Databricks Runtime 版本的 Python 次要版本。 若要尋找您的叢集的 Databricks Runtime 版本所對應的次要 Python 版本,請參閱該版本的 Databricks Runtime 版本資訊中的「系統環境」一節。 請參閱 Databricks Runtime 版本資訊版本資訊,以及相容性無伺服器計算版本資訊

版本支援矩陣

下表顯示相容的 Databricks Connect 和 Python 版本。 Databricks Connect 版本號碼對應至 Databricks 運行時間版本號碼。

計算類型 Databricks Connect 版本 相容的 Python 版本
無伺服器 15.1 和更新版本 3.12
Cluster 16.0 和更新版本 3.12
Cluster 15.0 到 15.4 LTS 3.11
Cluster 13.3 LTS 至 14.3 LTS 3.10

啟用 Python 虛擬環境

Databricks 強烈建議您已針對與 Databricks Connect 搭配使用的每個 Python 版本啟用 Python 虛擬環境 。 Python 虛擬環境可協助您確定您使用的是正確的 Python 版本和 Databricks Connect。 如需這些工具以及如何啟用這些工具的詳細資訊,請參閱 venv詩歌

安裝 Databricks Connect 用戶端

本節說明如何使用 venv 或 Poetry 安裝 Databricks Connect 用戶端

注意

如果您已安裝適用於Visual Studio Code的 Databricks 擴充功能,就不需要遵循這些設定指示,因為適用於Visual Studio Code 的 Databricks 延伸模組已經內建支援 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本。 針對 Visual Studio Code 的 Databricks 擴充功能,跳至 使用 Databricks Connect 偵錯程式代碼

使用 venv 安裝 Databricks Connect 用戶端

  1. 啟用虛擬環境后,執行 uninstall 命令,以卸載已安裝 PySpark。 這是必要的, databricks-connect 因為套件與 PySpark 衝突。 如需詳細資訊,請參閱 衝突的 PySpark 安裝。 若要檢查是否已安裝 PySpark,請執行 show 命令。

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. 在虛擬環境仍啟用之後,請執行 install 命令來安裝 Databricks Connect 用戶端。 --upgrade使用 選項,將任何現有的用戶端安裝升級至指定的版本。

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    注意

    Databricks 建議您附加 「dot-asterisk」 表示法來指定 databricks-connect==X.Y.* ,而不是 databricks-connect=X.Y,以確保已安裝最新的套件。 雖然這不是必要條件,但它有助於確定您可以使用該叢集的最新支援功能。

使用詩歌安裝 Databricks Connect 用戶端

  1. 啟用虛擬環境后,執行 remove 命令,以卸載已安裝 PySpark。 這是必要的, databricks-connect 因為套件與 PySpark 衝突。 如需詳細資訊,請參閱 衝突的 PySpark 安裝。 若要檢查是否已安裝 PySpark,請執行 show 命令。

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. 在虛擬環境仍啟用之後,請執行 add 命令來安裝 Databricks Connect 用戶端。

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    注意

    Databricks 建議您使用「波狀符號」表示法來指定 databricks-connect@~15.4 ,而不是 databricks-connect==15.4,以確保已安裝最新的套件。 雖然這不是必要條件,但它有助於確定您可以使用該叢集的最新支援功能。

下一步

安裝 Databricks Connect 之後,您必須設定 Databricks 的連線。 請參閱 Databricks Connect 的計算組態。