安裝適用於 Python 的 Databricks Connect
注意
本文涵蓋 Databricks Runtime 13.3 LTS 和更新版本適用的 Databricks Connect。
本文說明如何安裝適用於 Python 的 Databricks Connect。 請參閱什麼是 Databricks Connect?。 如需本文的 Scala 版本,請參閱 安裝適用於 Scala 的 Databricks Connect。
需求
若要安裝適用於 Python 的 Databricks Connect,必須符合下列需求:
如果您要連線到 無伺服器計算,您的工作區必須符合 無伺服器計算的需求。
注意
Databricks Connect 15.1 版和更新版本支援無伺服器計算。 此外,Databricks Connect 版本位於或低於無伺服器上的 Databricks Runtime 版本完全相容。 請參閱 版本資訊。 若要確認 Databricks Connect 版本是否與無伺服器計算相容,請參閱 驗證 Databricks 的連線。
您的開發計算機上必須安裝 Python 3,而安裝在開發電腦上的 Python 次要版本必須符合下表中的版本需求。
計算類型 Databricks Connect 版本 相容的 Python 版本 無伺服器 15.1 和更新版本 3.11 Cluster 15.1 和更新版本 3.11 Cluster 13.3 LTS 至 14.3 LTS 3.10 如果您使用使用者定義的函式 (UDF),則 Python 的本機次要版本必須符合叢集或無伺服器計算之 Databricks Runtime 版本的 Python 次要版本。 若要尋找您的叢集的 Databricks Runtime 版本所對應的次要 Python 版本,請參閱該版本的 Databricks Runtime 版本資訊中的「系統環境」一節。 請參閱 Databricks Runtime 版本資訊版本資訊,以及相容性 和 無伺服器計算版本資訊。
啟用 Python 虛擬環境
Databricks 強烈建議您已針對與 Databricks Connect 搭配使用的每個 Python 版本啟用 Python 虛擬環境 。 Python 虛擬環境可協助您確定您使用的是正確的 Python 版本和 Databricks Connect。 如需這些工具以及如何啟用這些工具的詳細資訊,請參閱 venv 或 詩歌。
安裝 Databricks Connect 用戶端
本節說明如何使用 venv 或 Poetry 安裝 Databricks Connect 用戶端。
注意
如果您已安裝適用於Visual Studio Code的 Databricks 擴充功能,就不需要遵循這些設定指示,因為適用於Visual Studio Code 的 Databricks 延伸模組已經內建支援 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本。 針對 Visual Studio Code 的 Databricks 擴充功能,跳至 使用 Databricks Connect 偵錯程式代碼。
使用 venv 安裝 Databricks Connect 用戶端
啟用虛擬環境后,執行
uninstall
命令,以卸載已安裝 PySpark。 這是必要的,databricks-connect
因為套件與 PySpark 衝突。 如需詳細資訊,請參閱 衝突的 PySpark 安裝。 若要檢查是否已安裝 PySpark,請執行show
命令。# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
在虛擬環境仍啟用之後,請執行
install
命令來安裝 Databricks Connect 用戶端。--upgrade
使用 選項,將任何現有的用戶端安裝升級至指定的版本。pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
注意
Databricks 建議您附加 「dot-asterisk」 表示法來指定
databricks-connect==X.Y.*
,而不是databricks-connect=X.Y
,以確保已安裝最新的套件。 雖然這不是必要條件,但它有助於確定您可以使用該叢集的最新支援功能。
使用詩歌安裝 Databricks Connect 用戶端
啟用虛擬環境后,執行
remove
命令,以卸載已安裝 PySpark。 這是必要的,databricks-connect
因為套件與 PySpark 衝突。 如需詳細資訊,請參閱 衝突的 PySpark 安裝。 若要檢查是否已安裝 PySpark,請執行show
命令。# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
在虛擬環境仍啟用之後,請執行
add
命令來安裝 Databricks Connect 用戶端。poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
注意
Databricks 建議您使用「波狀符號」表示法來指定
databricks-connect@~15.4
,而不是databricks-connect==15.4
,以確保已安裝最新的套件。 雖然這不是必要條件,但它有助於確定您可以使用該叢集的最新支援功能。
下一步
安裝 Databricks Connect 之後,您必須設定 Databricks 的連線。 請參閱 Databricks Connect 的計算組態。