搭配適用於 Python 的 PyDev 和 Databricks Connect 使用 Eclipse
注意
本文涵蓋 Databricks Runtime 13.3 LTS 和更新版本適用的 Databricks Connect。
本文涵蓋如何使用 Databricks Connect for Scala 和 Eclipse 搭配 PyDev。 Databricks Connect 可讓您將熱門 IDE、Notebook 伺服器和其他自定義應用程式連線到 Azure Databricks 叢集。 請參閱什麼是 Databricks Connect?。
注意
開始使用 Databricks Connect 之前,您必須先 設定 Databricks Connect 用戶端。
若要搭配 PyDev 使用 Databricks Connect 和 Eclipse,請遵循這些指示。
- 啟動 Eclipse。
- 建立專案:按兩下 [檔案 > 新 > 專案 > PyDev > PyDev 專案],然後按 [ 下一步]。
- 指定 項目名稱。
- 針對 [項目內容],指定 Python 虛擬環境的路徑。
- 按兩下 [請設定解釋器],再進行程式。
- 按兩下 [ 手動設定]。
- 按兩下 [ 新增 > 瀏覽 python/pypy exe]。
- 流覽至並選取從虛擬環境參考之 Python 解釋器的完整路徑,然後按兩下 [ 開啟]。
- 在 [ 選取解釋器] 對話框中,按兩下 [ 確定]。
- 在 [ 需要選取專案] 對話框中,按兩下 [ 確定]。
- 在 [ 喜好設定 ] 對話框中,按兩下 [ 套用並關閉]。
- 在 [PyDev 專案 ] 對話框中,按兩下 [ 完成]。
- 按兩下 [ 開啟檢視方塊]。
- 將 Python 程式代碼 (
.py
) 檔案新增至專案,其中包含 範例程式代碼或您自己的程式代碼 。 如果您使用自己的程式代碼,您至少必須初始化DatabricksSession
,如範例程式代碼所示。 - 開啟 Python 程式代碼檔案後,設定您希望程式代碼在執行時暫停的任何斷點。
- 若要執行程式代碼,請按兩下 [執行執行>]。 所有 Python 程式代碼都會在本機執行,而涉及 DataFrame 作業的所有 PySpark 程式代碼都會在遠端 Azure Databricks 工作區的叢集上執行,並執行回應會傳回給本機呼叫者。
- 若要偵錯程式代碼,請按兩下 [ 執行 > 偵錯]。 所有 Python 程式代碼都會在本機偵錯,而所有 PySpark 程式代碼都會繼續在遠端 Azure Databricks 工作區中的叢集上執行。 核心 Spark 引擎程式代碼無法直接從客戶端進行偵錯。
如需更具體的執行和偵錯指示,請參閱 執行程式。