Databricks Repos 發生了什麼事?
Azure Databricks 推出新的使用者介面元素,可讓使用者直接從工作區 UI 使用 Git 存放庫支援的資料夾,有效地取代先前個別的「存放庫」功能功能。
這項變更對我意味著什麼?
如果您是 Databricks Repos 功能的使用者,用於項目資產的共同版本 Git 原始檔控制,核心功能並未變更。 最值得注意的差異是,許多內容相關的UI作業現在指的是「Git 資料夾」,而不是「存放庫」。
例如,您可以從 UI 選取 [新增],然後從 UI 選取 [存放庫],以建立由 Git 存放庫支援的 Databricks 資料夾:
現在,您 select新增,然後選擇 Git 資料夾 。 同樣的事情,不同的名稱!
這項變更提供一些改善,可簡化使用版本控制的資料夾:
-
更好的資料夾組織:您可以在工作區檔案樹狀結構的任何層級建立 Git 資料夾,讓您以最適合您專案的方式組織 Git 資料夾。 例如,您可以在 建立 Git 資料夾
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
。 Repos 只能在固定目錄層級建立,例如 Repos 使用者資料夾的根目錄,例如/Workspace/Repos/<user email>/<Repo name>
。- 注意:Git 資料夾可以包含或共置目前 Repos 不支援的其他資產。 不支持的資產類型,例如 DBSQL 資產和 MLflow 實驗可以移至 Git 資料夾。 將會隨著時間新增對其他資產的串行化支援。
- 簡化的 UI 行為:這項變更會直接將一般工作區互動帶入您的 Databricks 工作區,並減少在工作區與版本控制的 Git 資料夾之間瀏覽所花費的時間。
具體來說,有什麼變化?
- Git 資料夾可以在目錄外部
/Repos
建立。 - Git 資料夾是藉由選取 Databricks 工作區中的 [新增>Git] 資料夾來建立。 這會在下
/Workspace/Users/<user-email>/
建立新的 Git 資料夾。 - 只要資料夾位於 下,就可以在工作區檔案樹狀結構的各種深度建立
/Workspace/Users/<user-email>
Git 資料夾。 例如,您可以在 建立 Git 資料夾/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
。 您可以在 底下/Workspace/Users/<user-email>
有多個 Git 資料夾。 - Git 資料夾中允許不支持的資產 。 將會隨著時間新增其他資產類型的串行化支援。
- 不同於 Repos,您無法在沒有遠端存放庫 URL 的情況下,在 Databricks 中建立新的 Git 資料夾。
我目前的 Repos 會發生什麼事?
如果您已為 Azure Databricks 工作區定義 Repos,則 它們不會 消失,而且您不需要將這些現有的 Repos 移轉至 Git 資料夾。 相反地,Repos 已整合到 Azure Databricks 工作區使用者介面中,不再以個別 set 的方式呈現在最上層 存放庫 節點下組織的資料夾。 他們現在可以在根資料夾下 /Workspace
找到,作為 /Workspace/Repos
。
- 現有的
/Repos
參考將會繼續運作。 開頭/Repos
為 或/Workspace/Repos
參考相同資料夾的路徑,以及、jobs
和dbutils.notebook.run
參考中%run
宣告的路徑可以保持不變。 - 在罕見的情況下,您必須在工作區中進行一次性修改,此重新導向才能運作。 如需這項修改的詳細資訊,請參閱 工作區對象的參考。
如果使用者需要從 Databricks 工作區連線到 Git 原始檔控制,則建議使用者建立新的 Git 資料夾,而不是 Repos。 共置 Git 存放庫和其他工作區資產可讓 Git 資料夾比 Repos 更容易探索及管理。
Git 資料夾許可權 Git 資料夾與其他工作區資料夾具有相同 的工作區資料夾許可權 。 用戶必須具有 CAN_MANAGE
許可權,才能執行大部分的 Git 作業。
我應該使用哪一個 DBR 在 Git 資料夾中執行程式代碼?
為了在 Git 資料夾與舊版 Repos 之間執行一致的程式代碼,Databricks 建議使用者只在具有 DBR 15+ 的 Git 資料夾中執行程式代碼。
目前的工作目錄 (CWD) 行為
Databricks Runtime (DBR) 第 14 版或更新版本可讓您使用相對路徑,併為所有筆記本提供相同的 目前工作目錄 (CWD) 體驗,where 您從目前的工作目錄執行筆記本。 目前的工作目錄 (CWD) 行為在 Git 資料夾中的筆記本與舊版 Databricks Runtime 的非 Git 資料夾之間可能會不一致。
Python sys.path 行為
Databricks Runtime (DBR) 14.3 版或更新版本在 Git 資料夾中提供與舊版 Repos 相同的 sys.path
行為。 使用舊版 DBR 時,Git 資料夾行為與舊版 Repos 不同,因為 Git 資料夾不會自動新增至 sys.path
根存放庫目錄。 針對 Python,sys.path
包含解釋器匯入模組時所搜尋的目錄 list。 如果您無法使用 DBR 15 或更新版本,您可以手動將資料夾路徑附加至 sys.path
作為因應措施。
如需如何將目錄新增至 sys.path
使用相對路徑的範例,請參閱 匯入 Python 和 R 模組。
Python 連結庫優先順序
Databricks Runtime (DBR) 14.3 版或更新版本在 Git 資料夾中提供與舊版 Repos 相同的 Python 連結庫優先順序 。