Set 設定 Databricks Git 資料夾 (存儲庫)
瞭解如何 set Databricks Git 資料夾 (先前稱為 Repos) 進行版本控制。 在 Databricks 中 set Git 資料夾之後,您可以從 Databricks UI 執行常見的 Git 作業,例如複製、簽出、認可、推送、提取和分支管理。 當您使用 Databricks 中的筆記本和檔案進行開發時,您也可以看到所做變更的差異。
設定使用者設定
Databricks Git 資料夾使用個人存取權杖 (PAT) 或對等認證向 Git 供應商進行驗證,以執行複製、推送、接收等作業。若要使用 Git 資料夾,您必須先將 Git PAT 和 Git 供應商使用者名稱新增至 Databricks。 請參閱 設定 Git credentials & 將遠端存放庫連線至 Azure Databricks。
您可以在不使用 Git credentials 的情況下複製公用遠端存放庫(需要個人存取權杖和使用者名稱)。 若要修改公用遠端存放庫,或複製或修改私人遠端存放庫,您必須擁有具備遠端存放庫寫入 (或更高) 權限的 Git 供應商使用者名稱和 PAT。
預設會啟用 Git 資料夾。 如需啟用或停用 Git 資料夾支援的詳細資訊,請參閱啟用或停用 Databricks Git 資料夾功能。
在 Databricks 中新增或編輯 Git credentials
重要
Databricks Git 資料夾僅支援一個使用者、一個工作區使用一個 Git 認證。
Select 畫面右上方帳戶名稱旁的向下箭號,然後 select[設定]。
Select 連結帳戶 標籤頁。
如果您第一次新增 credentials,請遵循螢幕上的指示。
如果您先前已輸入 credentials,請按兩下 [組態]>[編輯],然後移至下一個步驟。
在 Git 提供者下拉式清單中,select 提供者名稱。
輸入 Git 使用者名稱或電子郵件。
在 [令牌] 欄位中,新增從您的 Git 提供者取得的個人存取令牌(PAT)或其他 credentials。 如需詳細資訊,請參閱 設定 Git credentials & 將遠端存放庫連線至 Azure Databricks
重要
Databricks 建議您 set 所有個人存取令牌的到期日。
針對 Azure DevOps,如果您未輸入權杖或應用程式密碼,Git 整合預設會使用Microsoft Entra ID 權杖。 如果您輸入 Azure DevOps 個人存取權杖,Git 整合會改用它。 請參閱使用權杖連線到 Azure DevOps 存放庫。
注意
完成 update Azure 密碼之後,若需要立即啟用新的驗證,請使用 Azure Databricks 重新進行驗證。 如果您未重新驗證,Azure DevOps 連線可能有長達 24 小時的時間未驗證。
如果組織已在 GitHub 啟用 SAML SSO,請為 SSO 授權個人存取權杖。
在 [Git 供應商使用者名稱]欄位輸入使用者名稱。
按一下 [檔案] 。
您也可以使用 Databricks Repos API,將 Git PAT 權杖和使用者名稱儲存至 Azure Databricks。
如果您無法複製存放庫,且透過 Microsoft Entra ID 驗證使用 Azure DevOps,請參閱 Microsoft Entra ID 的條件式存取原則 (CAP) 問題。
Databricks Git 資料夾與 Git 供應商之間的網路連線
Git 資料夾需要與 Git 供應商的網路連線才能運作。 通常透過網際網路隨裝即用。 不過,您可能已 set Git 提供者的額外限制,以控制存取權。 例如,您可能已有 IP 允許清單 list,或者您可能使用 GitHub Enterprise(GHE)、Bitbucket Server(BBS)或 Gitlab 自行管理等服務來架設自己的內部部署 Git 伺服器。 視網路託管和組態而定,Git 伺服器可能無法從網際網路存取。
注意
- 如果 Git 伺服器可存取網際網路,但是有 IP 允許清單,例如 GitHub 允許清單,您必須將 Azure Databricks 控制平面 NAT IP 新增至 Git 伺服器的 IP 允許清單。 如需依區域的控制平面 NAT IP 位址 list,請參閱 Azure Databricks 區域。 請使用 Azure Databricks 工作區所在區域的 IP。
- 如果您是自行設定 Git 伺服器,請閱讀 Set 設定 Azure Databricks Git 資料夾(存儲庫)私有 Git 連線的指南,或連絡 Azure Databricks 帳戶小組以取得存取指示。
Git 資料夾中的安全性功能
Databricks Git 資料夾有許多安全性功能。 下列各節逐步引導您設定及使用:
- 使用加密的 Git credentials
- 允許清單
- 工作區存取控制
- 稽核記錄
- 祕密偵測
自備金鑰:加密 Git credentials
您可以使用 Azure Key Vault 加密 Git 個人存取權杖 (PAT) 或其他 Git 認證。 使用加密服務的金鑰稱為客戶自控金鑰 (CMK) 或攜帶您自己的金鑰 (BYOK)。
如需詳細資訊,請參閱適用於加密的客戶自控金鑰。
限制在允許 list 中使用URL
如果您使用 Microsoft Entra 標識符向 Azure DevOps 進行驗證,則默認允許 list 限制 Git URL:
- dev.azure.com
- visualstudio.com
針對具有自定義 CNAMES 或 Git URL 別名的 AAD,您的工作區管理員可以設定自訂允許 list,如下列步驟所示。 如果您使用自訂允許 list,則如果您想要使用這些 URL,您的工作區管理員必須新增這些 URL:dev.azure.com
並 visualstudio.com
。
工作區管理員可以決定 limit 哪些遠端存放庫,使用者可以從中克隆和提交 & 推送。 這有助於防止程式代碼外洩;例如,如果您已開啟允許 list 限制,使用者就無法將程式代碼推送至任意存放庫。 您也可以將複製作業限制為允許的存放庫 list,以防止使用者使用未授權的程序代碼。
若要 set 允許 list:
按下 [工作區管理員]索引標籤 (預設為開啟)。
在 [開發] 區段中,從 Git URL 選擇一個選項,允許 list 權限:
- 停用(無限制):沒有針對允許的檢查 list。
- 限制複製、認可 & 推送至允許的 Git 存放庫:複製、認可和推送作業只允許允許 list中的存放庫 URL 使用。
- 僅將認可 & 推送限制為允許的 Git 存放庫:只有允許 list中的存放庫 URL 才允許認可和推送作業。 複製和接收作業不受限制。
單擊 [Git URL 旁的 [編輯] 按鈕,允許 list:空白 list,然後輸入以逗號分隔的 URL 前置詞 list。
按一下 [檔案] 。
注意
- 您儲存的 list 將覆寫已儲存的 URL 字首中的現有 set。
- 最多可能需要 15 分鐘的時間,才能讓變更生效。
允許存取所有存放庫
若要停用現有的允許 list 並允許存取所有存放庫:
控制工作區中存放庫的存取權
注意
僅進階版方案提供存取控制。
Set 儲存庫用於控制存取權的許可權。 存放庫的權限會套用至該存放庫的所有內容。 您可以為檔案指派五個權限等級:無權限、讀取、執行、編輯及管理。
如需 Git 資料夾權限的詳細資訊,請參閱 Git 資料夾 ACL。
(選擇性) Set 企業 Git 伺服器的 Proxy
如果公司使用內部部署企業 Git 服務,例如 GitHub Enterprise 或 Azure DevOps Server,您可以使用 Databricks Git Server Proxy 將 Databricks 工作區連線到它所服務的存放庫。
稽核記錄
若啟用[稽核記錄],與 Git 資料夾互動時會記錄稽核事件。 例如,當您建立、update或刪除 Git 資料夾、list 與工作區相關聯的所有 Git 資料夾,以及當您 sync Git 資料夾與遠端 Git 存放庫之間的變更時,就會記錄稽核事件。
祕密偵測
Git 資料夾會掃描程式碼是否有開頭為前置詞 AKIA
的存取金鑰 ID,並在提交之前警告使用者。
使用存放庫設定檔
您可以在手動建立的 .databricks/commit_outputs
檔案中,將每個筆記本的設定新增至存放庫。
使用類似 gitignore 模式的模式,指定您想要包含輸出的筆記本。
存放庫設定檔的模式
檔案包含正向與反向檔案路徑模式。 檔案路徑模式包含筆記本副檔名,例如 .ipynb
。
- 正向模式啟用讓輸出包含相符的筆記本。
- 反向模式停用讓輸出包含相符的筆記本。
所有筆記本的模式都會依序進行評估。 忽略無效路徑或無法解析至 .ipynb
筆記本的路徑。
若要包含筆記本路徑的輸出folder/innerfolder/notebook.ipynb
,請使用下列模式:
**/*
folder/**
folder/innerfolder/note*
若要排除筆記本的輸出,請檢查設定檔的正確位置沒有任何正向模式相符或新增反向模式。 反向 (排除) 模式的開頭為 !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
將 Git 資料夾移至垃圾桶 (刪除)
若要從工作區移除 Git 資料夾:
右鍵點擊 Git 資料夾,然後 select移至垃圾桶。
在對話框輸入您要刪除的 Git 資料夾名稱。 然後,按下[確認並移至垃圾桶]。