什麼是工作區檔案?
工作區檔案是 Azure Databricks 工作區檔案樹狀目錄中的檔案,不是下列其中一種類型:
- Notebooks
- 查詢
- 儀表板
- Genie spaces
- 實驗
除了這些排除的類型以外,工作區檔案可以是任何檔案類型。 常見的範例包括:
- 自訂模組中使用的
.py
檔案。 -
.md
檔案,例如README.md
。 -
.csv
或其他小型資料檔案。 -
.txt
檔案。 -
.whl
程式庫。 - 記錄檔。
如需有關檔案的建議,請參閱 中有關 volumes 的檔案建議和工作區檔案的相關資訊。
您的 Azure Databricks 工作區檔案樹狀目錄可以包含連結至名為「Databricks Git 資料夾」的 Git 存放庫的資料夾。 這些資料夾對於檔案類型支援有一些額外限制。 如需 Git 資料夾所支援的檔案類型list(先前稱為“Repos”),請參閱 Git 資料夾中支援的資產類型。
重要
Databricks Runtime 11.2 版預設會在任何地方啟用工作區檔案。 針對生產工作負載,請使用 Databricks Runtime 11.3 LTS 或更新版本。 如果您無法存取這項功能,請連絡工作區管理員。
您可以使用工作區檔案執行哪些動作
Azure Databricks 提供的功能類似於許多工作區檔類型的本機開發,包括內建的檔案編輯器。 並非所有檔案類型的使用案例都受到支援。
您可以使用筆記本互動中熟悉的模式,建立、編輯和管理工作區檔案的存取權。 您可以使用相對路徑從工作區檔案匯入程式庫,類似於本機開發。 如需詳細資訊,請參閱:
儲存在工作區檔案中的 Init 指令碼具有特殊行為。 您可以使用工作區檔案在任何 Databricks Runtime 版本中儲存和參考 init 指令碼。 請參閱在工作區檔案中儲存 init 指令碼。
注意
在 Databricks Runtime 14.0 和更新版本中,本機執行之程式碼的預設目前工作目錄 (CWD) 是包含執行筆記本或指令碼的目錄。 這是 Databricks Runtime 13.3 LTS 和以下的行為變更。 請參閱預設的目前工作目錄是什麼?。
限制
- 如果您的工作流程使用位於遠端 Git 存放庫的原始程式碼,則您無法使用相對路徑寫入目前目錄或寫入。 將資料寫入其他位置選項。
- 當您儲存至工作區檔案時,無法使用
git
命令。 工作區檔案中不允許建立.git
目錄。 -
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
不支援使用 Spark 執行程式 (例如 ) 從工作區檔案讀取資料。 - 執行程式無法寫入工作區檔案。
- 符號連結僅適用於
/Workspace
根資料夾下的目標目錄,例如os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing")
。 - 在 Databricks Runtime 14.2 和以下共用存取模式的叢集上,無法從使用者定義函式 (UDF) 存取工作區檔案。
檔案大小 limit
- 工作區檔案大小限制為 500 MB。 嘗試下載或建立大於此 limit 檔案的作業將會失敗。
檔案訪問許可權 limit
存取資料夾 /Workspace
內檔案的許可權會在36小時後到期,以進行互動式計算,以及工作30天后。 Databricks 建議在作業需要 /Workspace 檔案存取時執行長時間執行。
啟用工作區檔案
若要啟用 Databricks 工作區中非筆記本檔案的支援,請從筆記本或其他環境呼叫 /api/2.0/workspace-conf REST API,以存取您的 Databricks 工作區。 預設會啟用工作區檔案。
若要啟用或重新啟用 Databricks 工作區中非筆記本檔案的支援,請呼叫 /api/2.0/workspace-conf
,並 getenableWorkspaceFileSystem
索引鍵的值。 如果範圍為 set 至 true
,則工作區已經啟用了非筆記型電腦相關檔案。
下列範例示範如何從筆記本呼叫此 API,以檢查工作區檔案是否已停用,如果是,請重新啟用。