작업 영역 파일이란?
작업 영역 파일은 다음과 같이 나열된 형식 중 하나가 아닌 Azure Databricks 작업 영역 파일 트리의 파일입니다.
- Notebooks
- 쿼리
- 대시보드
- Genie 스페이스
- 실험
이러한 제외된 형식 이외에 작업 영역 파일은 모든 파일 형식일 수 있습니다. 일반적인 예는 다음과 같습니다.
- 사용자 지정 모듈에 사용되는
.py
파일. .md
파일(예:README.md
)..csv
또는 기타 작은 데이터 파일..txt
파일..whl
라이브러리.- 로그 파일
파일 작업에 대한 권장 사항은 볼륨 및 작업 영역 파일의 파일에 대한 권장 사항을 참조하세요.
Azure Databricks 작업 영역 파일 트리에는 "Databricks Git 폴더"라는 Git 리포지토리에 연결된 폴더가 포함될 수 있습니다. 파일 형식 지원에는 몇 가지 추가 제한 사항이 있습니다. Git 폴더(이전의 "Repos")에서 지원되는 파일 형식 목록은 Git 폴더에서 지원되는 자산 형식을 참조 하세요.
Important
작업 영역 파일은 Databricks Runtime 버전 11.2에서 기본적으로 모든 곳에서 사용하도록 설정됩니다. 프로덕션 워크로드의 경우 Databricks Runtime 11.3 LTS 이상을 사용합니다. 이 기능에 액세스할 수 없는 경우 작업 영역 관리자에게 문의하세요.
작업 영역 파일로 수행할 수 있는 작업
Azure Databricks는 기본 제공 파일 편집기를 포함하여 많은 작업 영역 파일 형식에 대한 로컬 개발과 유사한 기능을 제공합니다. 모든 파일 형식에 대해 모든 사용 사례가 지원되지는 않습니다.
Notebook 상호 작용에서 익숙한 패턴을 사용하여 작업 영역 파일에 대한 액세스를 생성, 편집, 관리할 수 있습니다. 로컬 개발과 유사하게 작업 영역 파일에서 라이브러리 가져오기에 상대 경로를 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요.
작업 영역 파일에 저장된 Init 스크립트에는 특별한 동작이 있습니다. 작업 영역 파일을 사용하여 Databricks Runtime 버전에서 init 스크립트를 저장하고 참조할 수 있습니다. 작업 영역 파일에 init 스크립트 저장을 참조하세요.
참고 항목
Databricks Runtime 14.0 이상에서 로컬로 실행되는 코드의 기본 CWD(현재 작업 디렉터리)는 실행 중인 Notebook 또는 스크립트가 포함된 디렉터리입니다. 이는 Databricks Runtime 13.3 LTS 이하의 동작 변경입니다. 기본 현재 작업 디렉터리란?을 참조하세요.
제한 사항
- 워크플로에서 원격 Git 리포지토리에 있는 소스 코드를 사용하는 경우 현재 디렉터리에 쓰거나 상대 경로를 사용하여 쓸 수 없습니다. 다른 위치 옵션에 데이터를 씁니다.
- 작업 영역 파일에 저장할 때는
git
명령을 사용할 수 없습니다. 작업 영역 파일에서는.git
디렉터리를 만들 수 없습니다. - Spark 실행기를 사용하여 작업 영역 파일에서 읽기(예:
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
)는 서버리스 컴퓨팅에서 지원되지 않습니다. - 실행기는 작업 영역 파일에 쓸 수 없습니다.
- Symlink는 루트 폴더 아래의
/Workspace
대상 디렉터리에 대해 지원됩니다. - Databricks Runtime 14.2 이하의 공유 액세스 모드를 사용하는 클러스터의 UDF(사용자 정의 함수)에서 작업 영역 파일에 액세스할 수 없습니다.
파일 크기 제한
- 작업 영역 파일 크기는 UI에서 500MB로 제한됩니다. 클러스터에서 쓸 때 허용되는 최대 파일 크기는 256MB입니다.
파일 액세스 권한 제한
대화형 컴퓨팅의 경우 36시간 후 및 작업에 대해 30일 후에 폴더 /Workspace
의 파일에 액세스할 수 있는 권한이 만료됩니다. Databricks는 /Workspace 파일 액세스가 필요한 경우 장기 실행을 작업으로 실행하는 것이 좋습니다.
작업 영역 파일 사용
Databricks 작업 영역에서 Notebook이 아닌 파일에 대한 지원을 사용하도록 설정하려면 Databricks 작업 영역에 액세스할 수 있는 Notebook 또는 기타 환경에서 /api/2.0/workspace-conf REST API를 호출합니다. 작업 영역 파일은 기본적으로 사용하도록 설정됩니다.
Databricks 작업 영역에서 Notebook이 아닌 파일에 대한 지원을 사용하거나 다시 사용하도록 설정하려면 /api/2.0/workspace-conf
를 호출하고 enableWorkspaceFileSystem
키의 값을 가져옵니다. true
로 설정된 경우 Notebook이 아닌 파일은 작업 영역에 대해 이미 사용하도록 설정되어 있습니다.
다음 예제에서는 Notebook에서 이 API를 호출하여 작업 영역 파일이 비활성화되어 있는지 확인하고 이 경우 다시 사용하도록 설정하는 방법을 보여줍니다.