Databricks Repos는 어떻게 되었나요?
Azure Databricks는 사용자가 작업 영역 UI에서 Git 리포지토리 지원 폴더로 직접 작업할 수 있도록 하는 새 사용자 인터페이스 요소를 롤아웃하여 이전의 별도의 "Repos" 기능 기능을 효과적으로 대체했습니다.
이 변화는 나에게 무엇을 의미합니까?
프로젝트 자산의 공동 버전 Git 기반 소스 제어에 대한 Databricks Repos 기능의 사용자인 경우 핵심 기능은 변경되지 않았습니다. 가장 주목할 만한 차이점은 많은 상황별 UI 작업이 이제 "Repos"가 아닌 "Git 폴더"를 참조한다는 것입니다.
예를 들어 Git 리포지토리에서 백업되는 Databricks 폴더는 UI에서 새로 만들기 및 리포지토리를 선택하여 만들 수 있습니다.
이제 새
이 변경은 버전 제어 폴더 작업을 간소화하는 몇 가지 향상된 기능을 제공합니다.
-
더 나은 폴더 조직: Git 폴더는 모든 수준의 작업 영역 파일 트리에서 만들 수 있으므로 프로젝트에 가장 적합한 방식으로 Git 폴더를 구성할 수 있습니다. 예를 들어 .에서
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
Git 폴더를 만들 수 있습니다. 리포지토리는 Repos 사용자 폴더의 루트와 같은 고정 디렉터리 수준에서만 만들 수 있습니다/Workspace/Repos/<user email>/<Repo name>
.- 참고: Git 폴더는 현재 Repos에서 지원하지 않는 다른 자산을 포함하거나 함께 배치할 수 있습니다. DBSQL 자산 및 MLflow 실험과 같은 지원되지 않는 자산 유형을 Git 폴더로 이동할 수 있습니다. 추가 자산에 대한 직렬화 지원은 시간이 지남에 따라 추가됩니다.
- 간소화된 UI 동작: 이 변경은 Git을 사용하여 Databricks 작업 영역으로 직접 작업하는 일반적인 작업 영역 상호 작용을 가져오고 작업 영역과 버전 제어 Git 폴더 간을 탐색하는 데 소요되는 시간을 줄입니다.
특히 무엇이 변경되었습니까?
- Git 폴더는 디렉터리 외부에서
/Repos
만들 수 있습니다. - Git 폴더는 Databricks 작업 영역에서 새만듭니다. 그러면 아래에 새 Git 폴더
/Workspace/Users/<user-email>/
가 만들어집니다. - Git 폴더는 작업 영역 파일 트리의 다양한 깊이에서 만들 수 있습니다
/Workspace/Users/<user-email>
. 예를 들어 .에서/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
Git 폴더를 만들 수 있습니다. 아래에/Workspace/Users/<user-email>
여러 Git 폴더가 있을 수 있습니다. - 지원되지 않는 자산은 Git 폴더에서 허용됩니다. 다른 자산 유형에 대한 Serialization 지원은 시간이 지남에 따라 추가됩니다.
- Repos와 달리 원격 리포지토리 URL 없이는 Databricks에 새 Git 폴더를 만들 수 없습니다.
현재 리포지토리는 어떻게 되나요?
Azure Databricks 작업 영역에 대해 리포지토리가 정의되어 있는 경우 해당 리포지토리는 사라지지 않으며 기존 리포지토리를 Git 폴더로 마이그레이션할 필요가 없습니다. 대신, Repos는 Azure Databricks 작업 영역 사용자 인터페이스에 통합되었으며 더 이상 최상위 리포지토리 노드로 구성된 별도의 폴더 집합으로 표시되지 않습니다. 이제 루트 폴더에서 /Workspace
다음과 같이 /Workspace/Repos
찾을 수 있습니다.
- 기존
/Repos
참조는 계속 작동합니다. 동일한 폴더로/Repos
시작하거나/Workspace/Repos
참조하는 경로와 ,jobs
dbutils.notebook.run
및 참조에서%run
선언된 경로는 변경되지 않은 상태로 유지될 수 있습니다. - 드물게 이 리디렉션이 작동하려면 작업 영역에서 일회성 수정을 수행해야 합니다. 이 수정에 대한 자세한 내용은 작업 영역 개체에 대한 참조를 참조 하세요.
Databricks는 사용자가 Databricks 작업 영역에서 Git 소스 제어에 연결해야 하는 경우 리포지토리 대신 새 Git 폴더를 만드는 것이 좋습니다. Git 리포지토리 및 기타 작업 영역 자산을 공동 배치하면 Git 폴더를 리포지토리보다 더 쉽게 검색하고 관리할 수 있습니다.
Git 폴더 사용 권한 Git 폴더에는 다른 작업 영역 폴더와 동일한 작업 영역 폴더 권한이 있습니다. 대부분의 Git 작업을 수행하려면 사용자에게 권한이 있어야 합니다 CAN_MANAGE
.
Git 폴더에서 코드를 실행하는 데 사용해야 하는 DBR은 무엇입니까?
Git 폴더와 레거시 리포지토리 간의 일관된 코드 실행을 위해 Databricks는 사용자가 DBR 15 이상인 Git 폴더에서만 코드를 실행하는 것이 좋습니다.
CWD(현재 작업 디렉터리) 동작
DBR(Databricks Runtime) 버전 14 이상에서는 상대 경로를 사용할 수 있으며 현재 작업 디렉터리에서 Notebook을 실행하는 모든 Notebook에 대해 동일한
Python sys.path 동작
DBR(Databricks Runtime) 버전 14.3 이상은 레거시 리포지토리와 Git 폴더에서 동일한 sys.path
동작을 제공합니다. 이전 DBR 버전에서는 Git 폴더에 대한 루트 리포지토리 디렉터리가 자동으로 추가 sys.path
되지 않으므로 Git 폴더 동작이 레거시 리포지토리와 다릅니다. Python의 경우 sys.path
인터프리터가 모듈을 가져올 때 검색하는 디렉터리 목록을 포함합니다. DBR 15 이상을 사용할 수 없는 경우 수동으로 폴더 경로를 sys.path
해결 방법으로 추가할 수 있습니다.
상대 경로를 사용하여 디렉터리를 sys.path
추가하는 방법에 대한 예제는 Python 및 R 모듈 가져오기를 참조 하세요.
Python 라이브러리 우선 순위
DBR(Databricks Runtime) 버전 14.3 이상은 레거시 리포지토리와 동일한 Python 라이브러리 우선 순위를 Git 폴더에 제공합니다.