dbx를 사용하여 로컬 파일을 원격 작업 영역과 실시간으로 동기화
Important
이 설명서는 사용 중지되었으며 업데이트되지 않을 수 있습니다.
Databricks는 대신 명령을 통해 databricks sync
와 유사한 기능을 포함하는 Databricks CLI 버전 0.205 이상을 사용하는 것이 dbx sync
좋습니다dbx sync
.
Visual Studio Code용 Databricks 확장에는 Visual Studio Code IDE에 통합된 것과 유사한 dbx sync
기능도 포함되어 있습니다. dbx sync
로컬 개발 컴퓨터의 파일 변경 내용을 Azure Databricks 작업 영역의 DBFS, 작업 영역 위치 및 Databricks Git 폴더로 동기화할 수 있습니다. Visual Studio Code용 Databricks 확장은 파일 변경 내용을 작업 영역 사용자() 파일 및 Databricks Git 폴더(/Users
/Repos
)에만 동기화하도록 지원합니다.
참고 항목
이 문서에서는 있는 그대로 제공되며, 고객 기술 지원 채널을 통해 Databricks에서 지원하지 않는 dbx
(Databricks Labs 제공)를 설명합니다. 질문 및 기능 요청은 GitHub에 있는 databrickslabs/dbx 리포지토리의 문제 페이지를 통해 전달될 수 있습니다.
Databricks Labs의 dbx를 사용하여 Azure Databricks 작업 영역의 해당 파일과 로컬 개발 컴퓨터의 파일 변경 내용을 실시간으로 동기화할 수 있습니다. 이러한 작업 영역 파일은 DBFS 또는 Databricks Git 폴더에 있을 수 있습니다.
dbx
(dbx sync
라고도 함)와의 실시간 파일 동기화는 빠른 코드 개발 시나리오에서 유용합니다. 예를 들어 구문 강조, 스마트 코드 완료, 코드 린팅, 테스팅 및 디버깅과 같은 생산성 기능을 위해 로컬 IDE(통합 개발 환경)을 사용할 수 있습니다. 그런 다음 즉시 작업 영역으로 이동하여 업데이트된 코드를 실행할 수 있습니다.
자체적으로 dbx sync
를 사용하거나 자동화된 작업 또는 IDE에서 사용할 수 있습니다.
dbx sync
개발 워크플로
DBFS와 Databricks dbx sync
Git 폴더가 있는 두 가지 개발 워크플로가 있습니다.
dbx sync
및 DBFS를 사용한 일반적인 개발 워크플로는 다음과 같습니다.
- DBFS에 동기화할 파일이 포함된 로컬 디렉터리를 식별합니다.
- 로컬 디렉터리와 동기화할 DBFS의 경로를 식별하거나
dbx sync
에서 기본 DBFS 경로를 만들도록 합니다. dbx sync dbfs
를 실행하여 로컬 디렉터리를 DBFS 경로와 동기화합니다.dbx sync
는 파일 변경 내용에 대해 로컬 디렉터리를 감시하기 시작합니다.- 필요에 따라 로컬 디렉터리의 파일을 변경합니다.
dbx sync
는 이러한 변경 내용을 실시간으로 DBFS 경로의 해당 파일에 적용합니다.
Databricks Git 폴더를 사용하는 일반적인 개발 워크플로 dbx sync
는 다음과 같습니다.
- 아직 사용할 수 있는 리포지토리가 없는 경우 Databricks Git 폴더에서 지원하는 Git 공급자 를 사용하여 리포지토리를 만듭니다.
- Azure Databricks 작업 영역에 리포지토리를 복제합니다.
- 리포지토리를 로컬 개발 컴퓨터에 복제합니다.
dbx sync repo
를 실행하여 로컬 복제 리포지토리를 작업 영역 복제 리포지토리와 연결합니다.dbx sync
는 파일 변경 내용에 대해 로컬 디렉터리를 감시하기 시작합니다.- 필요에 따라 로컬 복제 리포지토리의 파일을 변경합니다.
dbx sync
는 이러한 변경 내용을 Databricks Git 폴더의 해당 파일에 실시간으로 적용합니다. - 작업 영역의 복제된 리포지토리에서 Git 공급자로 업데이트된 파일을 주기적으로 푸시하여 리포지토리가 Git 공급자와 함께 최신 상태를 유지하도록 합니다.
Important
dbx sync
는 로컬 개발 컴퓨터에서 원격 작업 영역으로 파일 변경 내용의 단방향 실시간 동기화만 수행합니다. 따라서 Azure Databricks 작업 영역에서 dbx sync
가 모니터링하는 파일에 대한 변경을 시작하지 않는 것이 좋습니다. 작업 영역에서 시작한 파일을 변경해야 하는 경우 다음도 수행해야 합니다.
- DBFS의 파일 변경의 경우 로컬 파일에 해당하는 변경을 수동으로 수행합니다.
- Databricks Git 폴더의 파일 변경 내용을 보려면 작업 영역에서 Git 공급자로 파일 변경 내용을 푸시합니다. 그런 다음 로컬 개발 컴퓨터에서 Git 공급자로부터 해당 파일 변경 내용을 가져옵니다.
요구 사항
Databricks Git 폴더와 함께 사용 dbx sync
하려면 Azure Databricks 작업 영역이 다음 요구 사항을 충족해야 합니다.
- Git 공급자가 있는 리포지토리의 복제는 필수 사항은 아니지만 수행하는 것이 좋습니다.
로컬 개발 컴퓨터에 다음이 설치되어 있어야 합니다.
Python 버전 3.8 이상 Python이 설치되어 있는지 확인하고 설치된 Python 버전을 확인하려면 터미널 또는 PowerShell에서
python --version
을 실행합니다.python --version
참고 항목
python
의 일부 설치에서는python
대신python3
을 사용해야 할 수 있습니다. 그렇다면 이 문서 전체에서python
을python3
으로 대체합니다.pip.
pip
가 설치되었는지 확인하고 설치된pip
버전을 확인하려면pip --version
또는python -m pip --version
을 실행합니다.pip --version # Or... python -m pip --version
참고 항목
pip
의 일부 설치에서는pip
대신pip3
을 사용해야 할 수 있습니다. 그렇다면 이 문서 전체에서pip
을pip3
으로 대체합니다.dbx 버전 0.8.0 이상
dbx
가 설치되었는지 확인하고 설치된dbx
버전을 확인하려면dbx --version
을 실행합니다. PyPI(Python 패키지 인덱스)에서dbx
를 설치하려면pip install dbx
또는python -m pip install dbx
를 실행합니다. (dbx
에는 dbx sync가 포함됩니다.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
참고 항목
dbx
에 대한 자세한 내용은 Databricks Labs의 dbx 및 dbx 설명서를 참조하세요.Databricks CLI 버전 0.18 이하는 인증을 사용하여 설정합니다. 레거시 Databricks CLI(Databricks CLI 버전 0.17)는 설치할 때 자동으로 설치
dbx
됩니다. 이 인증은 다음 위치 중 하나 또는 둘 다에서 로컬 개발 머신에 설정할 수 있습니다.DATABRICKS_HOST
및DATABRICKS_TOKEN
환경 변수 내에서(레거시 Databricks CLI 버전 0.8.0부터 시작).databrickscfg
파일 내의 Azure Databricks 구성 프로필에서
dbx
는 각각 이 두 위치에서 인증 자격 증명을 찾습니다.dbx
는 일치하는 첫 번째 자격 증명 집합만 사용합니다.참고 항목
.databrickscfg
파일을 사용하는 경우dbx sync
는 기본적으로 이 파일에서 이름이DEFAULT
인 구성 프로필을 찾습니다. 다른 프로필을 지정하려면 이 문서 뒷부분에서dbx sync
명령을 실행할 때--profile
옵션을 사용합니다.dbx
는 인증을 위한 .netrc 파일 사용을 지원하지 않습니다.Databricks Git 폴더와 함께 사용
dbx sync
하려는 경우 필수는 아니지만 Git 공급자와 함께 리포지토리의 로컬 복제본을 사용하는 것이 좋습니다. 로컬 복제를 수행하려면 Git 공급자의 설명서를 참조하세요.
dbx sync
와 함께 DBFS 사용
로컬 개발 컴퓨터의 터미널 또는 PowerShell에서 Azure Databricks 작업 영역의 DBFS와 동기화할 파일이 포함된 디렉터리로 변경합니다.
다음과 같이 dbx sync 명령을 실행하여 로컬 디렉터리를 작업 영역의 DBFS와 동기화합니다. (현재 디렉터리를 나타내는 끝에 있는 점(
.
)을 잊지 마세요.)dbx sync dbfs --source .
팁
다른 소스 디렉터리를 지정하려면 점(
.
)을 다른 경로로 바꿉니다.참고 항목
Error: No such command 'sync'
오류가 나타나면dbx
설치가 만료되었을 수 있습니다. 이 문제를 해결하려면pip install --upgrade dbx==<version>
또는python -m pip install --upgrade dbx==version
을 실행합니다. 여기서<version>
은dbx
의 최신 버전입니다. 이 버전 번호는 dbx용 PyPI 웹페이지에서 찾을 수 있습니다.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
는 현재 로컬 디렉터리의 파일을 작업 영역의 다음 DBFS 경로에 있는 파일과 동기화하기 시작합니다.dbx sync
는Target base path
다음에 DBFS 경로를 인쇄하여 이를 확인합니다. 예를 들면 다음과 같습니다./tmp/users/<your-Databricks-username>/<local-directory-name>
팁
다른 사용자 이름 또는 DBFS 경로를 지정하려면
dbx sync
를 실행할 때 각각--user
및--dest
옵션을 지정합니다.필요에 따라 로컬 파일을 변경합니다.
Important
동기화를 계속하려면
dbx sync
에 대해 터미널 또는 PowerShell을 열어 두어야 합니다. 터미널 또는 PowerShell을 닫으면dbx sync
에서 파일 변경 내용 감시를 중지하고 동기화를 중지합니다. 파일 변경 동기화를 다시 시작하려면 이 프로시저를 처음부터 반복합니다.필요에 따라 작업 영역의 DBFS에서 이전 경로의 파일 변경 내용을 확인합니다.
Databricks Git 폴더 사용 dbx sync
로컬 개발 컴퓨터의 터미널 또는 PowerShell에서 Git 공급자가 있는 리포지토리의 복제본이 포함된 루트 디렉터리로 변경합니다.
Azure Databricks 작업 영역에서 로컬 복제 리포지토리를 동기화하려는 Databricks Git 폴더의 이름을 식별합니다. 작업 영역의 사이드바에서 Git 폴더를 클릭하여 이 리포지토리 이름을 찾을 수 있습니다.
로컬 개발 컴퓨터에서 dbx 동기화 명령을 실행하여 로컬 복제된 리포지토리를 다음과 같이 작업 영역의 Databricks Git 폴더에 동기화하고 Databricks Git 폴더의 리포지토리 이름으로 바꿔
<your-repo-name>
서 동기화합니다. (현재 디렉터리를 나타내는 끝에 있는 점(.
)을 잊지 마세요.)dbx sync repo -d <your-repo-name> --source .
팁
다른 소스 디렉터리를 지정하려면 점(
.
)을 다른 경로로 바꿉니다.참고 항목
Error: No such command 'sync'
오류가 나타나면dbx
설치가 만료되었을 수 있습니다. 이 문제를 해결하려면pip install --upgrade dbx==<version>
또는python -m pip install --upgrade dbx==version
을 실행합니다. 여기서<version>
은dbx
의 최신 버전입니다. 이 버전 번호는 dbx용 PyPI 웹페이지에서 찾을 수 있습니다.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
는 로컬 복제된 리포지토리의 파일을 작업 영역의 Databricks Git 폴더에 있는 파일과 동기화하기 시작합니다.dbx sync
는 Databricks Git 폴더 경로를 인쇄Target base path
하여 이를 확인합니다. 예를 들면 다음과 같습니다./Repos/<your-Databricks-username>/<your-repo-name>
팁
다른 사용자 이름 또는 리포지토리 이름을 지정하려면
dbx sync
를 실행할 때 각각--user
및--dest-repo
옵션을 지정합니다.필요에 따라 로컬 파일을 변경합니다.
Important
동기화를 계속하려면
dbx sync
에 대해 터미널 또는 PowerShell을 열어 두어야 합니다. 터미널 또는 PowerShell을 닫으면dbx sync
에서 파일 변경 내용 감시를 중지하고 동기화를 중지합니다. 파일 변경 동기화를 다시 시작하려면 이 프로시저를 처음부터 반복합니다.필요에 따라 작업 영역의 Databricks Git 폴더에서 파일 변경 내용을 확인합니다.
추가 리소스
- dbx documentation
- dbx 동기화 설명서
- GitHub의 databrickslabs/dbx 리포지토리
- dbx 제한 사항