다음을 통해 공유


dbx를 사용하여 로컬 파일을 원격 작업 영역과 실시간으로 동기화

Important

이 설명서는 사용 중지되었으며 업데이트되지 않을 수 있습니다.

Databricks는 대신 명령을 통해 databricks sync 와 유사한 기능을 포함하는 Databricks CLI 버전 0.205 이상을 사용하는 것이 dbx sync 좋습니다dbx sync.

Visual Studio Code용 Databricks 확장에는 Visual Studio Code IDE에 통합된 것과 유사한 dbx sync 기능도 포함되어 있습니다. dbx sync 로컬 개발 컴퓨터의 파일 변경 내용을 Azure Databricks 작업 영역의 DBFS, 작업 영역 위치 및 Databricks Git 폴더로 동기화할 수 있습니다. Visual Studio Code용 Databricks 확장은 파일 변경 내용을 작업 영역 사용자() 파일 및 Databricks Git 폴더(/Users/Repos)에만 동기화하도록 지원합니다.

참고 항목

이 문서에서는 있는 그대로 제공되며, 고객 기술 지원 채널을 통해 Databricks에서 지원하지 않는 dbx(Databricks Labs 제공)를 설명합니다. 질문 및 기능 요청은 GitHub에 있는 databrickslabs/dbx 리포지토리의 문제 페이지를 통해 전달될 수 있습니다.

Databricks Labs의 dbx를 사용하여 Azure Databricks 작업 영역의 해당 파일과 로컬 개발 컴퓨터의 파일 변경 내용을 실시간으로 동기화할 수 있습니다. 이러한 작업 영역 파일은 DBFS 또는 Databricks Git 폴더에 있을 수 있습니다.

dbx(dbx sync라고도 함)와의 실시간 파일 동기화는 빠른 코드 개발 시나리오에서 유용합니다. 예를 들어 구문 강조, 스마트 코드 완료, 코드 린팅, 테스팅 및 디버깅과 같은 생산성 기능을 위해 로컬 IDE(통합 개발 환경)을 사용할 수 있습니다. 그런 다음 즉시 작업 영역으로 이동하여 업데이트된 코드를 실행할 수 있습니다.

자체적으로 dbx sync를 사용하거나 자동화된 작업 또는 IDE에서 사용할 수 있습니다.

dbx sync 개발 워크플로

DBFS와 Databricks dbx syncGit 폴더가 있는 두 가지 개발 워크플로가 있습니다.

dbx sync 및 DBFS를 사용한 일반적인 개발 워크플로는 다음과 같습니다.

  1. DBFS에 동기화할 파일이 포함된 로컬 디렉터리를 식별합니다.
  2. 로컬 디렉터리와 동기화할 DBFS의 경로를 식별하거나 dbx sync에서 기본 DBFS 경로를 만들도록 합니다.
  3. dbx sync dbfs를 실행하여 로컬 디렉터리를 DBFS 경로와 동기화합니다. dbx sync는 파일 변경 내용에 대해 로컬 디렉터리를 감시하기 시작합니다.
  4. 필요에 따라 로컬 디렉터리의 파일을 변경합니다. dbx sync는 이러한 변경 내용을 실시간으로 DBFS 경로의 해당 파일에 적용합니다.

Databricks Git 폴더를 사용하는 일반적인 개발 워크플로 dbx sync 는 다음과 같습니다.

  1. 아직 사용할 수 있는 리포지토리가 없는 경우 Databricks Git 폴더에서 지원하는 Git 공급자 를 사용하여 리포지토리를 만듭니다.
  2. Azure Databricks 작업 영역에 리포지토리를 복제합니다.
  3. 리포지토리를 로컬 개발 컴퓨터에 복제합니다.
  4. dbx sync repo를 실행하여 로컬 복제 리포지토리를 작업 영역 복제 리포지토리와 연결합니다. dbx sync는 파일 변경 내용에 대해 로컬 디렉터리를 감시하기 시작합니다.
  5. 필요에 따라 로컬 복제 리포지토리의 파일을 변경합니다. dbx sync 는 이러한 변경 내용을 Databricks Git 폴더의 해당 파일에 실시간으로 적용합니다.
  6. 작업 영역의 복제된 리포지토리에서 Git 공급자로 업데이트된 파일을 주기적으로 푸시하여 리포지토리가 Git 공급자와 함께 최신 상태를 유지하도록 합니다.

Important

dbx sync는 로컬 개발 컴퓨터에서 원격 작업 영역으로 파일 변경 내용의 단방향 실시간 동기화만 수행합니다. 따라서 Azure Databricks 작업 영역에서 dbx sync가 모니터링하는 파일에 대한 변경을 시작하지 않는 것이 좋습니다. 작업 영역에서 시작한 파일을 변경해야 하는 경우 다음도 수행해야 합니다.

  • DBFS의 파일 변경의 경우 로컬 파일에 해당하는 변경을 수동으로 수행합니다.
  • Databricks Git 폴더의 파일 변경 내용을 보려면 작업 영역에서 Git 공급자로 파일 변경 내용을 푸시합니다. 그런 다음 로컬 개발 컴퓨터에서 Git 공급자로부터 해당 파일 변경 내용을 가져옵니다.

요구 사항

Databricks Git 폴더와 함께 사용 dbx sync 하려면 Azure Databricks 작업 영역이 다음 요구 사항을 충족해야 합니다.

  • Git 공급자가 있는 리포지토리의 복제는 필수 사항은 아니지만 수행하는 것이 좋습니다.

로컬 개발 컴퓨터에 다음이 설치되어 있어야 합니다.

  • Python 버전 3.8 이상 Python이 설치되어 있는지 확인하고 설치된 Python 버전을 확인하려면 터미널 또는 PowerShell에서 python --version을 실행합니다.

    python --version
    

    참고 항목

    python의 일부 설치에서는 python 대신 python3을 사용해야 할 수 있습니다. 그렇다면 이 문서 전체에서 pythonpython3으로 대체합니다.

  • pip. pip가 설치되었는지 확인하고 설치된 pip 버전을 확인하려면 pip --version 또는 python -m pip --version을 실행합니다.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    참고 항목

    pip의 일부 설치에서는 pip 대신 pip3을 사용해야 할 수 있습니다. 그렇다면 이 문서 전체에서 pippip3으로 대체합니다.

  • dbx 버전 0.8.0 이상 dbx가 설치되었는지 확인하고 설치된 dbx 버전을 확인하려면 dbx --version을 실행합니다. PyPI(Python 패키지 인덱스)에서 dbx를 설치하려면 pip install dbx 또는 python -m pip install dbx를 실행합니다. (dbx에는 dbx sync가 포함됩니다.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    참고 항목

    dbx에 대한 자세한 내용은 Databricks Labs의 dbxdbx 설명서를 참조하세요.

  • Databricks CLI 버전 0.18 이하는 인증을 사용하여 설정합니다. 레거시 Databricks CLI(Databricks CLI 버전 0.17)는 설치할 때 자동으로 설치 dbx됩니다. 이 인증은 다음 위치 중 하나 또는 둘 다에서 로컬 개발 머신에 설정할 수 있습니다.

    • DATABRICKS_HOSTDATABRICKS_TOKEN 환경 변수 내에서(레거시 Databricks CLI 버전 0.8.0부터 시작)
    • .databrickscfg 파일 내의 Azure Databricks 구성 프로필에서

    dbx는 각각 이 두 위치에서 인증 자격 증명을 찾습니다. dbx는 일치하는 첫 번째 자격 증명 집합만 사용합니다.

    참고 항목

    .databrickscfg 파일을 사용하는 경우 dbx sync는 기본적으로 이 파일에서 이름이 DEFAULT인 구성 프로필을 찾습니다. 다른 프로필을 지정하려면 이 문서 뒷부분에서 dbx sync 명령을 실행할 때 --profile 옵션을 사용합니다.

    dbx는 인증을 위한 .netrc 파일 사용을 지원하지 않습니다.

  • Databricks Git 폴더와 함께 사용 dbx sync 하려는 경우 필수는 아니지만 Git 공급자와 함께 리포지토리의 로컬 복제본을 사용하는 것이 좋습니다. 로컬 복제를 수행하려면 Git 공급자의 설명서를 참조하세요.

dbx sync와 함께 DBFS 사용

  1. 로컬 개발 컴퓨터의 터미널 또는 PowerShell에서 Azure Databricks 작업 영역의 DBFS와 동기화할 파일이 포함된 디렉터리로 변경합니다.

  2. 다음과 같이 dbx sync 명령을 실행하여 로컬 디렉터리를 작업 영역의 DBFS와 동기화합니다. (현재 디렉터리를 나타내는 끝에 있는 점(.)을 잊지 마세요.)

    dbx sync dbfs --source .
    

    다른 소스 디렉터리를 지정하려면 점(.)을 다른 경로로 바꿉니다.

    참고 항목

    Error: No such command 'sync' 오류가 나타나면 dbx 설치가 만료되었을 수 있습니다. 이 문제를 해결하려면 pip install --upgrade dbx==<version> 또는 python -m pip install --upgrade dbx==version을 실행합니다. 여기서 <version>dbx의 최신 버전입니다. 이 버전 번호는 dbx용 PyPI 웹페이지에서 찾을 수 있습니다.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync는 현재 로컬 디렉터리의 파일을 작업 영역의 다음 DBFS 경로에 있는 파일과 동기화하기 시작합니다. dbx syncTarget base path 다음에 DBFS 경로를 인쇄하여 이를 확인합니다. 예를 들면 다음과 같습니다.

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    다른 사용자 이름 또는 DBFS 경로를 지정하려면 dbx sync를 실행할 때 각각 --user--dest 옵션을 지정합니다.

  4. 필요에 따라 로컬 파일을 변경합니다.

    Important

    동기화를 계속하려면 dbx sync에 대해 터미널 또는 PowerShell을 열어 두어야 합니다. 터미널 또는 PowerShell을 닫으면 dbx sync에서 파일 변경 내용 감시를 중지하고 동기화를 중지합니다. 파일 변경 동기화를 다시 시작하려면 이 프로시저를 처음부터 반복합니다.

  5. 필요에 따라 작업 영역의 DBFS에서 이전 경로의 파일 변경 내용을 확인합니다.

Databricks Git 폴더 사용 dbx sync

  1. 로컬 개발 컴퓨터의 터미널 또는 PowerShell에서 Git 공급자가 있는 리포지토리의 복제본이 포함된 루트 디렉터리로 변경합니다.

  2. Azure Databricks 작업 영역에서 로컬 복제 리포지토리를 동기화하려는 Databricks Git 폴더의 이름을 식별합니다. 작업 영역의 사이드바에서 Git 폴더클릭하여 이 리포지토리 이름을 찾을 수 있습니다.

  3. 로컬 개발 컴퓨터에서 dbx 동기화 명령을 실행하여 로컬 복제된 리포지토리를 다음과 같이 작업 영역의 Databricks Git 폴더에 동기화하고 Databricks Git 폴더의 리포지토리 이름으로 바꿔 <your-repo-name> 서 동기화합니다. (현재 디렉터리를 나타내는 끝에 있는 점(.)을 잊지 마세요.)

    dbx sync repo -d <your-repo-name> --source .
    

    다른 소스 디렉터리를 지정하려면 점(.)을 다른 경로로 바꿉니다.

    참고 항목

    Error: No such command 'sync' 오류가 나타나면 dbx 설치가 만료되었을 수 있습니다. 이 문제를 해결하려면 pip install --upgrade dbx==<version> 또는 python -m pip install --upgrade dbx==version을 실행합니다. 여기서 <version>dbx의 최신 버전입니다. 이 버전 번호는 dbx용 PyPI 웹페이지에서 찾을 수 있습니다.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync 는 로컬 복제된 리포지토리의 파일을 작업 영역의 Databricks Git 폴더에 있는 파일과 동기화하기 시작합니다. dbx sync 는 Databricks Git 폴더 경로를 인쇄 Target base path 하여 이를 확인합니다. 예를 들면 다음과 같습니다.

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    다른 사용자 이름 또는 리포지토리 이름을 지정하려면 dbx sync를 실행할 때 각각 --user--dest-repo 옵션을 지정합니다.

  5. 필요에 따라 로컬 파일을 변경합니다.

    Important

    동기화를 계속하려면 dbx sync에 대해 터미널 또는 PowerShell을 열어 두어야 합니다. 터미널 또는 PowerShell을 닫으면 dbx sync에서 파일 변경 내용 감시를 중지하고 동기화를 중지합니다. 파일 변경 동기화를 다시 시작하려면 이 프로시저를 처음부터 반복합니다.

  6. 필요에 따라 작업 영역의 Databricks Git 폴더에서 파일 변경 내용을 확인합니다.

추가 리소스