작업 공간 개체 소개
이 문서에서는 Azure Databricks 작업 영역 개체에 대한 개략적인 소개를 제공합니다. 작업 영역 브라우저에서 여러 가상 사용자에 걸쳐 작업 영역 개체를 만들고, 보고, 구성할 수 있습니다.
작업 영역 자산 이름 지정에 대한 참고 사항
작업 영역 자산의 전체 이름은 기본 이름과 파일 확장명으로 구성됩니다. 예를 들어, Notebook의 파일 확장자는 Notebook의 언어와 형식에 따라 .py
, .sql
, .scala
, .r
및 .ipynb
등이 될 수 있습니다.
Notebook 자산을 만들 때 기본 이름 및 전체 이름(파일 확장명과 연결된 기본 이름)은 작업 영역 폴더 내에서 고유해야 합니다. 자산 이름을 지정하면 Databricks에서 파일 확장명을 추가하여 이 조건을 충족하는지 확인합니다. 전체 이름이 폴더의 기존 파일과 일치하는 경우 해당 이름은 허용되지 않으며 새 전자 필기장 이름을 선택해야 합니다. 예를 들어, test
라는 이름의 Python 파일과 같은 폴더에 test.py
라는 이름의 Python Notebook(Python 소스 형식)을 만들려고 하면 허용되지 않습니다.
클러스터
Azure Databricks 데이터 과학 및 엔지니어링 및 Databricks Mosaic AI 클러스터는 프로덕션 ETL 파이프라인 실행, 스트리밍 분석, 애드혹 분석, 머신 러닝 등 다양한 사용 사례를 위한 통합 플랫폼을 제공합니다. 클러스터는 Azure Databricks 컴퓨팅 리소스의 한 유형입니다. 다른 컴퓨팅 리소스 유형에는 Azure Databricks SQL 웨어하우스가 포함됩니다.
클러스터 관리 및 사용에 대한 자세한 내용은 컴퓨팅을 참조하세요.
Notebooks
노트북은 파일과 tables, 시각화및 설명 텍스트에서 작동하는 실행 가능한 셀(명령)으로 구성된 문서에 대한 웹 기반의 인터페이스입니다. 명령은 하나 이상의 이전에 실행된 명령의 출력을 참조하여 순서대로 실행할 수 있습니다.
Notebook은 Azure Databricks에서 코드를 실행하기 위한 하나의 메커니즘입니다. 다른 메커니즘은 작업입니다.
Notebook 관리 및 사용에 대한 자세한 내용은 Databricks Notebook 소개를 참조하세요.
작업
작업은 Azure Databricks에서 코드를 실행하기 위한 하나의 메커니즘입니다. 다른 메커니즘은 Notebooks입니다.
작업 관리 및 사용에 대한 자세한 내용은 워크플로 예약 및 오케스트레이션을 참조하세요.
라이브러리
라이브러리를 사용하면 클러스터에서 실행되는 Notebook 및 작업에 타사 또는 로컬로 빌드된 코드를 사용할 수 있습니다.
라이브러리 관리 및 사용에 대한 자세한 내용은 라이브러리를 참조하세요.
데이터
Azure Databricks 작업 영역에 탑재된 분산 파일 시스템으로 데이터를 가져와서 Azure Databricks Notebooks 및 클러스터에서 작업할 수 있습니다. 다양한 Apache Spark 데이터 원본을 사용하여 데이터에 액세스할 수도 있습니다.
데이터 로딩에 대한 자세한 내용은 Databricks 레이크하우스로 데이터 수집을 참조하세요.
Files
Important
이 기능은 공개 미리 보기 상태입니다.
Databricks Runtime 11.3 LTS 이상에서는 Databricks 작업 영역에서 임의의 파일을 만들고 사용할 수 있습니다. 파일은 모든 파일 형식이 가능합니다. 일반적인 파일 형식 예제는 다음과 같습니다.
- 사용자 지정 모듈에 사용되는
.py
파일. -
.md
파일(예:README.md
). -
.csv
또는 기타 작은 데이터 파일. -
.txt
파일. - 로그 파일
파일 사용에 대한 자세한 내용은 Azure Databricks의 파일 작업을 참조하세요. Databricks Notebook을 사용하여 개발할 때 파일을 사용하여 코드를 모듈화하는 방법에 대한 자세한 내용은 Databricks Notebook 간 코드 공유를 참조하세요.
Git 폴더
Git 폴더는 콘텐츠를 원격 Git 리포지토리에 동기화하여 버전이 공동으로 지정된 Azure Databricks 폴더입니다. Databricks Git 폴더를 사용하면 Azure Databricks에서 Notebook을 개발하고 공동 작업 및 버전 관리를 위해 원격 Git 리포지토리를 사용할 수 있습니다.
리포지토리 사용에 대한 자세한 내용은 Databricks Git 폴더에 대한 Git 통합을 참조하세요.
모델
모델은 MLflow 모델 레지스트리에 등록된 모델을 나타냅니다. 모델 레지스트리는 MLflow 모델의 전체 수명 주기를 관리할 수 있는 중앙 집중식 모델 저장소입니다. 시간순 모델 계보, 모델 버전 관리, 스테이지 전환, 모델 및 모델 버전 주석 및 설명을 제공합니다.
모델 관리 및 사용에 대한 자세한 내용은 Unity Catalog모델 수명 주기 관리를 참조하세요.
실험
MLflow 실험은 MLflow 기계 학습 모델 학습 실행에 대한 조직 및 액세스 제어의 기본 단위입니다. 모든 MLflow 실행은 실험에 속합니다. 각 실험을 사용하면 실행을 시각화, 검색 및 비교하고 다른 도구에서 분석을 위해 아티팩트 또는 메타데이터를 다운로드 및 실행할 수 있습니다.
실험 관리 및 사용에 대한 자세한 내용은 MLflow 실험을 사용하여 학습 실행 구성을 참조하세요.
쿼리
쿼리는 데이터와 상호 작용할 수 있는 SQL 문입니다. 자세한 내용은 저장된 쿼리 액세스 및 관리하기를 참조하세요.
대시보드
대시보드는 쿼리 시각화 및 해설의 프레젠테이션입니다. 대시보드 또는 레거시 대시보드를 참조하세요.
경고
쿼리에서 반환된 필드가 임계값에 도달했다는 경고입니다. 자세한 내용은 Databricks SQL 알림이란?을 참조하세요.
작업 영역 개체에 대한 참조
이전에는 일부 Databricks API(/Workspace
)의 경우 %sh
경로 접두사를 포함해야 했지만 다른 API(%run
, REST API 입력)의 경우에는 포함하지 않아도 되었습니다.
사용자는 어디서나 /Workspace
접두사로 작업 영역 경로를 사용할 수 있습니다.
/Workspace
접두사 없는 경로에 대한 이전 참조는 리디렉션되며 계속 작동합니다. 모든 작업 공간 경로에 /Workspace
접두사를 붙여 볼륨 및 DBFS 경로와 구분하는 것이 좋습니다.
일관된 /Workspace
경로 접두사 동작의 필수 조건은 다음과 같습니다. 작업 영역 루트 수준에는 /Workspace
폴더가 있을 수 없습니다. 루트 수준에 /Workspace
폴더가 있고 이 UX 개선을 사용하도록 설정하려면 만든 /Workspace
폴더를 삭제하거나 이름을 바꾸고 Azure Databricks 계정 팀에 문의하세요.
파일, 폴더 또는 Notebook URL 공유
Azure Databricks 작업 영역에서 작업 영역 파일, Notebook 및 폴더에 대한 URL은 다음과 같은 형식입니다.
작업 영역 파일 URL
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
Notebook URL
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
폴더(작업 영역 및 Git) URL
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
현재 경로의 폴더, 파일 또는 Notebook이 Git 끌어오기 명령으로 업데이트되거나 동일한 이름으로 삭제되고 다시 만들어지면 이러한 링크가 끊어질 수 있습니다. 그러나 다음 형식의 링크로 변경하여 적절한 액세스 수준으로 다른 Databricks 사용자와 공유할 작업 영역 경로를 기반으로 링크를 생성할 수 있습니다.
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
폴더, Notebook, 파일에 대한 링크는 ?o=<16-digit-workspace-ID>
뒤에 오는 URL의 모든 내용을 작업 영역 루트의 파일, 폴더, Notebook 경로로 바꿔서 공유할 수 있습니다. 폴더에 URL을 공유하는 경우 원래 URL에서도 remove/browse/folders/<16-digit-ID>
.
파일 경로를 get 하기 위해, 공유하려는 작업 공간의 폴더, 전자 필기장, 또는 파일을 마우스 오른쪽 버튼으로 클릭하여 상황에 맞는 메뉴를 열고, URL/경로 select복사>전체 경로를 선택하십시오. 방금 복사한 파일 경로에 #workspace
를 추가하고 결과 문자열을 ?o=<16-digit-workspace-ID>
뒤에 추가하여 위의 URL 형식과 일치하도록 합니다.
URL 수식 예제 #1: 폴더 URL
작업 공간 폴더 URL을 공유하려면, https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
, URL에서 browse/folders/1111111111111111
부분 문자열을 remove 처리하십시오.
#workspace
를 추가한 다음 공유하려는 폴더 또는 작업 공간 개체의 경로를 추가합니다.
이 경우 작업 공간 경로는 폴더 /Workspace/Users/user@example.com/team-git/notebooks
입니다. 작업 영역에서 전체 경로를 복사한 후 이제 공유 가능한 링크를 만들 수 있습니다.
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
URL 공식화 예제 2: Notebook URL
Notebook URL을 공유하려면 https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
, remove#notebook/2222222222222222/command/3333333333333333
.
#workspace
를 추가한 다음 폴더 또는 작업 영역 개체의 경로를 추가합니다.
이 경우 작업 영역 경로는 Notebook으로 지정되어 있습니다, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. 작업 영역에서 전체 경로를 복사한 후 이제 공유 가능한 링크를 만들 수 있습니다.
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
이제 공유할 파일, 폴더 또는 Notebook 경로에 대한 안정적인 URL이 있습니다. URL 및 식별자에 대한 자세한 내용은작업 영역 개체에 대한