풀 구성 참조
이 문서에서는 UI를 사용하여 풀을 만들 때 사용할 수 있는 설정에 대해 설명합니다. Databricks CLI를 사용하여 풀을 만드는 방법을 알아보려면 Databricks CLI 명령을 참조하세요. REST API를 사용하여 풀을 만드는 방법을 알아보려면 인스턴스 풀 API을 참조하세요.
참고 항목
워크로드가 서버리스 컴퓨팅을 지원하는 경우 Databricks는 항상 확장 가능한 컴퓨팅을 활용하기 위해 풀 대신 서버리스 컴퓨팅을 사용하는 것이 좋습니다. 서버리스 컴퓨팅에 연결을 참조하세요.
풀 크기
풀을 만들 때 풀 크기를 제어하기 위해 세 가지 매개 변수(최소 유휴 인스턴스, 최대 용량, 유휴 인스턴스 자동 종료)를 설정할 수 있습니다.
최소 유휴 인스턴스
풀이 유휴 상태로 유지되는 최소 인스턴스 수입니다. 이러한 인스턴스는 자동 종료 설정에 관계없이 종료되지 않습니다. 클러스터에서 풀의 유휴 인스턴스를 사용하는 경우 Azure Databricks는 최소값을 유지하기 위해 추가 인스턴스를 프로비전합니다.
최대 용량
풀에서 프로비저닝할 수 있는 최대 인스턴스 수입니다. 설정하면 이 값은 모든 인스턴스(유휴 + 사용됨)를 제한합니다. 풀을 사용하는 클러스터가 자동 크기 조정 중에 이 숫자보다 더 많은 인스턴스를 요청하는 경우 요청이 실패하고 INSTANCE_POOL_MAX_CAPACITY_FAILURE
오류가 표시됩니다.
이 구성은 선택 사항입니다. 다음과 같은 경우에만 값을 설정하는 것이 좋습니다.
- 유지해야 하는 인스턴스 할당량이 있습니다.
- 한 작업 세트가 다른 작업 세트에 영향을 주지 않도록 보호하려고 합니다. 예를 들어 인스턴스 할당량이 100이고 작업을 실행해야 하는 팀 A와 B가 있다고 가정합니다. 두 팀이 할당량 100을 공평하게 공유하도록 각각 최대값이 50인 풀 A와 풀 B를 만들 수 있습니다.
- 비용을 제한해야 합니다.
유휴 인스턴스 자동 종료
최소 유휴 인스턴스에 설정된 값보다 많은 인스턴스가 풀에 의해 종료되기 전에 유휴 상태가 될 수 있는 시간(분)입니다.
인스턴스 유형
풀은 새 클러스터를 위해 준비된 유휴 인스턴스와 실행 중인 클러스터에서 사용 중인 인스턴스로 구성됩니다. 이러한 모든 인스턴스는 풀을 만들 때 선택된 동일한 인스턴스 공급자 유형입니다.
풀의 인스턴스 유형을 편집할 수 없습니다. 풀에 연결된 클러스터는 드라이버 및 작업자 노드에 대해 동일한 인스턴스 유형을 사용합니다. 다양한 인스턴스 유형 제품군은 메모리 집약적 또는 컴퓨팅 집약적 워크로드와 같은 다양한 사용 사례에 적합합니다.
Azure Databricks는 인스턴스 유형에 대한 지원을 중단하기 전에 항상 1년의 사용 중단 알림을 제공합니다.
참고 항목
보안 요구 사항에 컴퓨팅 격리가 포함되는 경우 작업자 유형으로 Standard_F72s_V2 인스턴스를 선택합니다. 이러한 인스턴스 유형은 전체 물리적 호스트를 사용하고 예를 들어 워크로드(예: 미국 국방부 IL5(영향 수준 5) 워크로드)를 지원하는 데 필요한 격리 수준을 제공하는 격리된 가상 머신을 나타냅니다.
미리 로드된 Databricks Runtime 버전
풀의 유휴 인스턴스에 로드할 Databricks Runtime 버전을 선택하여 클러스터 시작 속도를 높일 수 있습니다. 사용자가 풀에서 지원되는 클러스터를 만들 때 해당 런타임을 선택하는 경우 해당 클러스터는 미리 로드된 Databricks Runtime 버전을 사용하지 않는 풀 지원 클러스터보다 훨씬 빠르게 시작됩니다.
이 옵션을 없음으로 설정하면 Databricks Runtime 버전이 요청 시 풀의 유휴 인스턴스에 다운로드되므로 클러스터 시작 속도가 느려집니다. 클러스터가 풀의 인스턴스를 해제하면 Databricks Runtime 버전은 해당 인스턴스에 캐시된 상태로 유지됩니다. 동일한 Databricks Runtime 버전을 사용하는 다음 클러스터 생성 작업은 이 캐싱 동작을 통해 이점을 얻을 수 있지만 보장되지는 않습니다.
미리 로드된 Docker 이미지
인스턴스 풀 API를 사용하여 풀을 만드는 경우 Docker 이미지는 풀에서 지원됩니다.
풀 태그
풀 태그를 사용하면 조직의 다양한 그룹에서 사용하는 클라우드 리소스의 비용을 쉽게 모니터링할 수 있습니다. 풀을 만들 때 태그를 키-값 쌍으로 지정할 수 있으며, Azure Databricks는 이러한 태그를 VM 및 디스크 볼륨과 같은 클라우드 리소스와 DBU 사용 현황 보고서에 적용합니다.
편의를 위해 Azure Databricks는 Vendor
, DatabricksInstancePoolId
및 DatabricksInstancePoolCreatorId
의 3가지 기본 태그를 각 풀에 적용합니다. 풀을 만들 때 사용자 지정 태그를 추가할 수도 있습니다. 최대 41개의 사용자 지정 태그를 추가할 수 있습니다.
맞춤형 태그
풀에 태그를 더 추가하려면 풀 만들기 페이지의 아래쪽에 있는 Tabs 탭으로 이동합니다. + 추가 단추를 클릭한 다음 키-값 쌍을 입력합니다.
풀 지원 클러스터는 풀 구성에서 기본 태그와 사용자 지정 태그를 상속합니다. 풀 태그와 클러스터 태그가 함께 작동하는 방법에 대한 자세한 내용은 태그를 사용하여 사용량 모니터링을 참조하세요.
로컬 스토리지 자동 크기 조정
특정 작업에 필요한 디스크 공간을 예측하기 어려울 수 있는 경우가 많습니다. 생성 시 풀에 연결할 관리 디스크의 기가바이트 수를 예측할 필요가 없도록 Azure Databricks는 자동으로 모든 Azure Databricks 풀에서 로컬 스토리지의 자동 크기 조정을 사용하도록 설정합니다.
로컬 스토리지 자동 크기 조정을 통해 Azure Databricks는 풀의 인스턴스에서 사용할 수 있는 디스크 여유 공간의 양을 모니터링합니다. 인스턴스가 디스크에서 너무 낮게 실행되면 디스크 공간이 부족하기 전에 새 관리 디스크가 자동으로 연결됩니다. 디스크는 가상 머신의 초기 로컬 저장소를 포함하여 가상 머신당 총 디스크 공간의 최대 5TB까지 연결됩니다.
가상 머신이 Azure로 반환되는 경우에만 가상 머신에 연결된 관리 디스크가 분리됩니다. 즉, 관리 디스크는 풀의 일부인 경우 가상 머신에서 분리되지 않습니다.
스폿 인스턴스
비용을 절감하려면 All Spot(모든 스폿) 라디오 단추를 선택하여 스폿 인스턴스를 사용하도록 선택할 수 있습니다.
풀의 클러스터는 모든 노드, 드라이버 및 작업자에 대한 스폿 인스턴스를 사용하여 시작됩니다(풀이 아닌 클러스터에 대한 하이브리드 주문형 드라이버 및 스폿 인스턴스 작업자와 반대).
사용 불가로 인해 스폿 인스턴스가 제거되는 경우 주문형 인스턴스는 제거된 인스턴스를 대체하지 않습니다.