작업용 컴퓨팅 구성
이 문서에는 Databricks 작업 컴퓨팅을 구성하기 위한 권장 사항 및 리소스가 포함되어 있습니다.
Important
작업용 서버리스 컴퓨팅의 제한 사항은 다음과 같습니다.
- 연속 스케줄링을 지원하지 않습니다.
- 구조적 스트리밍에서 기본 또는 시간 기반 간격 트리거를 지원하지 않습니다.
제한 사항은 서버리스 컴퓨팅 제한을 참조하세요.
각 작업에는 하나 이상의 태스크가 있을 수 있습니다. 각 작업에 대한 컴퓨팅 리소스를 정의합니다. 동일한 작업에 정의된 여러 태스크는 동일한 컴퓨팅 리소스를 사용할 수 있습니다.
각 태스크에 권장되는 컴퓨팅은 무엇인가요?
다음 표는 각 태스크 유형에 대해 권장되는 컴퓨팅 유형과 지원되는 컴퓨팅 유형을 나타냅니다.
참고 항목
작업용 서버리스 컴퓨팅에는 제한 사항이 있으며 모든 워크로드를 지원하지는 않습니다. 서버리스 컴퓨팅 제한을 참조하세요.
작업 | 권장 컴퓨팅 | 지원되는 컴퓨팅 |
---|---|---|
Notebooks | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 |
Python 스크립트 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 |
Python 휠 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 |
SQL | 서버리스 SQL 웨어하우스 | 서버리스 SQL 웨어하우스, 프로 SQL 웨어하우스 |
Delta Live Tables 파이프라인 | 서버리스 파이프라인 | 서버리스 파이프라인, 클래식 파이프라인 |
dbt | 서버리스 SQL 웨어하우스 | 서버리스 SQL 웨어하우스, 프로 SQL 웨어하우스 |
dbt CLI 명령 | 서버리스 작업 | 서버리스 작업, 클래식 작업, 클래식 다목적 |
JAR | 클래식 작업 | 클래식 작업, 클래식 다목적 |
Spark Submit | 클래식 작업 | 클래식 작업 |
작업 가격 책정은 태스크를 실행하는 데 사용되는 컴퓨팅과 관련이 있습니다. 자세한 내용은 Databricks 가격 책정을 참조하세요.
작업용 컴퓨팅은 어떻게 구성하나요?
클래식 작업 컴퓨팅은 작업 정의의 일부로 Databricks 작업 UI에서 직접 구성됩니다. 사용 가능한 다른 모든 컴퓨팅 유형은 다른 작업 영역 자산과 함께 해당 구성을 저장합니다. 다음 표에 자세한 내용이 나와 있습니다.
컴퓨팅 형식 | 세부 정보 |
---|---|
클래식 작업 컴퓨팅 | 다목적 컴퓨팅에 사용할 수 있는 동일한 UI 설정을 사용하여 클래식 작업용 컴퓨팅을 구성합니다. 컴퓨팅 구성 참고자료를 참조하세요. |
작업용 서버리스 컴퓨팅 | 작업용 서버리스 컴퓨팅은 작업을 지원하는 모든 태스크의 기본값입니다. Databricks는 서버리스 컴퓨팅에 대한 컴퓨팅 설정을 관리합니다. 워크플로에 대한 서버리스 컴퓨팅을 사용하여 Azure Databricks 작업 실행을 참조하세요. nn 작업 영역 관리자는 이 옵션을 표시하려면 서버리스 컴퓨팅을 사용하도록 설정해야 합니다. 서버리스 컴퓨팅 사용을 참조하세요. |
SQL Warehosue | 서버리스 및 프로 SQL 웨어하우스는 작업 영역 관리자 또는 무제한 클러스터 생성 권한이 있는 사용자가 구성합니다. 기존 SQL 웨어하우스에 대해 실행되도록 태스크를 구성합니다. SQL 웨어하우스에 연결을 참조하세요. |
Delta Live Tables 파이프라인 컴퓨팅 | 파이프라인 구성 중에 Delta Live Tables 파이프라인용 컴퓨팅 설정을 구성합니다. Delta Live Tables 파이프라인에 대한 컴퓨팅 구성을 참조하세요. nn Azure Databricks는 서버리스 Delta Live Tables 파이프라인에 대한 컴퓨팅 리소스를 관리합니다. 서버리스 Delta Live Tables 파이프라인 구성을 참조하세요. |
모든 용도 컴퓨팅 | 필요에 따라 클래식 다목적 컴퓨팅을 사용하여 태스크를 구성할 수 있습니다. Databricks는 프로덕션 작업에는 이 구성을 권장하지 않습니다. 컴퓨팅 구성 참고자료와 다목적 컴퓨팅을 작업에 사용해야 하나요?를 참조하세요. |
태스크 간 컴퓨팅 공유
태스크가 동일한 작업 컴퓨팅 리소스를 사용도록 구성하면 여러 태스크를 오케스트레이션하는 작업의 리소스 사용량이 최적화됩니다. 태스크 간에 컴퓨팅을 공유하면 시작 시간과 관련된 대기 시간을 줄일 수 있습니다.
단일 작업 컴퓨팅 리소스를 사용하여 작업의 일부인 모든 태스크를 실행하거나, 특정 워크로드에 최적화된 여러 작업 리소스를 실행할 수 있습니다. 작업의 일부로 구성된 모든 작업 컴퓨팅은 작업 내 다른 모든 태스크에 사용할 수 있습니다.
다음 표에서는 단일 태스크에 대해 구성된 작업 컴퓨팅과 태스크 간에 공유되는 작업 컴퓨팅 간의 차이를 강조합니다.
단일 태스크 | 태스크 간 공유 | |
---|---|---|
Start | 태스크 실행이 시작되는 경우 | 컴퓨팅 리소스를 사용하도록 구성된 첫 번째 태스크 실행이 시작되는 경우 |
Terminate | 태스크가 실행된 후 | 컴퓨팅 리소스를 사용하도록 구성된 마지막 태스크가 실행된 후 |
유휴 컴퓨팅 | 해당 없음. | 컴퓨팅 리소스를 사용하지 않는 작업은 실행되는 동안 컴퓨팅은 켜져 있지만 유휴 상태로 유지됩니다. |
공유 작업 클러스터의 범위는 단일 작업 실행으로 지정되며, 이 클러스터는 다른 작업 또는 동일한 작업의 실행에서 사용할 수 없습니다.
라이브러리는 공유 작업 클러스터 구성에서 선언할 수 없습니다. 태스크 설정에서 종속 라이브러리를 추가해야 합니다.
작업 컴퓨팅의 검토, 구성, 전환
작업 세부 정보 패널의 컴퓨팅 섹션에는 현재 작업의 태스크에 대해 구성된 모든 컴퓨팅이 나열됩니다.
컴퓨팅 리소스를 사용하도록 구성된 태스크는 컴퓨팅 사양을 마우스로 가리키면 태스크 그래프에서 강조 표시됩니다.
전환 버튼을 사용하여 컴퓨팅 리소스와 연결된 모든 태스크의 컴퓨팅을 변경합니다.
클래식 작업 컴퓨팅 리소스에는 구성 옵션이 있습니다. 다른 컴퓨팅 리소스는 컴퓨팅 구성 세부 정보를 보고 수정하는 옵션을 제공합니다.
클래식 작업 컴퓨팅 구성 권장 사항
이 섹션에서는 일부 워크플로에 도움이 될 수 있는 기능 및 구성에 대한 일반적인 권장 사항에 중점을 둡니다. 컴퓨팅 리소스의 크기 및 유형을 구성하기 위한 권장 사항은 워크로드에 따라 달라집니다.
Databricks는 Photon Acceleration을 사용하도록 설정하고, 최신 Databricks Runtime 버전을 사용하고, Unity Catalog에 구성된 컴퓨팅을 사용하는 것을 권장합니다.
작업용 서버리스 컴퓨팅은 모든 인프라를 관리하므로 다음은 고려하지 않아도 됩니다. 워크플로에 대한 서버리스 컴퓨팅을 사용하여 Azure Databricks 작업 실행을 참조하세요.
참고 항목
구조적 스트리밍 워크플로에는 특정 권장 사항이 있습니다. 구조적 스트리밍에 대한 프로덕션 고려 사항을 참조하세요.
공유 액세스 모드 사용
Databricks는 작업에 공유 액세스 모드를 사용하는 것을 권장합니다. 액세스 모드를 참조하세요.
참고 항목
공유 액세스 모드는 일부 워크로드 및 기능을 지원하지 않습니다. Databricks는 이러한 워크로드에는 단일 사용자 액세스 모드를 권장합니다. Unity Catalog의 컴퓨팅 액세스 모드 제한 사항을 참조하세요.
클러스터 정책 사용
Databricks는 작업 영역 관리자가 작업에 대한 클러스터 정책을 정의하고 작업을 구성하는 모든 사용자에 대해 이러한 정책을 적용하는 것을 권장합니다.
클러스터 정책을 사용하면 작업 영역 관리자가 비용 제어를 설정하고 사용자의 구성 옵션을 제한할 수 있습니다. 클러스터 정책 구성에 대한 자세한 내용은 컴퓨팅 정책 생성 및 관리를 참조하세요.
Azure Databricks는 작업에 대해 구성된 기본 정책을 제공합니다. 관리자는 다른 작업 영역 사용자가 정책을 사용할 수 있도록 만들 수 있습니다. 작업 컴퓨팅을 참조하세요.
자동 크기 조정 사용
자동 크기 조정을 구성하여 장기 태스크가 작업 실행 중에 동적으로 작업자 노드를 추가하고 제거할 수 있습니다. 자동 크기 조정 사용을 참조하세요.
풀을 사용하여 클러스터 시작 시간 단축
컴퓨팅 풀을 사용하면 클라우드 공급자의 컴퓨팅 리소스를 예약할 수 있습니다. 풀은 새 작업 클러스터 시작 시간을 줄이고 컴퓨팅 리소스 가용성을 보장하는 데 유용합니다. 풀 구성 참조를 참조하세요.
스폿 인스턴스 사용
느슨한 대기 시간 요구 사항이 있는 워크로드에 대한 스폿 인스턴스를 구성하여 비용을 최적화합니다. 스폿 인스턴스를 참조하세요.
다목적 컴퓨팅을 작업에 사용해야 하나요?
Databricks가 작업에 다목적 컴퓨팅을 사용하지 않도록 권장하는 이유에는 다음을 포함한 여러 이유가 있습니다.
- Azure Databricks는 다목적 컴퓨팅에 다른 작업 컴퓨팅과 다른 요율로 청구합니다.
- 작업 컴퓨팅은 작업 실행이 완료되면 자동으로 종료됩니다. 다목적 컴퓨팅은 자동 종료를 지원하지만 작업 실행 완료가 아닌 비활성 상태 시 작동합니다.
- 다목적 컴퓨팅은 종종 사용자 팀 간에 공유됩니다. 다목적 컴퓨팅에 예약된 작업은 컴퓨팅 리소스에 대한 경쟁으로 인해 대기 시간이 증가하는 경우가 많습니다.
- 작업 컴퓨팅 구성을 최적화하기 위한 권장 사항이 많아서 다목적 컴퓨팅에서 임시 쿼리 유형 및 대화형 워크로드를 실행하는 것은 적합하지 않습니다.
다음은 작업에 다목적 컴퓨팅을 사용할 수 있는 사용 사례입니다.
- 새 작업을 반복적으로 개발하거나 테스트합니다. 작업 컴퓨팅의 시작 시간은 반복적인 개발을 지루하게 만들 수 있습니다. 다목적 컴퓨팅을 사용하면 신속하게 변경 내용을 적용하고 작업을 실행할 수 있습니다.
- 자주 또는 특정한 스케줄에 따라 실행해야 하는 단기 작업이 있습니다. 현재 실행 중인 다목적 컴퓨팅과 연결된 시작 시간이 없습니다. 이 패턴을 사용하는 경우 유휴 시간과 관련된 비용을 고려해야 합니다.
다목적 컴퓨팅에서 실행하려고 고려하는 태스크 유형 대부분을 작업용 서버리스 컴퓨팅로 대체하여 실행하는 것을 권장합니다.