Delta Live Tables 파이프라인 구성
이 문서에서는 작업 영역 UI를 사용하여 Delta Live Tables 파이프라인에 대한 기본 구성을 설명합니다.
Databricks는 서버리스를 사용하여 새 파이프라인을 개발하는 것이 좋습니다. 서버리스 파이프라인에 대한 구성 지침은 서버리스 Delta Live Tables 파이프라인 구성을 참조하세요.
이 문서의 구성 지침에서는 Unity 카탈로그를 사용합니다. 레거시 Hive 메타스토어를 사용하여 파이프라인을 구성하는 방법에 대한 지침은 레거시 Hive 메타스토어와 함께 Delta Live Tables 파이프라인 사용을 참조 하세요.
참고 항목
UI에는 JSON에서 설정을 표시하고 편집하는 옵션이 있습니다. 대부분의 설정은 UI 또는 JSON 사양으로 구성할 수 있습니다. 일부 고급 옵션은 JSON 구성을 통해서만 사용할 수 있습니다.
JSON 구성 파일은 파이프라인을 새 환경에 배포하거나 CLI 또는 REST API를 사용하는 경우에도 유용합니다.
Delta Live Tables JSON 구성 설정에 대한 전체 참조는 Delta Live Tables 파이프라인 구성을 참조하세요.
새 Delta Live Tables 파이프라인 구성
새 Delta Live Tables 파이프라인을 구성하려면 다음을 수행합니다.
- 사이드바에서 델타 라이브 테이블을 클릭합니다.
- 파이프라인 만들기를 클릭합니다.
- 고유한 파이프라인 이름을 제공합니다.
- (선택 사항) 파일 선택기를 사용하여 Notebook 및 작업 영역 파일을 소스 코드로 구성합니다.
- 소스 코드를 추가하지 않으면 파이프라인에 대한 새 Notebook이 만들어집니다. Notebook은 사용자 디렉터리의 새 디렉터리에 만들어지고 이 Notebook에 액세스하기 위한 링크는 파이프라인을 만든 후 파이프라인 세부 정보 창의 소스 코드 필드에 표시됩니다.
- 파이프라인을 만든 후에는 파이프라인 세부 정보 패널의 소스 코드 필드 아래에 표시되는 URL을 사용하여 이 Notebook에 액세스할 수 있습니다.
- 소스 코드 추가 단추를 사용하여 소스 코드 자산을 추가합니다.
- 소스 코드를 추가하지 않으면 파이프라인에 대한 새 Notebook이 만들어집니다. Notebook은 사용자 디렉터리의 새 디렉터리에 만들어지고 이 Notebook에 액세스하기 위한 링크는 파이프라인을 만든 후 파이프라인 세부 정보 창의 소스 코드 필드에 표시됩니다.
- 스토리지 옵션에서 Unity 카탈로그를 선택합니다.
- 데이터를 게시할 카탈로그를 선택합니다.
- 카탈로그에서 스키마 를 선택합니다. 파이프라인에 정의된 모든 스트리밍 테이블 및 구체화된 뷰는 이 스키마에서 만들어집니다.
- 컴퓨팅 섹션에서 광자 가속 사용 옆의 확인란을 선택합니다. 추가 컴퓨팅 구성 고려 사항은 컴퓨팅 구성 옵션을 참조 하세요.
- 만들기를 클릭합니다.
이러한 권장 구성은 트리거된 모드에서 실행되고 현재 채널을 사용하도록 구성된 새 파이프라인을 만듭니다. 이 구성은 개발 및 테스트를 비롯한 많은 사용 사례에 권장되며 일정에 따라 실행되어야 하는 프로덕션 워크로드에 적합합니다. 파이프라인 예약에 대한 자세한 내용은 작업에 대한 델타 라이브 테이블 파이프라인 작업을 참조 하세요.
컴퓨팅 구성 옵션
Databricks는 항상 향상된 자동 크기 조정을 사용하는 것이 좋습니다. 다른 컴퓨팅 구성의 기본값은 많은 파이프라인에서 잘 작동합니다.
서버리스 파이프라인은 컴퓨팅 구성 옵션을 제거합니다. 서버리스 파이프라인에 대한 구성 지침은 서버리스 Delta Live Tables 파이프라인 구성을 참조하세요.
다음 설정을 사용하여 컴퓨팅 구성을 사용자 지정합니다.
작업 영역 관리자는 클러스터 정책을 구성할 수 있습니다. 컴퓨팅 정책을 사용하면 관리자가 사용자가 사용할 수 있는 컴퓨팅 옵션을 제어할 수 있습니다. 클러스터 정책 선택을 참조하세요.
필요에 따라 고정 크기 또는 레거시 자동 크기 조정을 사용하여 실행되도록 클러스터 모드를 구성할 수 있습니다. 향상된 자동 크기 조정을 사용하여 Delta Live Tables 파이프라인의 클러스터 사용률 최적화를 참조 하세요.
자동 크기 조정을 사용하도록 설정된 워크로드의 경우 최소 작업자 및 최대 작업자를 설정하여 크기 조정 동작에 대한 제한을 설정합니다. Delta Live Tables 파이프라인에 대한 컴퓨팅 구성을 참조하세요.
필요에 따라 Photon 가속을 끌 수 있습니다. Photon이란?을 참조하세요.
클러스터 태그를 사용하여 Delta Live Tables 파이프라인과 관련된 비용을 모니터링할 수 있습니다. 클러스터 태그 구성을 참조 하세요.
파이프라인을 실행하는 데 사용되는 가상 머신의 유형을 지정하도록 인스턴스 유형을 구성합니다. 파이프라인을 실행하려면 인스턴스 유형 선택을 참조하세요.
- 파이프라인에 구성된 워크로드에 최적화된 작업자 유형을 선택합니다.
- 필요에 따라 작업자 유형과 다른 드라이버 유형을 선택할 수 있습니다. 이는 대규모 작업자 유형 및 낮은 드라이버 컴퓨팅 사용률이 있는 파이프라인의 비용을 줄이거나 많은 소규모 작업자가 있는 워크로드에서 메모리 부족 문제를 방지하기 위해 더 큰 드라이버 유형을 선택하는 데 유용할 수 있습니다.
기타 구성 고려 사항
파이프라인에도 다음 구성 옵션을 사용할 수 있습니다.
- 고급 제품 버전을 사용하면 모든 Delta Live Tables 기능에 액세스할 수 있습니다. 선택적으로 Pro 또는 Core 제품 버전을 사용하여 파이프라인을 실행할 수 있습니다. 제품 버전 선택을 참조하세요.
- 프로덕션 환경에서 파이프라인을 실행할 때 연속 파이프라인 모드를 사용하도록 선택할 수 있습니다. 트리거된 파이프라인 모드와 연속 파이프라인 모드를 참조하세요.
- 작업 영역이 Unity 카탈로그에 대해 구성되지 않았거나 워크로드가 레거시 Hive 메타스토어를 사용해야 하는 경우 레거시 Hive 메타스토어와 함께 Delta Live Tables 파이프라인 사용을 참조하세요.
- 성공 또는 실패 조건에 따라 전자 메일 업데이트에 대한 알림을 추가합니다. 파이프라인 이벤트에 대한 이메일 알림 추가를 참조하세요.
- 구성 필드를 사용하여 파이프라인에 대한 키-값 쌍을 설정합니다. 이러한 구성은 다음 두 가지 용도로 사용됩니다.
- 미리 보기 채널을 사용하여 보류 중인 Delta Live Tables 런타임 변경 내용 및 평가판 새 기능에 대해 파이프라인을 테스트합니다.
제품 버전 선택
파이프라인 요구 사항에 가장 적합한 기능과 함께 Delta Live Tables 제품 버전을 선택하세요. 다음 제품 버전을 사용할 수 있습니다.
Core
: 스트리밍 수집 워크로드를 실행합니다. 파이프라인에 CDC(변경 데이터 캡처) 또는 Delta Live Tables 기대치와 같은 고급 기능이 필요하지 않은 경우Core
버전을 선택합니다.Pro
: 스트리밍 수집 및 CDC 워크로드를 실행합니다.Pro
제품 버전은 모든Core
기능을 지원하며 원본 데이터의 변경 내용에 따라 테이블을 업데이트해야 하는 워크로드를 지원합니다.Advanced
: 예상이 필요한 스트리밍 수집 워크로드, CDC 워크로드 및 워크로드를 실행합니다.Advanced
제품 버전은 및 버전의 기능을Core
Pro
지원하며 Delta Live Tables의 기대에 부합하는 데이터 품질 제약 조건을 포함합니다.
파이프라인을 만들거나 편집할 때 제품 버전을 선택할 수 있습니다. 각 파이프라인에 대해 다른 버전을 선택할 수 있습니다. Delta Live Tables 제품 페이지를 참조하세요.
노트: 파이프라인에 선택한 제품 버전에서 지원되지 않는 기능(예: 예상)이 포함된 경우 오류의 원인과 함께 오류 메시지가 표시됩니다. 그런 다음 파이프라인을 편집하여 적절한 버전을 선택할 수 있습니다.
소스 코드 구성
Delta Live Tables UI의 파일 선택기를 사용하여 파이프라인을 정의하는 소스 코드를 구성할 수 있습니다. 파이프라인 소스 코드는 작업 영역 파일에 저장된 Databricks Notebook 또는 SQL 또는 Python 스크립트에 정의됩니다. 파이프라인을 만들거나 편집할 때 하나 이상의 Notebook 또는 작업 영역 파일 또는 Notebook 및 작업 영역 파일의 조합을 추가할 수 있습니다.
Delta Live Tables는 데이터 세트 종속성을 자동으로 분석하여 파이프라인에 대한 처리 그래프를 생성하므로 소스 코드 자산을 순서대로 추가할 수 있습니다.
작업 영역 파일에 저장된 SQL 및 Python 스크립트에 정의된 Delta Live Tables 소스 코드를 포함하도록 JSON 파일을 수정할 수 있습니다. 다음 예제에는 Notebook 및 작업 영역 파일이 포함됩니다.
{
"name": "Example pipeline 3",
"storage": "dbfs:/pipeline-examples/storage-location/example3",
"libraries": [
{ "notebook": { "path": "/example-notebook_1" } },
{ "notebook": { "path": "/example-notebook_2" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
{ "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
]
}
Python을 사용하는 파이프라인에 대한 외부 종속성 관리
Delta Live Tables는 Python 패키지 및 라이브러리와 같은 파이프라인에서 외부 종속성 사용을 지원합니다. 종속성 사용에 대한 옵션 및 권장 사항에 대해 알아보려면 Delta Live Tables 파이프라인에 대한 Python 종속성 관리를 참조 하세요.
Azure Databricks 작업 영역에 저장된 Python 모듈 사용
Databricks Notebook에서 Python 코드를 구현하는 것 외에도 Databricks Git 폴더 또는 작업 영역 파일을 사용하여 코드를 Python 모듈로 저장할 수 있습니다. 코드를 Python 모듈로 저장하는 것은 동일한 파이프라인의 여러 파이프라인 또는 Notebook에서 사용하려는 일반적인 기능이 있는 경우에 특히 유용합니다. 파이프라인에서 Python 모듈을 사용하는 방법을 알아보려면 Git 폴더 또는 작업 영역 파일에서 Python 모듈 가져오기를 참조하세요.