레거시 Hive 메타스토어와 함께 DLT 파이프라인 사용
이 문서에서는 레거시 Hive 메타스토어에 데이터를 게시하도록 구성된 DLT 파이프라인과 관련된 구성 및 주의 사항을 자세히 설명합니다. Databricks는 모든 새 파이프라인에 Unity 카탈로그를 사용하는 것이 좋습니다. DLT 파이프라인 Unity 카탈로그 사용참조하세요.
메모
이 문서에서는 파이프라인의 현재 기본 게시 모드에 대한 기능을 설명합니다. 2025년 2월 5일 이전에 만든 파이프라인은 레거시 게시 모드 및 LIVE
가상 스키마를 사용할 수 있습니다.
LIVE 스키마(레거시)참조하세요.
레거시 Hive 메타스토어에서 스트리밍 테이블 및 구체화된 뷰를 쿼리하는 방법
업데이트가 완료되면 스키마 및 테이블을 보거나, 데이터를 쿼리하거나, 다운스트림 애플리케이션에서 데이터를 사용할 수 있습니다.
게시되면 대상 스키마에 대한 액세스 권한이 있는 모든 환경에서 DLT 테이블을 쿼리할 수 있습니다. 여기에는 Databricks SQL, Notebook 및 기타 DLT 파이프라인이 포함됩니다.
중요하다
target
구성을 만들면 테이블 및 관련 메타데이터만 게시됩니다. 뷰는 메타스토어에 게시되지 않습니다.
Hive 메타스토어에 게시할 파이프라인 구성
새 파이프라인을 만들 때 레거시 Hive 메타스토어에 게시할 Storage 옵션 아래에 Hive 메타스토어 지정할 수 있습니다. Hive 메타스토어에 게시할 때 기본 대상 스키마를 지정해야 합니다. DLT 파이프라인구성을 참조하세요.
스토리지 위치 지정
Hive 메타스토어에 게시하는 파이프라인의 스토리지 위치를 지정할 수 있습니다. 위치를 지정하는 주된 동기는 파이프라인에서 작성한 데이터의 개체 스토리지 위치를 제어하는 것입니다. Databricks는 DBFS 루트에 쓰지 않도록 항상 스토리지 위치를 구체적으로 지정하는 것이 좋습니다.
DLT 파이프라인에 대한 모든 테이블, 데이터, 검사점 및 메타데이터는 DLT에서 완전히 관리되므로 대부분의 DLT 데이터 세트와의 상호 작용은 Hive 메타스토어 또는 Unity 카탈로그에 등록된 테이블을 통해 발생합니다.
Cloud Storage 구성
Azure Storage 액세스하려면 클러스터 구성에서 spark.conf
설정을 사용하여 액세스 토큰을 포함한 필수 매개 변수를 구성해야 합니다. ADLS Gen2(Azure Data Lake Storage Gen2) 스토리지 계정에 대한 액세스를 구성하는 예제는 파이프라인 비밀을 사용하여 스토리지 자격 증명에 안전하게 액세스하는참조하세요.
Hive 메타스토어 파이프라인에 대한 이벤트 로그 작업
파이프라인 가 Hive 메타스토어에 테이블을 게시하는 경우, 이벤트 로그는 storage
위치의 /system/events
에 저장됩니다. 예를 들어 파이프라인 storage
설정을 /Users/username/data
구성한 경우 이벤트 로그는 DBFS의 /Users/username/data/system/events
경로에 저장됩니다.
storage
설정을 구성하지 않은 경우 기본 이벤트 로그 위치는 DBFS에서 /pipelines/<pipeline-id>/system/events
. 예를 들어 파이프라인의 ID가 91de5e48-35ed-11ec-8d3d-0242ac130003
스토리지 위치는 /pipelines/91de5e48-35ed-11ec-8d3d-0242ac130003/system/events
.
이벤트 로그 쿼리를 간소화하는 뷰를 만들 수 있습니다. 다음 예제에서는 event_log_raw
라는 임시 뷰를 만듭니다. 이 보기는 이 문서에 포함된 예제 이벤트 로그 쿼리에 사용됩니다.
CREATE OR REPLACE TEMP VIEW event_log_raw
AS SELECT * FROM delta.`<event-log-path>`;
<event-log-path>
을 이벤트 로그 위치로 바꾸십시오.
파이프라인 실행의 각 인스턴스를 업데이트라고 합니다. 최신 업데이트에 대한 정보를 추출하려는 경우가 많습니다. 다음 쿼리를 실행하여 최신 업데이트의 식별자를 찾아 latest_update_id
임시 보기에 저장합니다. 이 보기는 이 문서에 포함된 예제 이벤트 로그 쿼리에 사용됩니다.
CREATE OR REPLACE TEMP VIEW latest_update AS
SELECT origin.update_id AS id
FROM event_log_raw
WHERE event_type = 'create_update'
ORDER BY timestamp DESC
LIMIT 1;
Azure Databricks Notebook 또는 SQL 편집기이벤트 로그를 쿼리할 수 있습니다. Notebook 또는 SQL 편집기를 사용하여 예제 이벤트 로그 쿼리를 실행합니다.
Unity 카탈로그가 없는 작업 영역에 대한 파이프라인 소스 코드 예제 노트북들
Unity 카탈로그를 사용하지 않고 다음 Notebook을 Azure Databricks 작업 영역으로 가져와서 DLT 파이프라인을 배포하는 데 사용할 수 있습니다. 선택한 언어의 Notebook을 가져오고 Hive 메타스토어 스토리지 옵션을 사용하여 파이프라인을 구성할 때 소스 코드 필드에 경로를 지정합니다. DLT 파이프라인구성을 참조하세요.