Syncsort에 연결
Important
이 기능은 공개 미리 보기 상태입니다.
Syncsort를 사용하면 레거시, 메인프레임 및 IBM 데이터를 Azure Databricks와 통합하여 데이터 사일로를 분석할 수 있습니다. 이러한 원본의 데이터를 Delta Lake로 쉽게 끌어올 수 있습니다.
Azure Databricks에서 Syncsort를 사용하는 단계는 다음과 같습니다.
1단계: Databricks 개인용 액세스 토큰 생성
Syncsort는 Azure Databricks 개인용 액세스 토큰을 사용하여 Azure Databricks로 인증합니다.
참고 항목
보안 모범 사례로, 자동화된 도구, 시스템, 스크립트, 앱을 사용하여 인증할 때 Databricks는 작업 영역 사용자 대신 서비스 주체에 속한 개인용 액세스 토큰을 사용하는 것을 권장합니다. 서비스 주체에 대한 토큰을 만들려면 서비스 주체에 대한 토큰 관리를 참조하세요.
2단계: 통합 요구 사항을 지원하도록 클러스터 설정
Syncsort는 Azure Data Lake Storage 경로에 데이터를 쓰고 Azure Databricks 통합 클러스터는 해당 위치에서 데이터를 읽습니다. 따라서 통합 클러스터에는 Azure Data Lake Storage 경로에 대한 보안 액세스가 필요합니다.
Azure Data Lake Storage 경로에 대한 보안 액세스
ADLS(Azure Data Lake Storage)의 데이터에 대한 액세스를 보호하려면 Azure Storage 계정 액세스 키(권장) 또는 Microsoft Entra ID 서비스 주체를 사용할 수 있습니다.
Azure Storage 계정 액세스 키
Spark 구성의 일부로 통합 클러스터에서 스토리지 계정 액세스 키를 구성할 수 있습니다. 스토리지 계정이 데이터 준비에 사용되는 ADLS 컨테이너 및 파일 시스템과 Delta Lake 테이블을 쓰려는 ADLS 컨테이너 및 파일 시스템에 액세스할 수 있는지 확인합니다. 키를 사용하도록 통합 클러스터를 구성하려면 Azure Data Lake Storage Gen2 및 Blob Storage에 연결의 단계를 따릅니다.
Microsoft Entra ID 서비스 주체 사용
Spark 구성의 일부로 Azure Databricks 통합 클러스터에서 서비스 주체를 구성할 수 있습니다. 서비스 주체가 데이터 준비에 사용되는 ADLS 컨테이너와 Delta 테이블을 쓰려는 ADLS 컨테이너에 액세스할 수 있는지 확인합니다. 서비스 주체를 사용하도록 통합 클러스터를 구성하려면 서비스 주체를 사용하여 ADLS Gen2에 액세스의 단계를 따르세요.
클러스터 구성 지정
클러스터 모드를 표준으로 설정합니다.
Databricks Runtime 버전을 Databricks 런타임 버전으로 설정합니다.
Spark 구성에 다음 속성을 추가하여 최적화된 쓰기 및 자동 압축을 사용하도록 설정합니다.
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
통합 및 스케일링 요구 사항에 따라 클러스터를 구성합니다.
클러스터 구성 세부 정보는 컴퓨팅 구성 참조를 참조하세요.
JDBC URL 및 HTTP 경로를 가져오는 단계는 Azure Databricks 컴퓨팅 리소스에 대한 연결 세부 정보 가져오기를 참조하세요.
3단계: 클러스터에 연결하기 위한 JDBC 및 ODBC 연결 세부 정보 가져오기
Azure Databricks 클러스터를 Syncsort에 연결하려면 다음 JDBC/ODBC 연결 속성이 필요합니다.
- JDBC URL
- HTTP 경로
4단계: Azure Databricks를 사용하여 Syncsort 구성
Databricks 및 빅 데이터에 연결 로그인 페이지로 이동하여 지침을 따릅니다.