databricks Unity 카탈로그 데이터베이스에 대한 데이터 품질
참고
Microsoft Purview 데이터 카탈로그 이름을 Microsoft Purview 통합 카탈로그로 변경합니다. 모든 기능은 동일하게 유지됩니다. 새 Microsoft Purview 데이터 거버넌스 환경을 해당 지역에서 일반적으로 사용할 수 있는 경우 이름이 변경됩니다. 해당 지역의 이름을 확인합니다.
Unity 카탈로그를 사용하려면 Unity Catalog에 대해 Azure Databricks 작업 영역을 사용하도록 설정해야 합니다. 즉, 작업 영역이 Unity Catalog 메타스토어에 연결됩니다. 모든 새 작업 영역은 만들 때 자동으로 Unity 카탈로그에 대해 사용하도록 설정되지만 이전 작업 영역에서는 계정 관리자가 Unity Catalog를 수동으로 사용하도록 설정해야 할 수 있습니다. Unity 카탈로그에 대해 작업 영역을 자동으로 사용하도록 설정했는지 여부에 관계없이 Unity Catalog를 시작하려면 다음 단계도 필요합니다.
- 테이블 및 볼륨과 같은 데이터베이스 개체를 포함하는 카탈로그 및 스키마를 만듭니다.
- 관리되는 스토리지 위치를 만들어 관리되는 테이블과 볼륨을 이러한 카탈로그 및 스키마에 저장합니다.
- 카탈로그, 스키마 및 데이터베이스 개체에 대한 사용자 액세스 권한을 부여합니다.
Unity 카탈로그에 대해 자동으로 사용하도록 설정된 작업 영역은 모든 작업 영역 사용자에게 부여된 광범위한 권한으로 작업 영역 카탈로그를 프로비전합니다. 이 카탈로그는 Unity 카탈로그를 사용해 보기에 편리한 시작점입니다.
자세한 설정 지침은 Unity 카탈로그 설정 및 관리를 참조하세요.
Azure Databricks Unity 카탈로그를 검사할 때 Microsoft Purview는 다음을 지원합니다.
- 메타스토어
- 카탈로그
- 스키마
- 열을 포함한 테이블
- 열을 포함한 뷰
검사를 설정할 때 전체 Unity 카탈로그를 검사하도록 선택하거나 카탈로그 하위 집합에 검사를 scope 수 있습니다.
Microsoft Purview에서 Databricks Unity Catalog 데이터를 카탈로그로 데이터맵 검사 구성
- Microsoft Purview에서 Azure Databricks 작업 영역 등록
- 등록된 Azure Databricks 작업 영역 검사
- 검사 이름 입력
- 추출 방법으로 Unity 카탈로그 선택
- 통합 런타임을 통해 연결(Azure 통합 런타임, 관리형 VNet IR 또는 사용자가 만든 Kubernetes 지원 자체 호스팅 통합 런타임)
- 자격 증명을 만드는 동안 액세스 토큰 인증을 선택합니다. 자세한 내용은 Microsoft Purview에서 원본 인증을 위한 자격 증명을 참조하세요.
- Microsoft Purview가 연결하고 검사를 수행할 Databricks SQL Warehouse의 HTTP 경로를 지정합니다.
- 검사 범위 페이지에서 검사할 카탈로그를 선택합니다.
- 분류에 대한 검사 규칙 집합을 선택합니다. 시스템 기본값, 기존 사용자 지정 규칙 집합 중에서 선택하거나 인라인으로 새 규칙 집합을 만들 수 있습니다. 자세한 내용은 분류 문서를 참조하세요.
- 검사 트리거의 경우 일정을 설정할지 아니면 검사를 한 번 실행할지 선택합니다.
- 검사를 검토하고 저장 및 실행을 선택합니다.
- 검사 및 검색 실행을 확인하여 데이터 카탈로그를 완료합니다.
검사한 후에는 UC(Unity Catalog)의 데이터 자산을 데이터 카탈로그 검색에서 사용할 수 있습니다. Microsoft Purview에서 Azure Databricks Unity Catalog를 연결하고 관리하는 방법에 대한 자세한 내용은 이 문서를 참조하세요.
중요
- 자격 증명을 만드는 동안 액세스 토큰 인증을 선택합니다.
- 호스트된 Azure Key Vault 액세스 토큰을 배치하고 키 자격 증명 모음을 연결 관리자에 연결합니다.
- Key Vault 제품(서비스) MSI 읽기(비밀) 액세스를 제공해야 합니다.
데이터 품질 검사를 위해 databricks UC에 대한 연결 설정
이 시점에서 검사된 자산은 카탈로그화 및 거버넌스에 사용할 준비가 되어 있습니다. 검사된 자산을 거버넌스 도메인 Sele의 데이터 제품에 연결합니다. 데이터 품질 탭에서 새 Azure SQL 데이터베이스 연결: 수동으로 입력한 데이터베이스 이름 가져오기를 추가합니다.
데이터 품질 > 거버넌스 도메인 > 관리 탭을 선택하여 연결을 만듭니다.
연결 페이지에서 연결을 구성합니다.
- 연결 이름 및 설명 추가
- 원본 유형 Azure Databricks 선택
- 작업 영역 URL 선택
- 추출 방법으로 Unity 카탈로그 선택
- HTTP 경로 선택
- Unity 카탈로그 이름 선택
- 스키마 이름 선택
- 테이블 이름 선택
- 인증 방법 선택 - 액세스 토큰
- Azure 구독 추가
- 키 자격 증명 모음 연결
- 비밀 이름
- 비밀 버전
연결 테스트
중요
- 데이터 품질 관리자는 데이터 품질 연결을 설정하려면 Azure databrics Unity Catalog에 대한 읽기 전용 액세스 권한이 필요합니다.
Azure Databricks Unity Catalog 데이터베이스의 데이터에 대한 프로파일링 및 데이터 품질 검사
연결 설정이 성공적으로 완료되면 Azure databricks Unity Catalog 데이터베이스에서 데이터를 프로파일하고, 만들고, 적용하고, 데이터의 DQ 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.