Microsoft Purview에서 Azure Databricks Unity 카탈로그에 연결 및 관리
이 문서에서는 Azure Databricks를 등록하는 방법과 Microsoft Purview에서 Azure Databricks Unity Catalog를 인증하고 상호 작용하는 방법을 간략하게 설명합니다. Microsoft Purview에 대한 자세한 내용은 소개 문서를 참조하세요.
지원되는 기능
메타데이터 추출 | 전체 검사 | 증분 검사 | 범위가 지정된 검사 | 분류 | 레이블 지정 | 액세스 정책 | 계보 | 데이터 공유 | 라이브 보기 |
---|---|---|---|---|---|---|---|---|---|
예 | 예 | 아니요 | 예 | 예 | 예 | 아니요 | 예 | 아니요 | 아니요 |
Azure Databricks Unity 카탈로그를 검사할 때 Microsoft Purview는 다음을 지원합니다.
- 다음을 포함한 기술 메타데이터 추출:
- 메타스토어
- 카탈로그
- 스키마
- 열을 포함한 테이블
- 열을 포함한 뷰
- Notebook을 실행하는 동안 테이블, 뷰, 열 간의 자산 관계에 대한 계보를 가져옵니다.
검사를 설정할 때 전체 Unity 카탈로그를 검사하도록 선택하거나 카탈로그 하위 집합에 검사를 scope 수 있습니다.
참고
이 커넥터는 Azure Databricks Unity Catalog에서 메타데이터를 가져옵니다. Azure Databricks 작업 영역 범위 메타데이터를 검사하려면 Azure Databricks Hive Metastore 커넥터를 참조하세요.
알려진 제한
- 개체가 데이터 원본에서 삭제되면 현재 후속 검사에서 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.
- 네이티브 Azure Databricks 계보와 관련된 다른 제한 사항에 대한 자세한 내용은 Azure Databricks 설명서를 참조하세요.
필수 구성 요소
활성 구독이 있는 Azure 계정이 있어야 합니다. 무료로 계정을 만듭니다.
활성 Microsoft Purview 계정이 있어야 합니다.
비밀에 액세스할 수 있는 권한을 Microsoft Purview에 부여하려면 Azure Key Vault 필요합니다.
원본을 등록하고 Microsoft Purview 거버넌스 포털에서 관리하려면 데이터 원본 관리자 및 데이터 읽기 권한자 권한이 필요합니다. 권한에 대한 자세한 내용은 Microsoft Purview의 액세스 제어를 참조하세요.
Azure Databricks Unity 카탈로그를 검사하기 위해 Microsoft Purview는 작업 영역의 SQL Warehouse에 연결하고 인증을 위해 개인용 액세스 토큰을 사용합니다. 카탈로그를 사용하도록 설정하고 검사하려는 메타스토어에 연결된 Unity Azure Databricks 작업 영역이 있어야 합니다. Azure Databricks 작업 영역에서 다음을 수행합니다.
개인용 액세스 토큰을 생성하고 Azure Key Vault 비밀로 저장합니다.
Microsoft Purview로 가져오려는 모든 개체의 경우 사용자에게 테이블/뷰에 대한 SELECT 권한, 개체 카탈로그의 USE CATALOG 및 개체 스키마의 USE SCHEMA 가 있어야 합니다.
Unity 카탈로그 메타스토어의 모든 개체를 검사하려면 메타스토어 관리자 역할이 있는 사용자를 사용합니다. Unity 카탈로그의 권한 관리 및 카탈로그권한 및 보안 개체를 Unity 자세히 알아보세요.
분류의 경우 사용자는 테이블/뷰에 대한 SELECT 권한이 있어야 샘플 데이터를 검색할 수 있습니다.
SQL Warehouse를 만듭니다. 해당하는 경우 자동 생성된 스타터 웨어하우스도 사용할 수 있습니다.
HTTP 경로를 적어둡니다. Azure Databricks 작업 영역 - SQL Warehouses ->> 웨어하우스 - 연결 세부 정보 ->> HTTP 경로에서 찾을 수 있습니다.
사용자에게 Azure Databricks SQL 웨어하우스에 연결할 수 있는 사용 권한이 있는지 확인합니다. SQL 웨어하우스 액세스 제어에서 자세히 알아보세요.
Microsoft Purview를 사용하여 Azure Databricks에서 계보를 가져오려면 다음 필수 구성 요소가 있어야 합니다.
시스템 스키마 사용: Unity 카탈로그에서 시스템 스키마 system.access를 사용하도록 설정해야 합니다. 계보 정보가 시스템 테이블에 저장되고 이 스키마를 사용하도록 설정하면 해당 테이블에 액세스할 수 있기 때문에 이 작업이 필요합니다. 시스템 테이블을 사용하여 사용량 모니터링에 대해 자세히 알아봅니다.
사용자 권한: 검사에 사용되는 사용자 계정에는 다음 시스템 테이블에 대한 SELECT 권한이 있어야 합니다.
system.access.table_lineage
system.access.column_lineage
계보 데이터가 시스템 테이블에서 직접 읽혀지고 필요한 액세스 권한이 없으면 Microsoft Purview에서 계보 정보를 검색할 수 없으므로 이러한 권한이 필요합니다.
Azure Databricks 작업 영역에서 공용 네트워크의 액세스를 허용하지 않거나 Microsoft Purview 계정이 모든 네트워크에서 액세스를 사용하도록 설정하지 않는 경우 관리되는 Virtual Network Integration Runtime 또는 kubernetes 지원 자체 호스팅 통합 런타임을 사용하여 검색할 수 있습니다. 필요에 따라 Azure Databricks에 대한 관리형 프라이빗 엔드포인트를 설정하여 프라이빗 연결을 설정할 수 있습니다.
등록
이 섹션에서는 Microsoft Purview 거버넌스 포털을 사용하여 Microsoft Purview에서 Azure Databricks 작업 영역을 등록하는 방법을 설명합니다.
Microsoft Purview 계정으로 이동합니다.
왼쪽 창에서 데이터 맵 을 선택합니다.
등록을 선택하세요.
원본 등록에서 Azure Databricks Continue를> 선택합니다.
원본 등록(Azure Databricks) 화면에서 다음을 수행합니다.
이름에 Microsoft Purview가 데이터 원본으로 나열할 이름을 입력합니다.
Azure 구독 및 Databricks 작업 영역 이름의 경우 드롭다운에서 검사할 구독 및 작업 영역을 선택합니다. Databricks 작업 영역 URL이 자동으로 채워집니다.
목록에서 컬렉션을 선택합니다.
완료를 선택합니다.
검사
다음 단계를 사용하여 Azure Databricks를 검사하여 자산을 자동으로 식별합니다. 일반적인 검사에 대한 자세한 내용은 Microsoft Purview의 검사 및 수집을 참조하세요.
원본으로 이동합니다.
등록된 Azure Databricks를 선택합니다.
+ 새 검사를 선택합니다.
다음 세부 정보를 제공하세요.
이름: 검사의 이름을 입력합니다.
추출 방법: Hive Metastore 또는 Unity 카탈로그에서 메타데이터를 추출하도록 지정합니다. Unity 카탈로그를 선택합니다.
통합 런타임을 통해 연결: 기본 Azure 통합 런타임, 관리형 VNet IR 또는 만든 Kubernetes 지원 자체 호스팅 통합 런타임을 선택합니다.
자격 증명: 자격 증명을 선택하여 데이터 원본에 연결합니다. 다음을 수행해야 합니다.
- 자격 증명을 만드는 동안 액세스 토큰 인증 을 선택합니다.
- 적절한 상자의 필수 구성 요소 에서 만든 개인용 액세스 토큰의 비밀 이름을 제공합니다.
HTTP 경로: Microsoft Purview가 연결하여 검사를 수행할 Databricks SQL Warehouse의 HTTP 경로를 지정합니다(예: ).
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
Azure Databricks 작업 영역 - SQL Warehouses ->> 웨어하우스 - 연결 세부 정보 ->> HTTP 경로에서 찾을 수 있습니다.계보 추출: 계보 추출을 켜 기로 전환하여 스캔한 자산의 계보를 가져옵니다.
연결 테스트를 선택하여 설정의 유효성을 검사합니다.
계속을 선택합니다.
검사 범위 페이지에서 검사할 카탈로그를 선택합니다.
분류에 대한 검사 규칙 집합 을 선택합니다. 시스템 기본값, 기존 사용자 지정 규칙 집합 중에서 선택하거나 인라인 으로 새 규칙 집합을 만들 수 있습니다. 자세한 내용은 분류 문서를 참조하세요.
검사 트리거의 경우 일정을 설정할지 아니면 검사를 한 번 실행할지 선택합니다.
검사를 검토하고 저장 및 실행을 선택합니다.
검사가 성공적으로 완료되면 자산을 찾아보고 검색하는 방법을 참조하세요.
검사 및 검사 실행 보기
기존 검사를 보려면 다음을 수행합니다.
- Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
- 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
- 보려는 결과가 있는 검사를 선택합니다. 창에는 이전의 모든 검사 실행과 각 검사 실행에 대한 상태 및 메트릭이 표시됩니다.
- 실행 ID를 선택하여 검사 실행 세부 정보를 검사.
검사 관리
검사를 편집, 취소 또는 삭제하려면 다음을 수행합니다.
Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
관리하려는 검사를 선택합니다. 그 후에, 다음 작업을 수행할 수 있습니다.
- 검사 편집을 선택하여 검사를 편집합니다.
- 검사 실행 취소를 선택하여 진행 중인 검사를 취소합니다.
- 검사 삭제를 선택하여 검사를 삭제합니다.
참고
- 검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
자산 찾아보기 및 검색
Azure Databricks를 검사한 후 데이터 카탈로그를 찾아보거나 데이터 카탈로그 를 검색 하여 자산 세부 정보 및 계보를 볼 수 있습니다.
원본 유형별로 검색할 때 각각 Azure Databricks Unity Catalog 및 Azure Databricks에 대한 두 개의 항목이 표시됩니다. 전자에는 메타스토어와 해당 카탈로그/스키마/테이블/뷰를 포함한 Unity 카탈로그 아티팩트가 포함되고, 후자는 작업 영역 아티팩트가 포함됩니다.
Azure Databricks 작업 영역 자산의 속성 탭에서 연결된 Unity 카탈로그를 찾을 수 있습니다. 역방향도 적용됩니다.
계보
특정 Azure Databricks 자산을 검색할 때 계보를 캡처한 Notebook을 볼 수 있습니다.
자산 -> 계보 탭으로 이동하면 해당하는 경우 Azure Databricks Notebook 자산 또는 테이블/보기 자산에서 계보를 볼 수 있습니다.
지원되는 Databricks Unity 카탈로그 계보 시나리오에서 지원되는 기능 섹션을 참조하세요. 일반적인 계보에 대한 자세한 내용은 데이터 계보 및 계보 사용자 가이드를 참조하세요.
질문과 대답(FAQ)
Microsoft Purview에서 캡처한 Unity 카탈로그의 열 수준 계보인가요?
Microsoft Purview는 Unity 카탈로그 테이블/뷰 수준과 열 수준 모두에서 계보를 캡처할 수 있습니다.
방금 전자 필기장을 실행했지만 Microsoft Purview는 계보를 가져오지 않았습니다. 무슨 일이죠?
Databricks가 Notebook을 실행한 후 시스템 테이블의 계보 정보를 업데이트하는 데 약간의 지연(몇 분)이 있을 수 있습니다. Microsoft Purview는 시스템 테이블이 업데이트되면 계보를 가져올 수 있습니다.
다음 단계
원본이 등록되었으므로 다음 가이드를 사용하여 Microsoft Purview 및 데이터에 대해 자세히 알아보세요.