Microsoft Purview에서 Azure Databricks에 연결 및 관리
이 문서에서는 Azure Databricks를 등록하는 방법과 Microsoft Purview에서 Azure Databricks를 인증하고 상호 작용하는 방법을 간략하게 설명합니다. Microsoft Purview에 대한 자세한 내용은 소개 문서를 참조하세요.
지원되는 기능
메타데이터 추출 | 전체 검사 | 증분 검사 | 범위가 지정된 검사 | 분류 | 레이블 지정 | 액세스 정책 | 계보 | 데이터 공유 | 라이브 보기 |
---|---|---|---|---|---|---|---|---|---|
예 | 예 | 아니요 | 예 | 아니요 | 아니요 | 아니요 | 예 | 아니요 | 아니오 |
참고
이 커넥터는 Azure Databricks 작업 영역 범위 Hive 메타스토어에서 메타데이터를 가져옵니다. Azure Databricks Unity Catalog에서 메타데이터를 검사하려면 Azure Databricks Unity Catalog 커넥터를 참조하세요.
Azure Databricks Hive 메타스토어를 검사할 때 Microsoft Purview는 다음을 지원합니다.
다음을 포함한 기술 메타데이터 추출:
- Azure Databricks 작업 영역
- Hive 서버
- 데이터베이스
- 열, 외장 키, 고유 제약 조건 및 스토리지 설명을 포함한 테이블
- 열 및 스토리지 설명을 포함한 보기
외부 테이블과 Azure Data Lake Storage Gen2/Azure Blob 자산(외부 위치) 간의 관계를 가져옵니다.
뷰 정의에 따라 테이블과 뷰 간에 정적 계보를 가져옵니다.
검사를 설정할 때 전체 Hive 메타스토어를 검사하거나 검사를 스키마의 하위 집합에 scope 선택할 수 있습니다.
Azure Databricks를 이전에 검사하는 데 사용하는 경우 일반 Hive Metastore 커넥터 를 통한 검사 비교:
- 직접 HMS 액세스 없이 Azure Databricks 작업 영역에 대한 검사를 직접 설정할 수 있습니다. 인증을 위해 Databricks 개인용 액세스 토큰을 사용하고 클러스터에 연결하여 검사를 수행합니다.
- Databricks 작업 영역 정보가 캡처됩니다.
- 테이블과 스토리지 자산 간의 관계가 캡처됩니다.
알려진 제한
개체가 데이터 원본에서 삭제되면 현재 후속 검사에서 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.
필수 구성 요소
활성 구독이 있는 Azure 계정이 있어야 합니다. 무료로 계정을 만듭니다.
활성 Microsoft Purview 계정이 있어야 합니다.
비밀에 액세스할 수 있는 권한을 Microsoft Purview에 부여하려면 Azure Key Vault 필요합니다.
원본을 등록하고 Microsoft Purview 거버넌스 포털에서 관리하려면 데이터 원본 관리자 및 데이터 읽기 권한자 권한이 필요합니다. 권한에 대한 자세한 내용은 Microsoft Purview의 액세스 제어를 참조하세요.
최신 자체 호스팅 통합 런타임을 설정합니다. 자세한 내용은 자체 호스팅 통합 런타임 만들기 및 구성을 참조하세요. 지원되는 최소 자체 호스팅 Integration Runtime 버전은 5.20.8227.2입니다.
자체 호스팅 통합 런타임이 설치된 컴퓨터에 JDK 11 이 설치되어 있는지 확인합니다. JDK를 새로 설치한 후 컴퓨터를 다시 시작하여 적용합니다.
자체 호스팅 통합 런타임이 실행되는 컴퓨터에 Visual C++ 재배포 가능 패키지(Visual Studio 2012 업데이트 4 이상 버전)가 설치되어 있는지 확인합니다. 이 업데이트가 설치되어 있지 않으면 지금 다운로드하세요.
Azure Databricks 작업 영역에서 다음을 수행합니다.
개인용 액세스 토큰을 생성하고 Azure Key Vault 비밀로 저장합니다.
클러스터를 만듭니다. 클러스터 ID를 적어둡니다. Azure Databricks 작업 영역 - 컴퓨팅 - 클러스터 -> 태그 ->> 자동으로 추가된 태그 -
ClusterId
>에서 찾을 수 있습니다.>Azure Databricks 클러스터에 연결할 수 있도록 사용자에게 다음 권한이 있는지 확인합니다.
- 사용 권한에 연결하여 실행 중인 클러스터에 연결할 수 있습니다.
- 연결 시 상태가 종료되는 경우 클러스터를 자동으로 트리거하여 시작할 수 있는 권한을 다시 시작할 수 있습니다.
등록
이 섹션에서는 Microsoft Purview 거버넌스 포털을 사용하여 Microsoft Purview에서 Azure Databricks 작업 영역을 등록하는 방법을 설명합니다.
Microsoft Purview 계정으로 이동합니다.
왼쪽 창에서 데이터 맵 을 선택합니다.
등록을 선택하세요.
원본 등록에서 Azure Databricks Continue를> 선택합니다.
원본 등록(Azure Databricks) 화면에서 다음을 수행합니다.
이름에 Microsoft Purview가 데이터 원본으로 나열할 이름을 입력합니다.
Azure 구독 및 Databricks 작업 영역 이름의 경우 드롭다운에서 검사할 구독 및 작업 영역을 선택합니다. Databricks 작업 영역 URL이 자동으로 채워집니다.
목록에서 컬렉션을 선택합니다.
완료를 선택합니다.
검사
다음 단계를 사용하여 Azure Databricks를 검사하여 자산을 자동으로 식별합니다. 일반적인 검사에 대한 자세한 내용은 Microsoft Purview의 검사 및 수집을 참조하세요.
관리 센터에서 통합 런타임을 선택합니다. 자체 호스팅 통합 런타임이 설정되어 있는지 확인합니다. 설정되지 않은 경우 자체 호스팅 통합 런타임 만들기 및 관리의 단계를 사용합니다.
원본으로 이동합니다.
등록된 Azure Databricks를 선택합니다.
+ 새 검사를 선택합니다.
다음 세부 정보를 제공하세요.
이름: 검사의 이름을 입력합니다.
추출 방법: Hive Metastore 또는 Unity 카탈로그에서 메타데이터를 추출하도록 지정합니다. Hive Metastore를 선택합니다.
통합 런타임을 통해 연결: 구성된 자체 호스팅 통합 런타임을 선택합니다.
자격 증명: 자격 증명을 선택하여 데이터 원본에 연결합니다. 다음을 수행해야 합니다.
- 자격 증명을 만드는 동안 액세스 토큰 인증 을 선택합니다.
- 적절한 상자의 필수 구성 요소 에서 만든 개인용 액세스 토큰의 비밀 이름을 제공합니다.
클러스터 ID: Microsoft Purview가 연결하고 검사를 구동하는 클러스터 ID를 지정합니다. Azure Databricks 작업 영역 - 컴퓨팅 - 클러스터 -> 태그 ->> 자동으로 추가된 태그 -
ClusterId
>에서 찾을 수 있습니다.>탑재 지점: 외부 스토리지가 Databricks에 수동으로 탑재된 경우 탑재 지점 및 Azure Storage 원본 위치 문자열을 제공합니다. 형식
/mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net
을 사용합니다. Microsoft Purview에서 테이블과 해당 스토리지 자산 간의 관계를 캡처하는 데 사용됩니다. 이 설정은 선택 사항입니다. 지정하지 않으면 이러한 관계가 검색되지 않습니다.Notebook에서 다음 Python 명령을 실행하여 Databricks 작업 영역에서 탑재 지점 목록을 가져올 수 있습니다.
dbutils.fs.mounts()
아래와 같은 모든 탑재 지점을 인쇄합니다.
[MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''), MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''), MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''), MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''), MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]
이 예제에서는 탑재 지점으로 다음을 지정합니다.
/mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net
스키마: 가져올 스키마의 하위 집합으로 세미콜론으로 구분된 스키마 목록으로 표시됩니다. 예를 들면
schema1;schema2
와 같습니다. 해당 목록이 비어 있으면 모든 사용자 스키마를 가져옵니다. 모든 시스템 스키마 및 개체는 기본적으로 무시됩니다.허용되는 스키마 이름 패턴은 정적 이름이거나 와일드카드 %를 포함할 수 있습니다. 예:
A%;%B;%C%;D
- A 또는 로 시작
- B 또는 로 종료
- C 또는 포함
- 같음 D
NOT 및 특수 문자의 사용은 허용되지 않습니다.
참고
이 스키마 필터는 자체 호스팅 Integration Runtime 버전 5.32.8597.1 이상에서 지원됩니다.
사용 가능한 최대 메모리: 검사 프로세스에서 사용할 최대 메모리(기가바이트)를 고객의 컴퓨터에서 사용할 수 있습니다. 이 값은 검사할 Azure Databricks의 크기에 따라 달라집니다.
참고
1,000개 테이블마다 1GB 메모리를 제공하세요.
계속을 선택합니다.
검사 트리거의 경우 일정을 설정할지 아니면 검사를 한 번 실행할지 선택합니다.
검사를 검토하고 저장 및 실행을 선택합니다.
검사가 성공적으로 완료되면 Azure Databricks 자산을 찾아보고 검색하는 방법을 참조하세요.
검사 및 검사 실행 보기
기존 검사를 보려면 다음을 수행합니다.
- Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
- 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
- 보려는 결과가 있는 검사를 선택합니다. 창에는 이전의 모든 검사 실행과 각 검사 실행에 대한 상태 및 메트릭이 표시됩니다.
- 실행 ID를 선택하여 검사 실행 세부 정보를 검사.
검사 관리
검사를 편집, 취소 또는 삭제하려면 다음을 수행합니다.
Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
관리하려는 검사를 선택합니다. 그 후에, 다음 작업을 수행할 수 있습니다.
- 검사 편집을 선택하여 검사를 편집합니다.
- 검사 실행 취소를 선택하여 진행 중인 검사를 취소합니다.
- 검사 삭제를 선택하여 검사를 삭제합니다.
참고
- 검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
자산 찾아보기 및 검색
Azure Databricks를 검사한 후 데이터 카탈로그를 찾아보거나 데이터 카탈로그 를 검색 하여 자산 세부 정보를 볼 수 있습니다.
Databricks 작업 영역 자산에서 연결된 Hive Metastore와 역방향 적용된 테이블/뷰도 찾을 수 있습니다.
계보
지원되는 Azure Databricks 시나리오에서 지원되는 기능 섹션을 참조하세요. 일반적인 계보에 대한 자세한 내용은 데이터 계보 및 계보 사용자 가이드를 참조하세요.
Hive 테이블/자산 보기 -> 계보 탭으로 이동하면 해당되는 경우 자산 관계를 볼 수 있습니다. 테이블과 외부 스토리지 자산 간의 관계에 대해서는 Hive 테이블 자산과 스토리지 자산이 서로 상호 영향을 주므로 양방향으로 직접 연결되는 것을 볼 수 있습니다. 테이블 문 만들기에서 탑재 지점을 사용하는 경우 이러한 관계를 추출하려면 검사 설정 에 탑재 지점 정보를 제공해야 합니다.
다음 단계
원본을 등록했으므로 다음 가이드를 사용하여 Microsoft Purview 및 데이터에 대해 자세히 알아보세요.