Microsoft Purview에서 Google BigQuery 프로젝트에 연결 및 관리
이 문서에서는 Google BigQuery 프로젝트를 등록하는 방법과 Microsoft Purview에서 Google BigQuery를 인증하고 상호 작용하는 방법을 간략하게 설명합니다. Microsoft Purview에 대한 자세한 내용은 소개 문서를 참조하세요.
지원되는 기능
메타데이터 추출 | 전체 검사 | 증분 검사 | 범위가 지정된 검사 | 분류 | 레이블 지정 | 액세스 정책 | 계보 | 데이터 공유 | 라이브 보기 |
---|---|---|---|---|---|---|---|---|---|
예 | 예 | 아니요 | 예 | 아니요 | 아니요 | 아니요 | 예 | 아니요 | 아니요 |
Google BigQuery 원본을 검사할 때 Microsoft Purview는 다음을 지원합니다.
다음을 포함한 기술 메타데이터 추출:
- 프로젝트
- 데이터 집합
- 열을 포함한 테이블
- 열을 포함한 뷰
테이블 및 뷰 간의 자산 관계에 대한 정적 계보 가져오기
검사를 설정할 때 전체 Google BigQuery 프로젝트를 검색하도록 선택하거나 지정된 이름 또는 이름 패턴과 일치하는 데이터 세트의 하위 집합에 검사를 scope 수 있습니다.
알려진 제한
- 현재 Microsoft Purview는 미국 다중 지역 위치에서 Google BigQuery 데이터 세트 검색만 지원합니다. 지정된 데이터 세트가 us-east1 또는 EU와 같은 다른 위치에 있는 경우 검사가 완료되었지만 Microsoft Purview에 자산이 표시되지 않습니다.
- 개체가 데이터 원본에서 삭제되면 현재 후속 검사에서 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.
필수 구성 요소
활성 구독이 있는 Azure 계정입니다. 무료로 계정을 만듭니다.
활성 Microsoft Purview 계정입니다.
원본을 등록하고 Microsoft Purview 거버넌스 포털에서 관리하려면 데이터 원본 관리자 및 데이터 읽기 권한자 권한이 필요합니다. 권한에 대한 자세한 내용은 Microsoft Purview의 액세스 제어를 참조하세요.
-
-
자체 호스팅 통합 런타임을 사용하려면 다음을 수행합니다.
- 문서에 따라 자체 호스팅 통합 런타임을 만들고 구성합니다.
- 자체 호스팅 통합 런타임이 설치된 컴퓨터에 JDK 11 이 설치되어 있는지 확인합니다. JDK를 새로 설치한 후 컴퓨터를 다시 시작하여 적용합니다.
- 자체 호스팅 통합 런타임이 실행되는 컴퓨터에 Visual C++ 재배포 가능 패키지(Visual Studio 2012 업데이트 4 이상 버전)가 설치되어 있는지 확인합니다. 이 업데이트가 설치되어 있지 않으면 지금 다운로드하세요.
- 자체 호스팅 통합 런타임이 실행되는 컴퓨터에서 BigQuery JDBC 드라이버를 다운로드하고 압축을 풉니다. 검사를 설정하는 데 사용할 폴더 경로를 적어둡니다.
-
kubernetes 지원 자체 호스팅 통합 런타임을 사용하려면 다음을 수행합니다.
- 문서에 따라 kubernetes 지원 통합 런타임을 만들고 구성합니다.
- 자체 호스팅 통합 런타임이 실행되는 컴퓨터에서 BigQuery JDBC 드라이버를 다운로드하고 압축을 풉니다. 검사를 설정하는 데 사용할 폴더 경로를 적어둡니다.
참고
자체 호스팅 통합 런타임에서 드라이버에 액세스할 수 있어야 합니다. 기본적으로 자체 호스팅 통합 런타임은 로컬 서비스 계정 "NT SERVICE\DIAHostService"를 사용합니다. 드라이버 폴더에 대한 "읽기 및 실행" 및 "폴더 내용 나열" 권한이 있는지 확인합니다.
-
자체 호스팅 통합 런타임을 사용하려면 다음을 수행합니다.
검사에 필요한 권한
검사에 사용하는 Google BigQuery 서비스 계정에는 검사하려는 프로젝트에서 BigQuery 메타데이터 뷰어와 BigQuery 작업 사용자 IAM 역할이 모두 있어야 합니다. 이러한 권한은 Microsoft Purview가 Google BigQuery 데이터베이스 시스템 테이블(예: INFORMATION_SCHEMA)을 읽어 메타데이터를 추출하기 때문에 필요합니다. 그리고 기본 Google BigQuery JDBC 드라이버는 이러한 시스템 테이블에서 읽어야 할 때 BigQuery 작업을 만듭니다.
Microsoft Purview는 Google BigQuery 서비스에 액세스하기 위해 Oauth 2.0 프로토콜을 사용합니다. 검사 만들기 및 실행 섹션의 지침에 따라 자격 증명을 설정합니다.
등록
이 섹션에서는 Microsoft Purview 거버넌스 포털을 사용하여 Microsoft Purview에서 Google BigQuery 프로젝트를 등록하는 방법을 설명합니다.
등록 단계
다음을 통해 Microsoft Purview 거버넌스 포털을 엽니다.
- Microsoft Purview 계정을 직접 https://web.purview.azure.com 탐색하고 선택합니다.
- Azure Portal 열고 Microsoft Purview 계정을 검색하고 선택합니다. Microsoft Purview 거버넌스 포털 단추를 선택합니다.
왼쪽 탐색 영역에서 데이터 맵 을 선택합니다.
등록을 선택합니다.
원본 등록에서 Google BigQuery 를 선택합니다. 계속을 선택합니다 .
원본 등록(Google BigQuery) 화면에서 다음을 수행합니다.
데이터 원본이 카탈로그 내에 나열될 이름을 입력합니다.
ProjectID를 입력합니다. 정규화된 프로젝트 ID여야 합니다. 예를 들어 mydomain.com:myProject
목록에서 컬렉션을 선택합니다.
등록을 선택하세요.
검사
아래 단계에 따라 Google BigQuery 프로젝트를 검사하여 자산을 자동으로 식별합니다. 일반적인 검사에 대한 자세한 내용은 검사 및 수집 소개를 참조하세요.
검사 만들기 및 실행
관리 센터에서 통합 런타임을 선택합니다. 자체 호스팅 통합 런타임이 설정되어 있는지 확인합니다. 설정되지 않은 경우 필수 구성 요소에 언급된 단계를 사용합니다.
원본으로 이동합니다.
등록된 BigQuery 프로젝트를 선택합니다.
+ 새 검사를 선택합니다.
아래 세부 정보를 제공합니다.
이름: 검사의 이름
통합 런타임을 통해 연결: 구성된 자체 호스팅 통합 런타임 선택
자격 증명: BigQuery 자격 증명을 구성하는 동안 다음을 확인합니다.
- 인증 방법으로 기본 인증을 선택합니다.
- 사용자 이름 필드에 서비스 계정의 이메일 ID를 제공합니다. 예를 들면
xyz\@developer.gserviceaccount.com
- 아래 단계에 따라 프라이빗 키를 생성하고 전체 JSON 키 파일을 복사한 다음 Key Vault 비밀 값으로 저장합니다.
Google의 클라우드 플랫폼에서 새 프라이빗 키를 만들려면 다음을 수행합니다.
- 탐색 메뉴에서 IAM & 관리 -> 서비스 계정 -> 프로젝트 선택을 선택합니다.>
- 키를 만들려는 서비스 계정의 이메일 주소를 선택합니다.
- 키 탭을 선택합니다.
- 키 추가 드롭다운 메뉴를 선택한 다음, 새 키 만들기를 선택합니다.
- JSON 형식을 선택합니다.
참고
프라이빗 키의 내용은 검사 프로세스가 실행될 때 VM의 임시 파일에 저장됩니다. 이 임시 파일은 검사가 성공적으로 완료된 후 삭제됩니다. 검사 오류가 발생할 경우 시스템은 성공할 때까지 계속 다시 시도합니다. SHIR이 실행 중인 VM에서 액세스가 적절하게 제한되는지 확인하세요.
자격 증명에 대한 자세한 내용은 여기 링크를 참조 하세요.
드라이버 위치: 자체 호스트 통합 런타임이 실행 중인 컴퓨터에서 JDBC 드라이버 위치의 경로를 지정합니다. 예:
D:\Drivers\GoogleBigQuery
- 로컬 컴퓨터에서 자체 호스팅 통합 런타임의 경우:
D:\Drivers\GoogleBigQuery
. 유효한 JAR 폴더 위치의 경로입니다. 값은 유효한 절대 파일 경로여야 하며 공백을 포함하지 않습니다. 자체 호스팅 통합 런타임을 통해 드라이버에 액세스할 수 있는지 확인합니다. 필수 구성 요소 섹션에서 자세히 알아보세요. - Kubernetes 지원 자체 호스팅 통합 런타임의 경우:
./drivers/GoogleBigQuery
. 유효한 JAR 폴더 위치의 경로입니다. 값은 유효한 상대 파일 경로여야 합니다. 드라이버를 미리 업로드하기 위한 외부 드라이버로 검사를 설정 하려면 설명서를 참조하세요.
- 로컬 컴퓨터에서 자체 호스팅 통합 런타임의 경우:
데이터 세트: 가져올 BigQuery 데이터 세트 목록을 지정합니다. 예를 들면
dataset1;dataset2
와 같습니다. 목록이 비어 있으면 사용 가능한 모든 데이터 세트를 가져옵니다. 허용되는 데이터 세트 이름 패턴은 정적 이름이거나 와일드카드 %를 포함할 수 있습니다.예:
A%;%B;%C%;D
- A 또는 로 시작
- 종료: B 또는
- C 또는 포함
- equal D
NOT 및 특수 문자의 사용은 허용되지 않습니다.
사용 가능한 최대 메모리: VM에서 검사 프로세스에 사용할 수 있는 최대 메모리(GB)입니다. 이는 검사할 Google BigQuery 프로젝트의 크기에 따라 달라집니다.
연결 테스트를 선택합니다.
계속을 선택합니다.
검사 트리거를 선택합니다. 일정을 설정하거나 검사를 한 번 실행할 수 있습니다.
검사를 검토하고 저장 및 실행을 선택합니다.
검사 및 검사 실행 보기
기존 검사를 보려면 다음을 수행합니다.
- Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
- 데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
- 보려는 결과가 있는 검사를 선택합니다. 창에는 이전의 모든 검사 실행과 각 검사 실행에 대한 상태 및 메트릭이 표시됩니다.
- 실행 ID를 선택하여 검사 실행 세부 정보를 검사.
검사 관리
검사를 편집, 취소 또는 삭제하려면 다음을 수행합니다.
Microsoft Purview 포털로 이동합니다. 왼쪽 창에서 데이터 맵을 선택합니다.
데이터 원본을 선택합니다. 최근 검사에서 해당 데이터 원본에 대한 기존 검사 목록을 보거나 검사 탭에서 모든 검사를 볼 수 있습니다.
관리하려는 검사를 선택합니다. 그 후에, 다음 작업을 수행할 수 있습니다.
- 검사 편집을 선택하여 검사를 편집합니다.
- 검사 실행 취소를 선택하여 진행 중인 검사를 취소합니다.
- 검사 삭제를 선택하여 검사를 삭제합니다.
참고
- 검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
계보
Google BigQuery 원본을 검사한 후 데이터 카탈로그를 찾아보거나 데이터 카탈로그 를 검색 하여 자산 세부 정보를 볼 수 있습니다.
자산 -> 계보 탭으로 이동하면 해당되는 경우 자산 관계를 볼 수 있습니다. 지원되는 Google BigQuery 계보 시나리오에서 지원되는 기능 섹션을 참조하세요. 일반적인 계보에 대한 자세한 내용은 데이터 계보 및 계보 사용자 가이드를 참조하세요.
다음 단계
원본을 등록했으므로 아래 가이드에 따라 Microsoft Purview 및 데이터에 대해 자세히 알아보세요.