Google BigQuery의 데이터 품질(미리 보기)
참고
Microsoft Purview 데이터 카탈로그 이름을 Microsoft Purview 통합 카탈로그로 변경합니다. 모든 기능은 동일하게 유지됩니다. 새 Microsoft Purview 데이터 거버넌스 환경을 해당 지역에서 일반적으로 사용할 수 있는 경우 이름이 변경됩니다. 해당 지역의 이름을 확인합니다.
지원되는 기능
Google BigQuery 원본을 검사할 때 Microsoft Purview는 다음을 지원합니다.
- 다음을 포함한 기술 메타데이터 추출:
- 프로젝트 및 데이터 세트
- 열을 포함한 테이블
- 열을 포함한 뷰
- 테이블 및 뷰 간의 자산 관계에 대한 정적 계보 가져오기
검사를 설정할 때 전체 Google BigQuery 프로젝트를 검색하도록 선택할 수 있습니다. 지정된 이름 또는 이름 패턴과 일치하는 데이터 세트의 하위 집합에 검사를 scope 수도 있습니다.
알려진 제한
- 현재 Microsoft Purview는 미국 다중 지역 위치에서 Google BigQuery 데이터 세트 검색만 지원합니다. 지정된 데이터 세트가 us-east1 또는 EU와 같은 다른 위치에 있는 경우 검사가 완료되었지만 Microsoft Purview에 자산이 표시되지 않는 것을 볼 수 있습니다.
- 개체가 데이터 원본에서 삭제되면 현재 후속 검사는 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.
Microsoft Purview에서 Google BigQuery 데이터를 카탈로그화하도록 데이터맵 검사 구성
Google BigQuery 프로젝트 등록
- Microsoft Purview를 열고 왼쪽 탐색 영역에서 데이터 맵을 선택합니다.
- 등록을 선택하세요.
- 원본 등록에서 Google BigQuery를 선택합니다. 계속을 선택합니다.
- 데이터 원본이 카탈로그 내에 나열될 이름을 입력합니다.
- ProjectID를 입력합니다. 정규화된 프로젝트 ID여야 합니다. 예를 들어 mydomain.com: myProject
- 목록에서 컬렉션을 선택합니다.
- 등록을 선택하세요.
Google BigQuery 프로젝트에 대한 데이터맵 검사 설정
- 자체 호스팅 통합 런타임이 설정되어 있는지 확인합니다. 설정되지 않은 경우 필수 구성 요소에 설명된 단계를 사용합니다.
- 원본으로 이동합니다.
- 등록된 BigQuery 프로젝트를 선택합니다.
- + 새 검사를 선택합니다.
- 아래 세부 정보를 제공합니다.
- 이름: 검사의 이름
- 통합 런타임을 통해 연결: 구성된 자체 호스팅 통합 런타임 선택
- 자격 증명: BigQuery 자격 증명을 구성하는 동안 다음을 확인합니다.
- 인증 방법으로 기본 인증을 선택합니다.
- 사용자 이름 필드에 서비스 계정의 이메일 ID를 제공합니다. 예를 들면 xyz@developer.gserviceaccount.com
- 아래 단계에 따라 프라이빗 키를 생성합니다. 전체 JSON 키 파일을 복사하여 Key Vault 비밀 값으로 저장합니다.
- Google의 클라우드 플랫폼에서 새 프라이빗 키를 만들려면 다음을 수행합니다.
- 탐색 메뉴에서 IAM(ID 액세스 관리)을 선택하고 관리 --> 서비스 계정 --> 프로젝트 선택 --을 선택합니다.>
- 키를 만들려는 서비스 계정의 이메일 주소를 선택합니다.
- 키 탭을 선택합니다.
- 키 추가 드롭다운 메뉴를 선택한 다음, 새 키 만들기를 선택합니다.
- JSON 형식을 선택합니다.
- 자체 호스트 통합 런타임이 실행 중인 컴퓨터에서 JDBC(Java Database Connectivity) 드라이버 위치의 경로를 지정합니다. 예: D:\Drivers\GoogleBigQuery.
- 가져올 BigQuery 데이터 세트 목록을 지정합니다. 예를 들어 dataset1; dataset2. 목록이 비어 있으면 사용 가능한 모든 데이터 세트를 가져옵니다.
- 검사 프로세스에서 사용할 VM(Virtual Machine)에서 사용할 수 있는 최대 메모리(GB)입니다. 이는 검사할 Google BigQuery 프로젝트의 크기에 따라 달라집니다.
- 연결 테스트를 선택합니다.
- 계속을 선택합니다.
- 검사 트리거를 선택합니다. 일정을 설정하거나 검사를 한 번 실행할 수 있습니다.
- 검사를 검토하고 저장 및 실행을 선택합니다.
스캔한 후에는 Google BigQuery 프로젝트의 데이터 자산을 데이터 카탈로그 검색에서 사용할 수 있습니다. Microsoft Purview에서 Google BigQuery를 연결하고 관리하는 방법에 대한 자세한 내용은 이 문서를 참조하세요.
중요
검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.
데이터 품질 검사를 위해 Google BigQuery 프로젝트에 대한 연결 설정
이 시점에서 검사된 자산은 카탈로그화 및 거버넌스에 사용할 준비가 되어 있습니다. 검사된 자산을 거버넌스 도메인의 데이터 제품에 연결하여 데이터 품질 검사를 설정합니다.
데이터 품질 > 거버넌스 도메인 >관리 탭을 선택하여 연결을 만듭니다.
연결 구성
- 연결 이름 및 설명 추가
- 원본 유형 Google BigQuery 선택
- 프로젝트 ID, 데이터 세트 이름 및 테이블 이름 추가
- 서비스 계정 프라이빗 키 선택
- Azure 구독 추가
- 키 자격 증명 모음 연결
- 비밀 이름
- 비밀 버전
연결을 테스트하여 데이터 원본 연결이 성공적으로 구성되었는지 확인합니다.
중요
데이터 품질 관리자는 데이터 품질 연결을 설정하기 위해 Google BigQuery에 대한 읽기 전용 액세스 권한이 필요합니다.
Google BigQuery의 데이터에 대한 프로파일링 및 데이터 품질 검사
연결 설정이 성공적으로 완료되면 Google BigQuery에서 데이터를 프로파일하고, 만들고, 적용하고, 데이터의 데이터 품질 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.