다음을 통해 공유


Google BigQuery의 데이터 품질(미리 보기)

참고

Microsoft Purview 데이터 카탈로그 이름을 Microsoft Purview 통합 카탈로그로 변경합니다. 모든 기능은 동일하게 유지됩니다. 새 Microsoft Purview 데이터 거버넌스 환경을 해당 지역에서 일반적으로 사용할 수 있는 경우 이름이 변경됩니다. 해당 지역의 이름을 확인합니다.

지원되는 기능

Google BigQuery 원본을 검사할 때 Microsoft Purview는 다음을 지원합니다.

  • 다음을 포함한 기술 메타데이터 추출:
    • 프로젝트 및 데이터 세트
    • 열을 포함한 테이블
    • 열을 포함한 뷰
  • 테이블 및 뷰 간의 자산 관계에 대한 정적 계보 가져오기

검사를 설정할 때 전체 Google BigQuery 프로젝트를 검색하도록 선택할 수 있습니다. 지정된 이름 또는 이름 패턴과 일치하는 데이터 세트의 하위 집합에 검사를 scope 수도 있습니다.

알려진 제한

  • 현재 Microsoft Purview는 미국 다중 지역 위치에서 Google BigQuery 데이터 세트 검색만 지원합니다. 지정된 데이터 세트가 us-east1 또는 EU와 같은 다른 위치에 있는 경우 검사가 완료되었지만 Microsoft Purview에 자산이 표시되지 않는 것을 볼 수 있습니다.
  • 개체가 데이터 원본에서 삭제되면 현재 후속 검사는 Microsoft Purview에서 해당 자산을 자동으로 제거하지 않습니다.

Microsoft Purview에서 Google BigQuery 데이터를 카탈로그화하도록 데이터맵 검사 구성

Google BigQuery 프로젝트 등록

  • Microsoft Purview를 열고 왼쪽 탐색 영역에서 데이터 맵을 선택합니다.
  • 등록을 선택하세요.
  • 원본 등록에서 Google BigQuery를 선택합니다. 계속을 선택합니다.
    • 데이터 원본이 카탈로그 내에 나열될 이름을 입력합니다.
    • ProjectID를 입력합니다. 정규화된 프로젝트 ID여야 합니다. 예를 들어 mydomain.com: myProject
    • 목록에서 컬렉션을 선택합니다.
    • 등록을 선택하세요.

Google BigQuery 프로젝트에 대한 데이터맵 검사 설정

  • 자체 호스팅 통합 런타임이 설정되어 있는지 확인합니다. 설정되지 않은 경우 필수 구성 요소에 설명된 단계를 사용합니다.
  • 원본으로 이동합니다.
  • 등록된 BigQuery 프로젝트를 선택합니다.
  • + 새 검사를 선택합니다.
  • 아래 세부 정보를 제공합니다.
    • 이름: 검사의 이름
    • 통합 런타임을 통해 연결: 구성된 자체 호스팅 통합 런타임 선택
    • 자격 증명: BigQuery 자격 증명을 구성하는 동안 다음을 확인합니다.
      • 인증 방법으로 기본 인증을 선택합니다.
      • 사용자 이름 필드에 서비스 계정의 이메일 ID를 제공합니다. 예를 들면 xyz@developer.gserviceaccount.com
      • 아래 단계에 따라 프라이빗 키를 생성합니다. 전체 JSON 키 파일을 복사하여 Key Vault 비밀 값으로 저장합니다.
      • Google의 클라우드 플랫폼에서 새 프라이빗 키를 만들려면 다음을 수행합니다.
        • 탐색 메뉴에서 IAM(ID 액세스 관리)을 선택하고 관리 --> 서비스 계정 --> 프로젝트 선택 --을 선택합니다.>
        • 키를 만들려는 서비스 계정의 이메일 주소를 선택합니다.
        • 키 탭을 선택합니다.
        • 키 추가 드롭다운 메뉴를 선택한 다음, 새 키 만들기를 선택합니다.
        • JSON 형식을 선택합니다.
    • 자체 호스트 통합 런타임이 실행 중인 컴퓨터에서 JDBC(Java Database Connectivity) 드라이버 위치의 경로를 지정합니다. 예: D:\Drivers\GoogleBigQuery.
    • 가져올 BigQuery 데이터 세트 목록을 지정합니다. 예를 들어 dataset1; dataset2. 목록이 비어 있으면 사용 가능한 모든 데이터 세트를 가져옵니다.
    • 검사 프로세스에서 사용할 VM(Virtual Machine)에서 사용할 수 있는 최대 메모리(GB)입니다. 이는 검사할 Google BigQuery 프로젝트의 크기에 따라 달라집니다.
  • 연결 테스트를 선택합니다.
  • 계속을 선택합니다.
  • 검사 트리거를 선택합니다. 일정을 설정하거나 검사를 한 번 실행할 수 있습니다.
  • 검사를 검토하고 저장 및 실행을 선택합니다.

스캔한 후에는 Google BigQuery 프로젝트의 데이터 자산을 데이터 카탈로그 검색에서 사용할 수 있습니다. Microsoft Purview에서 Google BigQuery를 연결하고 관리하는 방법에 대한 자세한 내용은 이 문서를 참조하세요.

중요

검사를 삭제해도 이전 검사에서 만든 카탈로그 자산은 삭제되지 않습니다.

데이터 품질 검사를 위해 Google BigQuery 프로젝트에 대한 연결 설정

이 시점에서 검사된 자산은 카탈로그화 및 거버넌스에 사용할 준비가 되어 있습니다. 검사된 자산을 거버넌스 도메인의 데이터 제품에 연결하여 데이터 품질 검사를 설정합니다.

  1. 데이터 품질 > 거버넌스 도메인 >관리 탭을 선택하여 연결을 만듭니다.

    연결 페이지 탐색을 보여 주는 스크린샷

  2. 연결 구성

    • 연결 이름 및 설명 추가
    • 원본 유형 Google BigQuery 선택
    • 프로젝트 ID, 데이터 세트 이름 및 테이블 이름 추가
    • 서비스 계정 프라이빗 키 선택
      • Azure 구독 추가
      • 키 자격 증명 모음 연결
      • 비밀 이름
      • 비밀 버전
  3. 연결을 테스트하여 데이터 원본 연결이 성공적으로 구성되었는지 확인합니다.

    google BigQuery 연결을 설정하는 방법을 보여 주는 스크린샷

    google BigQuery에 대한 연결을 구성하는 방법을 보여 주는 스크린샷

중요

데이터 품질 관리자는 데이터 품질 연결을 설정하기 위해 Google BigQuery에 대한 읽기 전용 액세스 권한이 필요합니다.

Google BigQuery의 데이터에 대한 프로파일링 및 데이터 품질 검사

연결 설정이 성공적으로 완료되면 Google BigQuery에서 데이터를 프로파일하고, 만들고, 적용하고, 데이터의 데이터 품질 검사를 실행할 수 있습니다. 아래 문서에 설명된 단계별 지침을 따릅니다.

참조 문서