Поделиться через


Подключение к проектам Google BigQuery и управление ими в Microsoft Purview

В этой статье описывается регистрация проектов Google BigQuery, а также аутентификация и взаимодействие с Google BigQuery в Microsoft Purview. Дополнительные сведения о Microsoft Purview см. в вводной статье.

Поддерживаемые возможности

Извлечение метаданных Полная проверка Добавочное сканирование Сканирование с заданной областью Классификация Присвоение подписей Политика доступа Lineage Общий доступ к данным Интерактивное представление
Да Да Нет Да Нет Нет Нет Да Нет Нет

При сканировании источника Google BigQuery Microsoft Purview поддерживает:

  • Извлечение технических метаданных, включая:

    • Projects
    • Наборы данных
    • Таблицы, включая столбцы
    • Представления, включая столбцы
  • Получение статического происхождения данных о связях ресурсов между таблицами и представлениями.

При настройке сканирования можно выбрать сканирование всего проекта Google BigQuery или область сканирование в подмножество наборов данных, соответствующих заданным именам или шаблонам имен.

Известные ограничения

  • В настоящее время Microsoft Purview поддерживает только сканирование наборов данных Google BigQuery в нескольких регионах США. Если указанный набор данных находится в другом расположении, например us-east1 или EU, вы увидите, что проверка завершена, но в Microsoft Purview не отображаются ресурсы.
  • При удалении объекта из источника данных в настоящее время при последующей проверке соответствующий ресурс в Microsoft Purview автоматически не удаляется.

Предварительные условия

Необходимые разрешения для сканирования

Учетная запись службы Google BigQuery, используемая для сканирования, должна иметь роли "Средство просмотра метаданных BigQuery" и "Пользователь IAM заданий BigQuery" в проектах, которые вы хотите сканировать. Эти разрешения необходимы, так как Microsoft Purview извлекает метаданные, считывая системные таблицы базы данных Google BigQuery (например, INFORMATION_SCHEMA). А базовый драйвер JDBC Google BigQuery создает задание BigQuery, когда ему нужно считывать данные из этих системных таблиц.

Microsoft Purview использует протокол Oauth 2.0 для доступа к службе Google BigQuery. Настройте учетные данные, следуя инструкциям в разделе Создание и запуск проверки .

Регистрация

В этом разделе описывается, как зарегистрировать проект Google BigQuery в Microsoft Purview с помощью портала управления Microsoft Purview.

Действия по регистрации

  1. Откройте портал управления Microsoft Purview, выполнив следующие действия.

  2. Выберите Карта данных в области навигации слева.

  3. Выберите Зарегистрировать.

  4. В разделе Регистрация источников выберите Google BigQuery . Нажмите кнопку Продолжить.

    регистрация источника BigQuery

На экране Регистрация источников (Google BigQuery) выполните следующие действия:

  1. Введите имя , которое источник данных будет указан в каталоге.

  2. Введите ProjectID. Это должен быть полный идентификатор проекта. Например, mydomain.com:myProject

  3. Выберите коллекцию из списка.

  4. Нажмите Зарегистрировать.

    настройка источника BigQuery

Проверка

Выполните приведенные ниже действия, чтобы отсканировать проект Google BigQuery для автоматического определения ресурсов. Дополнительные сведения о сканировании в целом см. в статье Введение в сканирование и прием данных.

Создание и запуск сканирования

  1. В Центре управления выберите Среды выполнения интеграции. Убедитесь, что настроена локальная среда выполнения интеграции. Если он не настроен, выполните действия, описанные в предварительных требованиях.

  2. Перейдите в раздел Источники.

  3. Выберите зарегистрированный проект BigQuery .

  4. Выберите + Создать сканирование.

  5. Укажите следующие сведения:

    1. Имя: имя сканирования

    2. Подключение через среду выполнения интеграции. Выберите настроенную локальную среду выполнения интеграции.

    3. Учетные данные. При настройке учетных данных BigQuery убедитесь, что:

      • Выберите Обычная проверка подлинности в качестве метода проверки подлинности.
      • Укажите идентификатор электронной почты учетной записи службы в поле Имя пользователя. Пример: xyz\@developer.gserviceaccount.com
      • Выполните следующие действия, чтобы создать закрытый ключ, скопируйте весь файл ключа JSON, а затем сохраните его как значение секрета Key Vault.

      Чтобы создать новый закрытый ключ на облачной платформе Google, выполните приведенные ниже действия.

      1. В меню навигации выберите IAM & Администратор —> Учетные записи служб —> Выберите проект .>
      2. Выберите адрес электронной почты учетной записи службы, для которой требуется создать ключ.
      3. Перейдите на вкладку Ключи .
      4. Выберите раскрывающееся меню Добавить ключ , а затем выберите Создать новый ключ.
      5. Выберите формат JSON.

      Примечание.

      Содержимое закрытого ключа сохраняется во временном файле на виртуальной машине при выполнении процессов сканирования. Этот временный файл удаляется после успешного завершения проверок. В случае сбоя сканирования система будет продолжать повторять попытки до успешного выполнения. Убедитесь, что доступ к виртуальной машине, на которой выполняется SHIR, ограничен соответствующим образом.

      Дополнительные сведения об учетных данных см. здесь.

    4. Расположение драйвера. Укажите путь к расположению драйвера JDBC на компьютере, где запущена локальная среда выполнения интеграции. Пример: D:\Drivers\GoogleBigQuery.

      1. Для локальной среды выполнения интеграции на локальном компьютере: D:\Drivers\GoogleBigQuery. Это путь к допустимому расположению jar-папки. Значение должно быть допустимым абсолютным путем к файлу и не содержать пробела. Убедитесь, что драйвер доступен локальной среде выполнения интеграции; Дополнительные сведения см. в разделе предварительных требований.
      2. Для локальной среды выполнения интеграции, поддерживаемой Kubernetes: ./drivers/GoogleBigQuery. Это путь к допустимому расположению jar-папки. Значение должно быть допустимым относительным путем к файлу. Ознакомьтесь с документацией, чтобы заранее настроить проверку внешних драйверов для загрузки драйверов.
    5. Набор данных. Укажите список наборов данных BigQuery для импорта. Например, dataset1;dataset2. Если список пуст, импортируются все доступные наборы данных. Допустимые шаблоны имен наборов данных могут быть статическими именами или содержать подстановочные знаки .

      Пример: A%;%B;%C%;D

      • Начните с A или
      • заканчиваются на B или
      • содержать C или
      • равный D

      Использование символов NOT и специальных символов недопустимо.

    6. Максимальный объем доступной памяти: максимальный объем памяти (в ГБ), доступный на виртуальной машине для использования процессами сканирования. Это зависит от размера отсканированного проекта Google BigQuery.

      Сканирование источника BigQuery

  6. Выберите Проверить подключение.

  7. Нажмите Продолжить.

  8. Выберите триггер сканирования. Вы можете настроить расписание или запустить проверку один раз.

  9. Просмотрите проверку и выберите Сохранить и запустить.

Просмотр проверок и запусков сканирования

Чтобы просмотреть существующие проверки, выполните приведенные далее действия.

  1. Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.
  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .
  3. Выберите сканирование с результатами, которые вы хотите просмотреть. На панели отображаются все предыдущие запуски сканирования, а также состояние и метрики для каждого запуска сканирования.
  4. Выберите идентификатор запуска, чтобы проверка сведения о выполнении проверки.

Управление проверками

Чтобы изменить, отменить или удалить сканирование:

  1. Перейдите на портал Microsoft Purview. В левой области выберите Карта данных.

  2. Выберите источник данных. Список существующих проверок для этого источника данных можно просмотреть в разделе Последние проверки или просмотреть все проверки на вкладке Сканирование .

  3. Выберите проверку, которой вы хотите управлять. Далее вы можете:

    • Измените сканирование, выбрав Изменить проверку.
    • Отмените выполняемую проверку, выбрав Отмена выполнения проверки.
    • Удалите сканирование, выбрав Удалить сканирование.

Примечание.

  • При удалении сканирования ресурсы каталога, созданные на основе предыдущих проверок, не удаляются.

Lineage

После сканирования источника Google BigQuery вы можете просмотреть Единый каталог или выполнить поиск Единый каталог, чтобы просмотреть сведения об активе.

Перейдите на вкладку asset — lineage (Ресурс —> происхождение), и при необходимости вы увидите связь активов. См. раздел поддерживаемых возможностей о поддерживаемых сценариях происхождения данных Google BigQuery. Дополнительные сведения о происхождении данных в целом см. в руководстве пользователя по происхождению данных и происхождению данных.

Представление происхождения данных Google BigQuery

Дальнейшие действия

Теперь, когда вы зарегистрировали источник, следуйте приведенным ниже руководствам, чтобы узнать больше о Microsoft Purview и ваших данных.