Качество данных для данных Snowflake
При сканировании источников данных Snowflake Microsoft Purview поддерживает извлечение технических метаданных, в том числе:
- Сервер, базы данных, схемы и таблицы, включая столбцы; представления, включая столбцы, внешние ключи и уникальные ограничения.
- Хранимые процедуры, включая набор данных параметров и результирующий набор.
- Функции, включая набор данных параметров.
- Каналы, этапы и потоки, включая столбцы.
- Задачи и последовательности.
Настройка сканирования карты данных для каталогизации данных Snowflake в Microsoft Purview
Регистрация источника Snowflake
Чтобы зарегистрировать новый источник Snowflake в Единый каталог, выполните следующие действия.
- Войдите на портал Microsoft Purview.
- Выберите решение "Карта данных" карта. Если карта решения "Карта данных" не отображается, выберите Просмотреть все решения, а затем выберите Карта данных в разделе Основные.
- Нажмите Зарегистрировать.
- В разделе Регистрация источников выберите Snowflake.
Настройка сканирования карты данных
- Выберите зарегистрированный источник Snowflake.
- Выберите + Создать сканирование.
- Укажите следующие сведения:
- Имя: имя сканирования
- Подключение через среду выполнения интеграции. Выберите среду выполнения интеграции Azure, управляемую среду выполнения виртуальной сети IR или SHIR в соответствии с вашим сценарием.
- Узел для подключения. Выберите конечную точку, используемую для подключения к Snowflake во время проверки. Вы можете выбрать URL-адрес сервера или другие узлы, настроенные в источнике данных.
- Учетные данные. Выберите учетные данные для подключения к источнику данных. Убедитесь, что:
- При создании учетных данных выберите Обычная проверка подлинности.
- Укажите имя пользователя, используемое для подключения к Snowflake, в поле Ввода имени пользователя.
- Сохраните пароль пользователя, используемый для подключения к Snowflake, в секретном ключе.
- Warehouse: укажите имя экземпляра хранилища, используемого для разрешения сканирования в случае прописной буквы. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь права USAGE в этом хранилище.
- Базы данных. Укажите одно или несколько имен экземпляров базы данных для импорта с прописной буквой. Разделите имена в списке с запятой (;). Например, DB1; DB2. Роль по умолчанию, назначенная пользователю, указанному в учетных данных, должна иметь соответствующие права на объекты базы данных.
- Схема: перечисление подмножества схем для импорта, выраженных в виде списка, разделенного точкой с запятой.
- Выберите Проверить подключение, чтобы проверить параметры (доступные при использовании Azure Integration Runtime).
- Нажмите Продолжить.
- Выберите набор правил сканирования для классификации. Вы можете выбрать системный набор правил по умолчанию, существующие настраиваемые наборы правил или создать новый встроенный набор правил.
- Просмотрите проверку и выберите Сохранить и запустить.
После сканирования ресурс данных в Snowflake будет доступен в Единый каталог поиска. Дополнительные сведения о подключении Snowflake и управлении ими в Microsoft Purview см. в этом документе.
Важно!
При удалении объекта из источника данных последующее сканирование не приведет к автоматическому удалению соответствующего ресурса в Microsoft Purview.
Настройка подключения к источнику данных Snowflake для проверки качества данных
На этом этапе отсканированный ресурс готов к каталогизации и управлению. Свяжите отсканированный ресурс с продуктом данных в Sele домена управления. На вкладке Качество данных добавьте новый Azure SQL подключение к базе данных: Получите имя базы данных, введенное вручную.
Выберите вкладку Управление доменом управления качеством >> данных, чтобы создать подключение.
Настройка подключения на странице подключения.
- Добавление имени и описания подключения
- выберите тип источника Snowflake
- добавить имя сервера, имя хранилища, имя базы данных, имя схемы и имя таблицы
- Выбор метода проверки подлинности — обычная проверка подлинности
- добавить имя пользователя
- добавить учетные данные
- Добавление подписки Azure
- Подключение к хранилищу ключей
- имя секрета
- Версия секрета
Проверьте подключение, чтобы убедиться, что настроено подключение успешно.
Важно!
- Администраторам по качеству данных требуется доступ только на чтение к Snowflake, чтобы настроить подключение к качеству данных.
- Виртуальная сеть пока не поддерживается для источника данных Snowflake.
- Соединитель Snowflake не принимает https://. Удалите https:// при добавлении имени сервера для настройки подключения к источнику данных.
Профилирование и проверка качества данных в Snowflake
После успешной настройки подключения можно профилировать, создавать и применять правила, а также выполнять проверку DQ данных в Snowflake. Следуйте пошаговому руководству, описанному в следующих документах: