Раздел 4. Качество данных запуска
Теперь, когда у вас есть продукт данных, доступный в каталоге, выполнение правил качества данных сообщит всем, что данные в хорошей форме и готовы к использованию. По мере получения дополнительных данных можно добавить новые правила качества данных, чтобы убедиться, что они подходят для всех вариантов использования. Обеспечение высочайшего качества продуктов данных поможет повысить доверие к данным и сообщить другим пользователям, что они отслеживаются с улучшением. По мере роста ценности данных качество этих данных придется более тщательно отслеживать и контролировать, так как проблемы с качеством данных могут привести к значительному воздействию при плохом управлении.
Предварительные условия
- Правила качества данных можно выполнять только в таблицах разностного формата в ADLS 2-го поколения и Microsoft Fabric.
- Управляемое удостоверение от Microsoft Purview должно быть включено для чтения источника данных, так как на сегодняшний день это единственные поддерживаемые учетные данные для качества данных.
- Вы должны иметь роль администратора качества данных в домене управления, в котором выполняется качество данных.
- Вы должны быть владельцем или иметь доступ администратора пользователей к источнику данных, который подключается к проверке качества данных, чтобы обеспечить правильную авторизацию безопасности для сканирования данных.
- Для запуска профилей с данными требуется роль администратора профиля данных.
Создание и выполнение правил качества данных
Откройте портал Microsoft Purview.
Выберите Единый каталог.
Перейдите на вкладку Качество данных в разделе Управление данными.
Выберите личный домен работоспособности, созданный в разделе 1.
Нажмите кнопку Управление и выберите Connections в меню. Создание этого подключения гарантирует, что вы сможете выполнять проверки качества данных в источнике данных в этой области управления, что не позволит командам получить доступ к знаниям о данных без надлежащего разрешения.
Выберите Создать на экране подключений, чтобы создать новое подключение:
- Укажите отображаемое имя "Personal Health ADLSg2 DQ".
- Выберите тип источника Azure Data Lake Storage 2-го поколения.
- Укажите сведения об источнике данных, созданном в разделе 2.
Примечание.
Учетные данные должны быть MSI (система) Microsoft Purview для подключения к качеству данных
- Выберите Проверить подключение.
- После проверки подключения нажмите кнопку Отправить.
- Укажите сведения об источнике данных, созданном в разделе 2.
После установки подключения вы можете запустить профили и приступить к созданию правил качества данных. Это гарантирует, что эксперты, которые знают бизнес-правила и соответствующие правила, будут работать на самых важных продуктах данных.
- Назад на страницу Качество данных.
- Выберите домен управления личным здоровьем.
- Выберите продукт данных о вакцинации и случаев covid-19 По возрасту , встроенный в разделе 3.
- Выберите ресурс, добавленный в продукт данных. (Он должен быть в разностном формате из раздела 2, иначе качество данных не выполняется).
- Примените правила качества данных к столбцам данных, чтобы определить, соответствуют ли они вашим ожиданиям качества:
- Выберите вкладку Правила в выбранном ресурсе.
- Выберите Новое правило.
- Выберите Правило пустых и пустых полей.
- Укажите сведения:
- Выберите Столбец AgeGroupVacc в раскрывающемся списке столбца.
- Имя правила: Подтверждение существования возрастной группы вакцинации
- Нажмите Создать.
- Выберите Новое правило.
- Выберите Сопоставление типов данных.
- Укажите подробные сведения.
- Выберите ДатаАдминистрированный столбец.
- Нажмите Создать.
- Выберите Выполнить проверку качества данных.
Данные профиля
Создайте профиль для данных, чтобы просмотреть высокоуровневую статику каждого столбца и обнаружить аномалии, которые могут иметь новое правило.
- В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
- Выбор данных профиля
- Установите верхний флажок рядом с полем Имя столбца , чтобы профилировать все столбцы. Microsoft Purview порекомендует, какие столбцы следует профилировать, и вы можете выбрать столбцы, которые, как вы знаете, стоит профилировать, чтобы предотвратить заполнение профилей на высоко конфиденциальных данных или данные, которые, как вы знаете, будут заполнены разреженно.
- Выберите Профиль запуска
После завершения сканирования вы сможете просмотреть оценку качества данных и профиль для нового продукта данных, и оценка качества данных будет доступна всем пользователям каталога, гарантируя, что все будут знать состояние данных.
Создайте расписание для проверок качества данных, чтобы обеспечить постоянный мониторинг проблем с качеством данных. Настройте оповещения, чтобы убедиться, что вы решаете проблемы с качеством данных, прежде чем затронут потребителей.
- В разделе Управление работоспособностью выберите Качество данных.
- Выберите домен "Личная работоспособности", в котором настроены правила качества данных.
- В раскрывающемся списке Управление выберите Запланированные проверки.
- На странице Запланированные проверки выберите Создать.
- Добавление сведений об обзоре
- Имя: Личная оценка работоспособности DQ Monthly Evaluation
- Описание: ежемесячное сканирование правил DQ для непрерывного улучшения.
- Нажмите кнопку Продолжить.
- Выбор область сканирования
- Установите флажок рядом с полем Вакцина и случаи covid-19 Тренды по возрасту продукта данных
- Нажмите кнопку Продолжить.
- Запланируйте проверку, чтобы убедиться, что она выполняется в последний день каждого месяца
- Выберите Повторяющиеся
- Повторение: каждые месяц
- Дни месяца: последний
- Расписание сканирования (UTC): 12:00:00
- Запуск повторения в (UTC): оставьте значение по умолчанию
- Нажмите кнопку Продолжить.
- Просмотрите сведения о проверке, чтобы узнать, есть ли какие-либо изменения, которые вы хотите внести перед сохранением.
- Выберите Сохранить. Так как мы активировали проверку вручную ранее, нам не нужно запускать другую проверку сейчас, но если требуется новая проверка, выберите Сохранить и запустить.
Настройка оповещений
После запланированного сканирования качества данных можно активировать оповещения, чтобы сообщить стюардам о наличии проблем или необходимости внимания из-за проблем с качеством данных или сбоев сканирования. Настройте оповещение о качестве данных для неудачных проверок и при снижении оценки более чем на 5 %.
- Назад в домен личной работоспособности на странице Качество данных.
- В раскрывающемся списке Управление выберите Оповещения.
- Выберите Создать.
- Ввод сведений об оповещении
- Отображаемое имя: личная проверка работоспособности DQ Ежемесячное сканирование
- Описание. Чтобы гарантировать, что минимальные пороговые значения DQ соответствуют ожиданиям потребителей.
- Целевой объект: оценка снижается более чем
- Пороговое значение: 5
- Отключить уведомления: не устанавливайте флажок
- Включить уведомление о неудачных проверках качества: оставьте флажок
- Получатель: введите свое имя
- Нажмите Продолжить.
Совет
При реализации в Единый каталог вам потребуется отправлять оповещения стюардам, которые могут уведомлять потребителей о проблеме и работать с техническим владельцем данных для внесения исправлений.
В конце этого раздела вы получите функциональный Единый каталог с качеством операционных данных для управления данными, которые вы предлагаете потребителям данных организации. Все было сделано для получения наиболее ценных данных для потребителя и создания доверия к данным, которые он будет использовать. По мере роста ценности данных и появления новых стратегий обработки данных в следующем разделе показано, как можно управлять всем каталогом или углубиться в управление конкретными данными с помощью Master Data.