Поделиться через


Раздел 4. Качество данных запуска

Теперь, когда у вас есть продукт данных, доступный в каталоге, выполнение правил качества данных сообщит всем, что данные в хорошей форме и готовы к использованию. По мере получения дополнительных данных можно добавить новые правила качества данных, чтобы убедиться, что они подходят для всех вариантов использования. Обеспечение высочайшего качества продуктов данных поможет повысить доверие к данным и сообщить другим пользователям, что они отслеживаются с улучшением. По мере роста ценности данных качество этих данных придется более тщательно отслеживать и контролировать, так как проблемы с качеством данных могут привести к значительному воздействию при плохом управлении.

Предварительные условия

  • Правила качества данных можно выполнять только в таблицах разностного формата в ADLS 2-го поколения и Microsoft Fabric.
  • Управляемое удостоверение от Microsoft Purview должно быть включено для чтения источника данных, так как на сегодняшний день это единственные поддерживаемые учетные данные для качества данных.
  • Вы должны иметь роль администратора качества данных в домене управления, в котором выполняется качество данных.
  • Вы должны быть владельцем или иметь доступ администратора пользователей к источнику данных, который подключается к проверке качества данных, чтобы обеспечить правильную авторизацию безопасности для сканирования данных.
  • Для запуска профилей с данными требуется роль администратора профиля данных.

Создание и выполнение правил качества данных

  1. Откройте портал Microsoft Purview.

  2. Выберите Единый каталог.

  3. Перейдите на вкладку Качество данных в разделе Управление данными.

  4. Выберите личный домен работоспособности, созданный в разделе 1.

  5. Нажмите кнопку Управление и выберите Connections в меню. Создание этого подключения гарантирует, что вы сможете выполнять проверки качества данных в источнике данных в этой области управления, что не позволит командам получить доступ к знаниям о данных без надлежащего разрешения.

    Снимок экрана: добавление подключения к качеству данных.

  6. Выберите Создать на экране подключений, чтобы создать новое подключение:

    1. Укажите отображаемое имя "Personal Health ADLSg2 DQ".
    2. Выберите тип источника Azure Data Lake Storage 2-го поколения.
      1. Укажите сведения об источнике данных, созданном в разделе 2.

        Примечание.

        Учетные данные должны быть MSI (система) Microsoft Purview для подключения к качеству данных

      2. Выберите Проверить подключение.
      3. После проверки подключения нажмите кнопку Отправить.

После установки подключения вы можете запустить профили и приступить к созданию правил качества данных. Это гарантирует, что эксперты, которые знают бизнес-правила и соответствующие правила, будут работать на самых важных продуктах данных.

  1. Назад на страницу Качество данных.
  2. Выберите домен управления личным здоровьем.
  3. Выберите продукт данных о вакцинации и случаев covid-19 По возрасту , встроенный в разделе 3.
  4. Выберите ресурс, добавленный в продукт данных. (Он должен быть в разностном формате из раздела 2, иначе качество данных не выполняется).
  5. Примените правила качества данных к столбцам данных, чтобы определить, соответствуют ли они вашим ожиданиям качества:
    1. Выберите вкладку Правила в выбранном ресурсе.
    2. Выберите Новое правило.
    3. Выберите Правило пустых и пустых полей.
    4. Укажите сведения:
      • Выберите Столбец AgeGroupVacc в раскрывающемся списке столбца.
      • Имя правила: Подтверждение существования возрастной группы вакцинации
    5. Нажмите Создать.
    6. Выберите Новое правило.
    7. Выберите Сопоставление типов данных.
    8. Укажите подробные сведения.
    9. Выберите ДатаАдминистрированный столбец.
    10. Нажмите Создать.
  6. Выберите Выполнить проверку качества данных.

Данные профиля

Создайте профиль для данных, чтобы просмотреть высокоуровневую статику каждого столбца и обнаружить аномалии, которые могут иметь новое правило.

  1. В Единый каталог выберите Управление работоспособностью, а затем — Качество данных.
  2. Выбор данных профиля
  3. Установите верхний флажок рядом с полем Имя столбца , чтобы профилировать все столбцы. Microsoft Purview порекомендует, какие столбцы следует профилировать, и вы можете выбрать столбцы, которые, как вы знаете, стоит профилировать, чтобы предотвратить заполнение профилей на высоко конфиденциальных данных или данные, которые, как вы знаете, будут заполнены разреженно.
  4. Выберите Профиль запуска

После завершения сканирования вы сможете просмотреть оценку качества данных и профиль для нового продукта данных, и оценка качества данных будет доступна всем пользователям каталога, гарантируя, что все будут знать состояние данных.

Создайте расписание для проверок качества данных, чтобы обеспечить постоянный мониторинг проблем с качеством данных. Настройте оповещения, чтобы убедиться, что вы решаете проблемы с качеством данных, прежде чем затронут потребителей.

  1. В разделе Управление работоспособностью выберите Качество данных.
  2. Выберите домен "Личная работоспособности", в котором настроены правила качества данных.
  3. В раскрывающемся списке Управление выберите Запланированные проверки.
  4. На странице Запланированные проверки выберите Создать.
  5. Добавление сведений об обзоре
    1. Имя: Личная оценка работоспособности DQ Monthly Evaluation
    2. Описание: ежемесячное сканирование правил DQ для непрерывного улучшения.
  6. Нажмите кнопку Продолжить.
  7. Выбор область сканирования
  8. Установите флажок рядом с полем Вакцина и случаи covid-19 Тренды по возрасту продукта данных
  9. Нажмите кнопку Продолжить.
  10. Запланируйте проверку, чтобы убедиться, что она выполняется в последний день каждого месяца
    1. Выберите Повторяющиеся
    2. Повторение: каждые месяц
    3. Дни месяца: последний
    4. Расписание сканирования (UTC): 12:00:00
    5. Запуск повторения в (UTC): оставьте значение по умолчанию
  11. Нажмите кнопку Продолжить.
  12. Просмотрите сведения о проверке, чтобы узнать, есть ли какие-либо изменения, которые вы хотите внести перед сохранением.
  13. Выберите Сохранить. Так как мы активировали проверку вручную ранее, нам не нужно запускать другую проверку сейчас, но если требуется новая проверка, выберите Сохранить и запустить.

Настройка оповещений

После запланированного сканирования качества данных можно активировать оповещения, чтобы сообщить стюардам о наличии проблем или необходимости внимания из-за проблем с качеством данных или сбоев сканирования. Настройте оповещение о качестве данных для неудачных проверок и при снижении оценки более чем на 5 %.

  1. Назад в домен личной работоспособности на странице Качество данных.
  2. В раскрывающемся списке Управление выберите Оповещения.
  3. Выберите Создать.
  4. Ввод сведений об оповещении
    1. Отображаемое имя: личная проверка работоспособности DQ Ежемесячное сканирование
    2. Описание. Чтобы гарантировать, что минимальные пороговые значения DQ соответствуют ожиданиям потребителей.
    3. Целевой объект: оценка снижается более чем
    4. Пороговое значение: 5
    5. Отключить уведомления: не устанавливайте флажок
    6. Включить уведомление о неудачных проверках качества: оставьте флажок
    7. Получатель: введите свое имя
  5. Нажмите Продолжить.

Совет

При реализации в Единый каталог вам потребуется отправлять оповещения стюардам, которые могут уведомлять потребителей о проблеме и работать с техническим владельцем данных для внесения исправлений.

В конце этого раздела вы получите функциональный Единый каталог с качеством операционных данных для управления данными, которые вы предлагаете потребителям данных организации. Все было сделано для получения наиболее ценных данных для потребителя и создания доверия к данным, которые он будет использовать. По мере роста ценности данных и появления новых стратегий обработки данных в следующем разделе показано, как можно управлять всем каталогом или углубиться в управление конкретными данными с помощью Master Data.

Дальнейшие действия

Раздел 5. Управление основными данными