Качество данных
Качество данных — это функция управления облачной аналитикой. Он находится в целевой зоне управления данными и является основной частью управления.
Рекомендации по качеству данных
Качество данных является ответственностью каждого человека, который создает и использует продукты данных. Создатели должны придерживаться глобальных правил и правил домена, а потребители должны сообщать о несоответствиях данных в домен данных владельцев через цикл обратной связи.
Так как качество данных влияет на все данные, предоставляемые советом, он должен начинаться в верхней части организации. Совет должен иметь аналитические сведения о качестве предоставленных им данных.
Однако упреждающим по-прежнему требуется наличие экспертов по качеству данных, которые могут очистить контейнеры данных, требующие исправления. Избегайте отправки этой работы в центральную команду и вместо этого нацельте домен данных с конкретными знаниями на очистку данных.
Метрики качества данных
Метрики качества данных являются ключевыми для оценки и повышения качества продуктов данных. На глобальном и доменном уровне необходимо решить вопрос о качествах метрик. Как минимум, рекомендуется использовать следующие метрики:
Метрики | Определения метрик |
---|---|
Полнота = % общего числа без значений NULL + nonblanks | Измеряет доступность данных, поля в наборе данных, которые не пусты, и значения по умолчанию, которые были изменены. Например, если запись содержит 01.01.1900 в качестве даты рождения, это весьма вероятно, что поле никогда не заполнялось. |
Уникальность = % неупликированных значений | Измеряет различные значения в заданном столбце по сравнению с количеством строк в таблице. Например, учитывая четыре уникальных значения цвета (красный, синий, желтый и зеленый) в таблице с пятью строками, это поле равно 80 % (или 4/5). |
Согласованность = % данных с шаблонами | Измеряет соответствие в заданном столбце ожидаемому типу данных или формату. Например, поле электронной почты, содержащее отформатированные адреса электронной почты, или поле имени с числовыми значениями. |
Валидность = % соответствия эталону | Измеряет успешное сопоставление данных с набором ссылок на домен. Например, учитывая поле страны или региона (в соответствии со значениями таксономии) в системе транзакционных записей, значение "US of A" недопустимо. |
Точность = % неизменённых значений | Измеряет успешное воспроизведение предполагаемых значений в нескольких системах. Например, если счет-фактура содержит номер SKU и расширенную цену, которая отличается от исходного заказа, элемент строки счета неточен. |
Компоновка = % хорошо интегрированных данных | Измеряет успешную связь со сведениями о компаньоне в другой системе. Например, если в счете указан неправильный номер SKU или описание продукта, элемент строки счета недоступен. |
Профилирование данных
Профилирование данных проверяет продукты данных, зарегистрированные в каталоге данных, и собирает статистику и сведения об этом. Чтобы предоставить сводные и трендовые представления о качестве данных с течением времени, сохраните эти данные в репозитории метаданных в продукте данных.
Профили данных помогают пользователям отвечать на вопросы о продуктах данных, в том числе:
- Могу ли я с помощью этого источника данных решить свою бизнес-проблему?
- Соответствуют ли данные определенным стандартам или шаблонам?
- Каковы аномалии этого источника данных?
- Каковы возможные проблемы интеграции этих данных в мое приложение?
Пользователи могут просматривать профиль продукта данных с помощью панели мониторинга отчетов в marketplace данных.
Вы можете сообщить о таких элементах, как:
- Полнота. Указывает процент данных, которые не пустые или null.
- Уникальность. Указывает процент данных, которые не дублируются.
- Согласованность. Указывает данные, в которых сохраняется целостность данных.
Рекомендации по качеству данных
Чтобы реализовать качество данных, необходимо использовать как человеческую, так и вычислительную мощность следующим образом:
Используйте решения, включающие алгоритмы, правила, профилирование данных и метрики.
Используйте эксперты домена, которые могут выполнить шаг, когда требуется обучить алгоритм из-за большого количества ошибок, проходящих через уровень вычислений.
Проверьте рано. Традиционные решения применяют проверки качества данных после извлечения, преобразования и загрузки данных. К этому времени продукт данных уже используется и ошибки, связанные с подчиненными продуктами данных. Вместо этого при приеме данных из источника реализуйте проверки качества данных рядом с источниками и прежде чем подчиненные потребители используют продукты данных. Если из озера данных существует пакетное прием, выполните эти проверки при перемещении данных из необработанных в обогащенные.
Перед перемещением данных на обогащенный слой его схема и столбцы проверяются на наличие метаданных, зарегистрированных в каталоге данных.
Если данные содержат ошибки, загрузка останавливается, а команда приложений данных уведомляется о сбое.
Если проверка схемы и столбцов пройдена успешно, данные загружаются в обогащенные слои с согласованными типами данных.
Перед переходом на обогащенный слой процесс качества данных проверяет соответствие алгоритмам и правилам.
Совет
Определите правила качества данных как на глобальном, так и на уровне домена. Это позволяет бизнесу определять свои стандарты для каждого созданного продукта данных и позволяет доменам данных создавать дополнительные правила, связанные с их доменом.
Решения по качеству данных
Мы рекомендуем оценивать Качество данных Microsoft Purview в качестве решения для оценки качества данных и управления ими, что является важным для надежной аналитики на основе искусственного интеллекта и принятия решений. Сюда входят:
- Правила no-code/low-code: оцените качество данных с помощью встроенных правил, созданных ИИ.
- Профилирование данных на основе искусственного интеллекта: рекомендует столбцы для профилирования и позволяет человеческому вмешательству для уточнения.
- Оценка качества данных: предоставляет оценки для ресурсов данных, продуктов данных и доменов управления.
- Оповещения о качестве данных: уведомляет владельцев данных о проблемах с качеством.
Дополнительные сведения см. в разделе "Что такое качество данных".
Если ваша организация решит реализовать Azure Databricks для управления данными, необходимо оценить средства управления качеством данных, тестированием, мониторингом и применением этого решения. Использование ожиданий может записывать проблемы с качеством данных при приеме, прежде чем они влияют на связанные дочерние продукты данных. Дополнительные сведения см. в разделе "Создание стандартов качества данных" и "Управление качеством данных" с помощью Databricks.
Вы также можете выбрать один из партнеров, open-source и настраиваемых вариантов решения по качеству данных.
Сводка по качеству данных
Исправление качества данных может иметь серьезные последствия для бизнеса. Это может привести к тому, что бизнес-подразделения интерпретируют продукты данных разными способами. Это неправильное понимание может оказаться дорогостоящим для бизнеса, если решения основаны на продуктах данных с более низким качеством данных. Исправление продуктов данных с отсутствующими атрибутами может быть дорогой задачей и может потребовать полной перезагрузки данных из нескольких периодов.
Проверьте качество данных на ранних этапах и поместите процессы для упреждающего решения проблемы с низким качеством данных. Например, продукт данных не может быть выпущен в рабочую среду, пока он не достигнет определенного количества полноты.
Вы можете использовать инструмент в качестве свободного выбора, но убедитесь, что он включает в себя ожидания (правила), метрики данных, профилирование и возможность защитить ожидания, чтобы реализовать глобальные и доменные ожидания.