Поделиться через


Data Cleansing

Область применения:SQL Server

Очистка данных — это процесс анализа качества данных в источнике данных с выполняемым вручную утверждением или отклонением рекомендаций, даваемых системой, и внесением изменений в данные. Очистка данных в службах качества данных (DQS) включает в себя компьютерный процесс, который анализирует соответствие данных знаниям в база знаний, а также интерактивный процесс, позволяющий стюарду данных просматривать и изменять результаты процесса с помощью компьютера, чтобы гарантировать, что очистка данных выполняется точно так же, как они хотят.

Диспетчер данных также может выполнять очистку данных в процессе обработки пакетов служб Integration Services. В этом случае стюард данных будет использовать компонент очистки DQS в службах Integration Services, который автоматически выполняет очистку данных с помощью существующей база знаний. Дополнительные сведения см. в разделе Преобразование "Очистка DQS".

Функция очистки данных в DQS имеет следующие преимущества.

  • Выявление неполных или неверных данных в источнике данных (файле Excel или базе данных SQL Server) с последующим исправлением данных или оповещением пользователя о недопустимых данных.

  • Двухэтапный процесс очистки данных: автоматизированный и интерактивный. В автоматическом процессе используются знания из базы знаний DQS для автоматической обработки данных и создания рекомендаций по замене и исправлению. На следующем интерактивном этапе диспетчер данных может утвердить, отклонить или изменить операции, рекомендованные DQS в рамках автоматической очистки.

  • Стандартизация и дополнение данных клиента с использованием значений домена, правил домена и эталонных данных. Например, стандартизация использования терминов путем изменения "St." на "Street", обогащения данных путем заполнения отсутствующих элементов путем изменения "1 Microsoft way Redmond 98006" на "1 Microsoft Way, Redmond, WA 98006".

  • Простой, интуитивно понятный и предсказуемый пользовательский интерфейс на основе мастеров для просмотра данных и проверки ошибок в очень крупных наборах данных.

На следующем рисунке показана очистка данных в DQS.

Процесс очистки данных в DQS

Автоматическая очистка

Процесс очистки данных DQS применяет знания из базы знаний к данным, которые должны быть очищены, и предлагает изменения для данных. Диспетчер данных имеет доступ к каждому предложенному изменению, что позволяет ему оценить изменения и внести в них поправки. Для очистки данных диспетчер данных выполняет следующие действия.

  1. Создание проекта качества данных, выбор базы знаний, по которой проводится анализ и очистка исходных данных, и выбор операции Очистка . Одну и ту же базу знаний можно использовать для нескольких проектов качества данных.

  2. Указание таблицы/представления базы данных или файла Excel, содержащего исходные данные для очистки. Можно использовать базу данных или файл Excel, которые участвовали в обнаружении знаний, или другую базу данных либо файл Excel.

    Примечание.

    Если выбрать для обнаружения знаний и операции очистки один источник данных, то в данных не будет изменений. Рекомендуется выполнять обнаружение знаний в образце данных, а затем проводить очистку исходных данных по знаниям, построенных в рамках обнаружения знаний.

  3. Сопоставление полей данных для очистки с подходящими доменами и составными доменами в базе знаний. Если сопоставить поле с составным доменом, то сопоставление выполняется между полем и составным доменом, а не с отдельными доменами, входящими в составной. Кроме того, очистка данных для сопоставленного поля выполняется на основе правил, заданных для составного домена, а не для отдельных доменов, входящих в составной. Дополнительные сведения о составных доменах см. в разделе DQS Knowledge Bases and Domains.

  4. Выполнение автоматического процесса очистки путем нажатия кнопки Запуск на странице Очистка .

Процесс очистки данных ищет наилучшее соответствие экземпляра данных известным значениям домена данных. Этот процесс применяет знания о качестве данных ко всем исходным данным, в отличие от процесса обнаружения знаний, который выполняется только в процентной выборке данных.

Компьютерный процесс отображает сведения о качестве данных в клиенте качества данных, который будет использоваться для интерактивного процесса очистки. Помимо поиска несоответствия синтаксическим правилам, службы DQS также используют эталонные данные и дополнительные алгоритмы для разделения данных по категориям в соответствии с уровнем достоверности. Уровень достоверности определяет экстент уверенности DQS в исправлении данных или создаваемых рекомендациях. Уровень достоверности зависит от следующих пороговых значений.

  • Пороговое значение автоматического исправления , при превышении которого DQS предлагает изменение и вносит его, если диспетчер данных не отклонит изменение. Пороговое значение автоматического исправления вы можете задать на вкладке Общие параметры экрана Конфигурация . Дополнительные сведения см. в статье Настройка пороговых значений для очистки и сопоставления.

  • Пороговое значение автоматической рекомендации , которое ниже порогового значения автоматического исправления. При его превышении DQS предлагает изменение и вносит его, если диспетчер утвердит изменение. Пороговое значение автоматической рекомендации вы можете задать на вкладке Общие параметры экрана Конфигурация . Дополнительные сведения см. в статье Настройка пороговых значений для очистки и сопоставления.

Любое значение с уровнем достоверности ниже порогового значения автоматической рекомендации оставляется DQS без изменений, если диспетчер данных не указывает изменение.

Интерактивная очистка

По результатам автоматического процесса очистки DQS предоставляет диспетчеру данных необходимую информацию для принятия решения об изменении данных. DQS классифицирует данные по пяти следующим вкладкам.

  • Предложено: значения, для которых DQS обнаруживает рекомендации, имеющие уровень достоверности выше порогового значения автоматической рекомендации , но ниже порогового значения автоматического исправления . Необходимо просмотреть эти значения и либо утвердить, либо отклонить их.

  • Новое: допустимые значения, для которых DQS не хватает сведений (предложения), поэтому не могут быть сопоставлены с любой другой вкладкой. Кроме того, эта вкладка также содержит значения, которые имеют уровень достоверности меньше порогового значения автоматического предложения, но достаточно высокий, чтобы пометить как допустимый.

  • Недопустимо: значения, которые были помечены как недопустимые в домене базы знаний, или значения, которые оказались несоответствующими правилам домена или эталонным данным. На этой вкладке также содержатся значения, отклоненные пользователем на остальных четырех вкладках в ходе интерактивного процесса очистки.

  • Исправлено: значения, которые были исправлены DQS в процессе автоматической очистки, так как для значения обнаружено исправление с уровнем достоверности выше порогового значения автоматического исправления . На этой вкладке также содержатся значения, для которых пользователь указал правильное значение в столбце Исправить на в ходе интерактивной очистки, а затем утвердил значение, выбрав переключатель в столбце Утвердить на любой из четырех других вкладок.

  • Правильно: обнаруженные правильные значения. Например, значение, которое соответствует значению домена. В случае необходимости вы можете переопределить очистку DQS, отклонив значения на этой вкладке или указав альтернативное слово в столбце Исправить на , а затем выбрав переключатель в столбце Принять . На этой вкладке также содержатся значения, утвержденные пользователем в ходе интерактивной очистки путем выбора переключателя в столбце Утвердить на вкладке Новые или Недопустимые .

Примечание.

На вкладках Рекомендуемые, Исправленныеи Правильные DQS показывает начальное значение для домена (если применимо) в столбце Исправить на для соответствующего значения домена.

Администратор данных использует клиент качества данных для просмотра изменений, предлагаемых DQS, и решить, следует ли реализовать их или нет. Они могут убедиться, что значения DQS, назначенные как правильные, фактически верны. Они могут проверить, что изменения, уже внесенные DQS, с высоким уровнем достоверности, должны быть сделаны. Стюард может решить, следует ли утверждать автоматически предложенные изменения. И они могут просматривать значения, которые не были изменены, только если они хотят внести изменения, не найденные компьютерным процессом.

DQS объединяет все изменения, внесенные диспетчером данных, с результатами автоматической очистки данных. Изменения останутся с проектом, но не будут добавлены в базу знаний. Во время очистки данных соответствующая база знаний доступна только для чтения.

После завершения процесса очистки данных вы можете экспортировать обработанные данные в новую таблицу в базе данных SQL Server, в CSV-файл или файл Excel. Исходные данные, для которых выполнялась очистка, остаются в исходном состоянии. Диспетчер данных может использовать отдельные очищенные данные для исправления фактических исходных данных.

На следующем рисунке показано, как выполняется очистка данных с помощью клиентского приложения Data Quality:

Очистка данных в клиенте качества данных

Исправление начального значения

Исправление начального значения относится к значениям домена, имеющим синонимы, когда пользователю нужно использовать один из синонимов в качестве начального значения для согласованного представления этого значения. Например, термины "Петербург", "Санкт-Петербург" и "Северная столица" являются синонимами, а пользователю нужно использовать начальное значение "Санкт-Петербург". DQS поддерживает исправление начального значения в процессе очистки для упрощения стандартизации данных. Исправление начального значения выполняется, только если при создании домена в нем была включена эта операция. По умолчанию исправление начального значения включается для всех доменов, если при создании домена не снят флажок Использовать начальные значения . Дополнительные сведения об этом флажке см. в разделе Set Domain Properties.

Стандартизация очищенных данных

Можно выбрать, будут ли очищенные данные экспортироваться в стандартном формате на основе формата вывода, определенного для доменов. При создании домена вы можете выбрать форматирование, которое будет применяться при выводе значений данных в домене. Дополнительные сведения об указании форматов вывода для домена см. в списке Формат вывода в разделе Set Domain Properties.

При экспорте очищенных данных на странице Экспорт в мастере проектов качества данных указывается, будут ли очищенные данные экспортироваться в стандартном формате. Для этого устанавливается флажок Стандартный вывод . По умолчанию очищенные данные экспортируются в стандартном формате, то есть этот флажок установлен. Дополнительные сведения о экспорте очищенных данных см. в статье "Очистка данных с помощью внутренних знаний DQS".

Описание задачи Раздел
Описывает настройку пороговых значений для операции очистки. Configure Threshold Values for Cleansing and Matching
Описывает очистку данных с использованием знаний, построенных в DQS. Очистка данных с использованием набора знаний служб DQS (внутренних)
Описывает очистку данных с использованием знаний, полученных от службы эталонных данных. Очистка данных с использованием знаний о ссылочных (вешних) данных
Описывает очистку составного домена. Очистка данных в составном домене

См. также

Проекты качества данных (DQS)
Data Matching