Очистка данных с помощью эталонных данных (внешних) — службы качества данных (DQS)
Область применения: SQL Server
В этом разделе описывается очистка данных с использованием набора знаний из поставщиков ссылочных данных. Хотя все этапы выполнения действия очистки остаются неизменными для очистки данных с помощью знаний от эталонных поставщиков данных, как описано в разделе "Очистка данных с помощью внутренних знаний", эта статья содержит сведения, относящиеся к очистке данных с помощью службы ссылочных данных в службах качества данных (DQS).
Внимание
В этой статье упоминаются сторонние службы ссылочных данных, которые ранее были доступны из Azure DataMarket. DataMarket и службы Data Services — включая данные об адресах Melissa — не поддерживаются после 31 декабря 2016 г. Таким образом, вы больше не можете запускать примеры в этой статье с помощью указанных служб из DataMarket. По-прежнему можно использовать службы эталонных данных, доступные через Интернет напрямую от сторонних поставщиков.
При очистке данных с использованием функции службы ссылочных данных в DQS процесс очистки служб DQS отправляет сопоставленные значения домена поставщику служб ссылочных данных в виде пакетного запроса. Служба ссылочных данных в ответ отправляет следующие сведения:
Предлагаемые исправления
Достоверность
Дополнительные сведения о сопоставленном домене. Ссылочные данные позволяют также стандартизировать, выполнять анализ или обогащать источник дополнительными данными. Эти сведения предоставляются в дополнительных полях в ответе.
После получения ответа от службы ссылочных данных в ходе действия по очистке в DQS происходит следующее.
На основе значений Пороговое значение автоматического исправления и Минимальная достоверность , заданных при сопоставлении доменов со службой ссылочных данных, происходит автоматическое исправление или предоставление предлагаемых вариантов, в зависимости от уровня достоверности.
Примечание.
Пороговые значения, указанные во время сопоставления домена со службой ссылочных данных, применяются при очистке данных с использованием набора знаний в службе ссылочных данных, а не данных, указанных на вкладке Общие параметры в разделе Настройка . Сведения об указании пороговых значений для очистки эталонных данных см. в шаге 9 в разделе Подсоединение обычного или составного домена к эталонным данным.
Значения доменов категоризируются следующим образом: Предложено, Новый, Недопустимый, Исправленои Правильно.
Дополнительные данные присоединены к источнику, а сведения доступны вместе с очищенными данными для экспорта.
Перед началом
Необходимые компоненты
Следует предварительно сопоставить требуемые домены в базе знаний DQS с соответствующей службой ссылочных данных. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо сопоставить домены с поставщиком службы ссылочных данных, предоставляющим высококачественные данные по адресам в США. Дополнительные сведения см. в разделе Добавление домена или составного домена к ссылочным данным.
Безопасность
Разрешения
Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.
Очистка данных с использованием набора знаний о ссылочных данных
Мы будем продолжать использовать тот же пример использования доменов, сопоставленных в предыдущем разделе, Присоединение домена или составного домена к ссылочным данным с помощью службы данных Мелисса в Azure Marketplace. Теперь мы будем использовать те же домены для очистки образцов адресов в США. Действия по очистке данных совпадают с инструкциями, описанными в разделе "Очистка данных с помощью внутренних знаний DQS". Однако мы будем привлекать ваше внимание к важным деталям в ходе этого процесса.
Создайте проект служб DQS и выберите действие Очистка . См. раздел Create a Data Quality Project.
На странице Сопоставление сопоставьте следующие 4 домена с соответствующими столбцами в исходных данных: Строка адреса, Город, Штати Почтовый индекс. Нажмите кнопку Далее.
Примечание.
После того как все 4 домена будут сопоставлены внутри составного домена Проверка адресов , очистку данных можно будет выполнять на уровне составного домена, а не отдельных доменов.
На странице Очистка запустите автоматизированный процесс очистки. Для этого нажмите кнопку Пуск. После завершения процесса очистки нажмите кнопку Далее.
Примечание.
На странице Очистка службы DQS отображают сведения о доменах, присоединенных к службе ссылочных данных, двумя способами.
- Сообщение отображается под кнопкой "Пуск": "Domain1<>, <Domain2,...><Доменные имена> очищаются с помощью поставщика служб ссылочных данных". В этом примере отобразится следующее сообщение: "Проверка адреса домена очищается с помощью поставщика служб ссылочных данных".
- Значок отображается в области Профилировщик напротив доменов, присоединенных к поставщику службы ссылочных данных. В этом примере значок будет отображаться напротив составного домена Проверка адресов .
На странице Управление результатами и просмотр результатов просмотрите значения домена. Служба ссылочных данных может отображать, если доступно, несколько предлагаемых значений, количество которых зависит от максимума, заданного в поле Предлагаемые варианты во время сопоставления домена со службой ссылочных данных. Например, для следующего адреса в США отображаются два предлагаемых варианта.
Исходное значение:
Строка адреса Город Штат Почтовый индекс 1 msft way Редмонд 98052 Предлагаемые значения:
Строка адреса Город Штат Почтовый индекс 1 Microsoft Way Redmond WA 98052 PO Box 1 Redmond WA 98073 Примечание.
Что касается составных доменов, то службы DQS выделяют также другим цветом отдельные домены, где в процессе автоматизированной очистки вносились исправления. Например, в данном случае исправлениям подвергались домены Строка адреса и Штат , поэтому они выделены голубым.
После окончания просмотра всех значений домена нажмите кнопку Далее , чтобы экспортировать данные.
Обратите внимание, что на странице Экспорт , помимо обычных сведений о действии очистки для каждого домена («Источник», «Причина», «Достоверность» и «Состояние»), будут находиться дополнительные сведения, предоставленные службой ссылочных данных Melissa Data по данным адресов: широта и долгота места, страна, тип адреса (высотный дом, улица и т. д) и т. п.
Экспортируйте данные в нужное назначение (SQL Server, CSV или Excel) и нажмите кнопку Готово , чтобы закрыть проект.
Внимание
Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.