Поделиться через


Очистка данных с использованием знаний о справочных данных (внешних знаний)

В этом разделе описывается очистка данных с использованием набора знаний из поставщиков ссылочных данных. Хотя все шаги по выполнению действия очистки остаются неизменными для очистки данных с помощью знаний от эталонных поставщиков данных, как описано в разделе Очистка данных с помощью DQS (внутренних) знаний, в этом разделе содержатся сведения, относящиеся к очистке данных с помощью эталонной службы данных в службах data Quality Services (DQS).

При очистке данных с использованием функции службы ссылочных данных в DQS процесс очистки служб DQS отправляет сопоставленные значения домена поставщику служб ссылочных данных в виде пакетного запроса. Служба ссылочных данных в ответ отправляет следующие сведения:

  • Предлагаемые исправления

  • Достоверность

  • Дополнительные сведения о сопоставленном домене. Ссылочные данные позволяют также стандартизировать, выполнять анализ или обогащать источник дополнительными данными. Эти сведения предоставляются в дополнительных полях в ответе.

После получения ответа от службы ссылочных данных в ходе действия по очистке в DQS происходит следующее.

  • На основе значений Пороговое значение автоматического исправления и Минимальная достоверность , заданных при сопоставлении доменов со службой ссылочных данных, происходит автоматическое исправление или предоставление предлагаемых вариантов, в зависимости от уровня достоверности.

    Примечание

    Пороговые значения, указанные во время сопоставления домена со службой ссылочных данных, применяются при очистке данных с использованием набора знаний в службе ссылочных данных, а не данных, указанных на вкладке Общие параметры в разделе Настройка . Сведения об указании пороговых значений для очистки эталонных данных см. в шаге 9 статьи Присоединение домена или составного домена к ссылочным данным.

  • Значения доменов категоризируются следующим образом: Предложено, Новый, Недопустимый, Исправленои Правильно.

  • Дополнительные данные присоединены к источнику, а сведения доступны вместе с очищенными данными для экспорта.

Перед началом

Предварительные требования

Следует предварительно сопоставить требуемые домены в базе знаний DQS с соответствующей службой ссылочных данных. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо сопоставить домены с поставщиком службы ссылочных данных, предоставляющим высококачественные данные по адресам в США. Дополнительные сведения см. в статье Присоединение домена или составного домена к эталонным данным.

Безопасность

Разрешения

Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.

Очистка данных с использованием набора знаний о ссылочных данных

Мы продолжим использовать тот же пример использования доменов, которые мы сопоставили в предыдущем разделе Присоединение домена или составного домена к ссылочным данным, со службой Melissa Data в Azure Marketplace. Теперь мы будем использовать те же домены для очистки образцов адресов в США. Действия по очистке данных такие же, как описано в разделе Очистка данных с помощью DQS (внутренних) знаний. Однако мы будем привлекать ваше внимание к важным деталям в ходе этого процесса.

  1. Создайте проект служб DQS и выберите действие Очистка . См. раздел Create a Data Quality Project.

  2. На странице Сопоставление сопоставьте следующие 4 домена с соответствующими столбцами в исходных данных: Строка адреса, Город, Штати Почтовый индекс. Щелкните Далее.

    Примечание

    После того как все 4 домена будут сопоставлены внутри составного домена Проверка адресов , очистку данных можно будет выполнять на уровне составного домена, а не отдельных доменов.

  3. На странице Очистка запустите автоматизированный процесс очистки. Для этого нажмите кнопку Пуск. После завершения процесса очистки нажмите кнопку Далее.

    Примечание

    На странице Очистка службы DQS отображают сведения о доменах, присоединенных к службе ссылочных данных, двумя способами.

    • Под кнопкой "Пуск" появится сообщение " Домены <Домен1>, <Домен2>,... <Доменные имена> очищаются с помощью поставщика службы эталонных данных". В этом примере отобразится следующее сообщение: "Проверка адреса домена очищается с помощью поставщика службы эталонных данных".
    • Значок Domain is attached to RDS Domain Is attached to RDS Domain Service Provider). В этом примере значок будет отображаться напротив составного домена Проверка адресов .
  4. На странице Управление результатами и просмотр результатов просмотрите значения домена. Служба ссылочных данных может отображать, если доступно, несколько предлагаемых значений, количество которых зависит от максимума, заданного в поле Предлагаемые варианты во время сопоставления домена со службой ссылочных данных. Например, для следующего адреса в США отображаются два предлагаемых варианта.

    Исходное значение:

    Строка адреса City Состояние Почтовый индекс
    1 msft way Redmond 98052

    Предлагаемые значения:

    Строка адреса City Состояние Почтовый индекс
    1 Microsoft Way Redmond WA 98052
    PO Box 1 Redmond WA 98073

    Очистка с помощью службы эталонных данных Очистка

    Примечание

    Что касается составных доменов, то службы DQS выделяют также другим цветом отдельные домены, где в процессе автоматизированной очистки вносились исправления. Например, в данном случае исправлениям подвергались домены Строка адреса и Штат , поэтому они выделены голубым.

  5. После окончания просмотра всех значений домена нажмите кнопку Далее , чтобы экспортировать данные.

  6. Обратите внимание, что на странице Экспорт , помимо обычных сведений о действии очистки для каждого домена («Источник», «Причина», «Достоверность» и «Состояние»), будут находиться дополнительные сведения, предоставленные службой ссылочных данных Melissa Data по данным адресов: широта и долгота места, страна, тип адреса (высотный дом, улица и т. д) и т. п.

  7. Экспортируйте данные в нужное назначение (SQL Server, CSV или Excel) и нажмите кнопку Готово , чтобы закрыть проект.

    Важно!

    Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.