Поделиться через


Занятие 2. Очистка данных поставщика с помощью базы знаний

На этом занятии данные поставщиков в файле Excel будут очищены с помощью базы знаний Suppliers, созданной на первом занятии. В очистку данных в DQS входят автоматизированный процесс, анализирующий соответствие данных набору знаний в базе знаний, а также интерактивный процесс, позволяющий просматривать и изменять результаты автоматизированного процесса. Функция очистки данных опознает неверные данные в источнике данных, а затем исправляет или предлагает поправки для неверных данных. Она также стандартизирует и дополняет данные клиента с помощью значений домена, начальных значений для синонимов, правил домена, связей на основе терминов, а также ссылочных данных. Можно в интерактивном режиме утверждать или отклонять изменения, предлагаемые автоматизированным процессом. Дополнительные сведения см. в статье Очистка данных.

Автоматизированный процесс использует следующие пороговые значения, которые можно настроить с помощью параметра конфигурации на главной странице клиентского приложения служб DQS.

  • Минимальная оценка для предложений. Минимальная оценка или уровень доверия, используемый службами DQS для предложения замены для значения.

  • Минимальная оценка для автоматических исправлений. Минимальная оценка или уровень доверия, используемый службами DQS для автоматического исправления значения.

Дополнительные сведения о настройке этих параметров см. в статье Настройка пороговых значений для очистки и сопоставления.

На этом занятии будут выполнены следующие задачи для очистки входных данных с помощью базы знаний Suppliers.

  1. Создайте проект служб DQS для очистки, выберите базу знаний Suppliers в качестве базы знаний для использования при анализе и очистке исходных данных в файле Excel, а затем выберите действие «Очистка».

  2. Сопоставьте столбцы Excel, которые необходимо очистить с соответствующими доменами или составными доменами служб DQS в базе знаний.

  3. Запустите автоматизированное действие очистки. Автоматизированный процесс отображает сведения о качестве данных в клиенте DQS, которые можно использовать для очистки данных в интерактивном режиме.

  4. Просмотр результатов действия очистки и управление ими. Можно просматривать значения, которые автоматизированный процесс признал правильными, неверными, которые затем были исправлены, неверными с предложенным исправлением или недопустимыми. Можно в интерактивном режиме утверждать или отклонять изменения, исправлять или переопределять предложения автоматизированного процесса с помощью поля «Исправить на».

  5. Экспортируйте результаты процесса очистки в файл Excel.

  6. Импортируйте значения из проекта очистки в домены, чтобы расширить знания в базе знаний новыми правилами, значениями, исправлениями и т. д.

Следующий шаг

Задача 1. Создание проекта служб DQS