Очистка данных с использованием набора знаний служб DQS (внутренних)
Область применения: SQL Server
В этом разделе описывается очистка данных с помощью проекта качества данных в службах качества данных (DQS). Очистка данных выполняется для исходных данных с использованием базы знаний, построенной в DQS по набору высококачественных данных. Дополнительные сведения см. в статье Построение базы знаний.
Очистка данных выполняется в четыре этапа: этап сопоставления , когда идентифицируется источник данных, подлежащих очистке, и сопоставляется с требуемыми доменами в базе знаний; этап автоматизированной очистки , когда службы DQS применяют базу знаний к данным, подлежащим очистке, а также предлагаются и вносятся изменения в исходные данные; этап интерактивной очистки , когда диспетчеры данных могут анализировать изменения данных, а также принимать/отклонять эти изменения данных, наконец, этап экспорта , на котором очищенные данные экспортируются. Каждый из этих процессов выполняется на отдельной странице мастера действия очистки, что позволяет переходить вперед и назад по различным страницам, повторно запускать процесс и завершать конкретный процесс очистки, а затем возвращаться к одному и тому же этапу процесса. Службы DQS предоставляют статистические сведения об исходных данных и результаты очистки, что позволяет принимать информированные решения по отношению к очистке данных.
Перед началом
Необходимые компоненты
Для осуществления действия очистки необходимо задать соответствующие пороговые значения. Дополнительные сведения об этой процедуре см. в разделе Настройка пороговых значений для очистки и сопоставления.
База знаний DQS должен быть доступен на сервере качества данных, с которым вы хотите сравнить, и очистить исходные данные. Кроме того, база знаний должна содержать набор знаний о типе данных, которые требуется очистить. Например, если требуется очистить исходные данные, содержащие адреса в США, необходимо иметь базу знаний, которая была создана по "высококачественному" образцу данных с адресами в США.
Microsoft Excel должен быть установлен на клиентском компьютере с качеством данных, если исходные данные, которые необходимо очистить, находится в файле Excel. В противном случае на стадии сопоставления невозможно будет выбрать файл Excel. Файлы, созданные Microsoft Excel, могут иметь расширение XLSX, XLS или CSV. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003 (.xls), файлы Excel 2007 и 2010 (.xlsx) не поддерживаются. При использовании 64-разрядной версии Excel 2007 или 2010 сохраните файл как XLS- или CSV-файл либо вместо этого установите 32-разрядную версию Excel.
Безопасность
Разрешения
Для выполнения очистки данных необходимо иметь роль dqs_kb_editor или dqs_kb_operator в базе данных DQS_MAIN.
Создание проекта качества очистки данных
Для выполнения операции очистки данных необходимо использовать проект служб DQS. Создание проекта качества очистки данных
Выполните шаги 1–3 в разделе Создание проекта служб DQS.
В шаге 3.d выберите действие Очистка .
Щелкните Создать , чтобы создать проект служб DQS.
В результате создается проект служб DQS и открывается страница Сопоставление мастера служб DQS.
Стадия сопоставления
На стадии сопоставления задается соединение с источником данных, подлежащих очистке, и столбцы в исходных данных сопоставляются с соответствующими доменами в выбранной базе знаний.
На странице Сопоставление мастера служб DQS выберите исходные данные, подлежащие очистке: SQL Server или Файл Excel.
SQL Server. Выберите DQS_STAGING_DATA в качестве базы данных-источника, если вы скопировали исходные данные в эту базу данных, а затем выберите соответствующую таблицу или представление с исходными данными. В противном случае выберите свою базу данных-источник и соответствующую таблицу или представление. Исходная база данных должна присутствовать в том же экземпляре SQL Server, что и сервер качества данных, который будет доступен в раскрывающемся списке базы данных .
Файл Excel. Нажмите кнопку Обзори выберите файл Excel, который содержит данные, подлежащие очистке. Для выбора файла Excel на компьютер с клиентом DQS должен быть установлен Microsoft Excel. В противном случае кнопка «Обзор» будет недоступна, и под текстовым полем появится уведомление о том, что не установлен Microsoft Excel. Кроме того, оставьте выбранным флажок Использовать первую строку как верхний колонтитул , если первая строка файла Excel содержит данные верхнего колонтитула.
В области Сопоставлениясопоставьте столбцы данных из исходных данных с соответствующими доменами в базе знаний, выбирая исходный столбец из раскрывающегося списка в столбце Исходный столбец , а затем выбирая домен из раскрывающегося списка в столбце Домен в той же строке. Повторяйте этот шаг для сопоставления всех столбцов в исходных данных с соответствующими доменами в базе знаний. При необходимости вы можете щелкнуть значок Добавить сопоставление столбцов , чтобы добавить строки в таблицу сопоставления.
Примечание.
Сопоставление исходных данных с доменом служб DQS для проведения очистки данных возможно, только если исходный тип данных поддерживается службами DQS и совпадает с типом данных домена DQS. Дополнительные сведения о поддерживаемых исходных типах данных см. в разделе Типы данных SQL Server и службы SSIS, поддерживаемые для доменов DQS.
Щелкните значок Предварительный просмотр источника данных для просмотра данных в выбранной таблице или представлении SQL Server либо в выбранном листе Excel.
Щелкните Просмотр/выбор составных доменов для просмотра списка составных доменов, сопоставленных с исходным столбцом. Эта кнопка доступна, только если имеется по крайней мере один составной домен, сопоставленный с исходным столбцом.
Нажмите кнопку Далее , чтобы перейти к компьютерной стадии очистки (страницаОчистить ).
Этап автоматизированной очистки
В компьютерной стадии очистки запускается автоматизированный процесс очистки данных, в котором исходные данные анализируются по сопоставленным доменам в базе знаний, а также выполняются и предлагаются изменения в данных.
На странице Очистка мастера качества данных нажмите кнопку Пуск , чтобы запустить процесс автоматизированной очистки. Службы DQS используют мощные алгоритмы и степени достоверности на основе пороговых уровней, позволяющие анализировать данные по выбранной базе знаний и затем выполнять очистку. Подробные сведения о том, как происходит автоматизированная очистка в службах DQS, см. в разделе Автоматическая очистка статьи Очистка данных.
Внимание
После завершения анализа данных кнопка Пуск заменяется кнопкой Перезапуск . Если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить происходит потеря ранее полученных данных. Во время выполнения анализа не уходите с этой страницы, поскольку процесс анализа будет прекращен.
Если база знаний, используемая для проекта очистки, обновлена и опубликована после того, как был создан проект очистки, то нажатие кнопки Пуск приводит к выводу приглашения, в котором нужно указать, следует ли использовать новейшую базу знаний для очистки. Такая ситуация может, как правило, возникнуть, если проект служб DQS создан с использованием базы знаний, после этого закрыт проект очистки с помощью кнопки Закрыть, затем проект служб DQS открыт повторно в последующий момент времени для выполнения очистки. Тем временем база знаний, используемая в проекте очистки, была обновлена и опубликована.
Аналогичным образом, если база знаний, используемая для проекта очистки, обновлена и опубликована после того, как в последний раз была выполнена компьютерная очистка, то нажатие кнопки Перезапуск приводит к выводу приглашения, в котором следует указать, должна ли использоваться для очистки новейшая база знаний.
В обоих случаях выберите Да , чтобы использовать обновленную базу знаний для автоматизированной очистки. Кроме того, если имеются какие-либо конфликты между текущими сопоставлениями и обновленной базы знаний (например, удаление доменов или изменения типа данных домена), в этом сообщении также будет приглашение, в котором нужно указать, следует ли исправить текущие сопоставления для использования обновленной базы знаний. Нажатие кнопки Да приводит к переходу на страницу Сопоставление , на которой вы можете исправить сопоставления, прежде чем продолжить автоматизированную очистку.
На этапе автоматизированной очистки вы можете включить профилировщик, щелкнув вкладку «Профилировщик» для просмотра данных профилирования и уведомлений в реальном времени. Дополнительные сведения см. в статье Статистические данные профилировщика.
Если вы не удовлетворены результатами, нажмите кнопку Назад , чтобы вернуться к странице Сопоставление , измените необходимые сопоставления, возвратитесь к странице Очистить и нажмите кнопку Перезапустить.
После завершения процесса автоматизированной очистки нажмите кнопку Далее , чтобы перейти к этапу интерактивной очистки (страницаПросмотр результатов и управление ими ).
Этап интерактивной очистки
На этапе интерактивной очистки вы можете просматривать изменения, предлагаемые службами DQS, и принимать решения о том, вносить их или нет, утверждая или отклоняя изменения. На левой панели страницы Управление результатами и просмотр результатов служб DQS отображается список всех доменов, которые были ранее на этапе сопоставления, наряду с количеством значений в исходных данных, проанализированных по отношению к каждому домену на этапе автоматизированной очистки. В правой панели страницы Управление результатами и просмотр результатов службы DQS проводят разбиение данных по категориям на пяти вкладках с использованием степени достоверности, учитывая соблюдение правил домена, правил определения синтаксических ошибок, на основе развитых алгоритмов. Степень достоверности указывает, какова величина достоверности в службах DQS в отношении исправления или подсказки. Этот показатель основывается на следующих пороговых значениях:
Пороговое значение для автоматического исправления. Любое значение, уровень достоверности которого выше данного порогового значения, автоматически исправляется службами DQS. Тем не менее диспетчер данных может переопределить это изменение во время интерактивной очистки. Пороговое значение автоматического исправления вы можете задать на вкладке Общие параметры экрана Конфигурация . Дополнительные сведения см. в статье Настройка пороговых значений для очистки и сопоставления.
Пороговое значение для автоматической подсказки. Любое значение, уровень достоверности которого превышает данное пороговое значение, но находится ниже порогового значения автоматического исправления, автоматически предлагается в качестве заменяющего значения. Службы DQS внесут это изменение, как только диспетчер данных его утвердит. Пороговое значение автоматической рекомендации вы можете задать на вкладке Общие параметры экрана Конфигурация . Дополнительные сведения см. в статье Настройка пороговых значений для очистки и сопоставления.
Прочие. Службы DQS оставляют неизменным любое значение ниже порогового значения автоматической подсказки.
В зависимости от уровня достоверности и описанных выше пороговых значений, значения отображаются на следующих пяти вкладках.
Вкладка | Описание |
---|---|
Предложено | Отображает значения домена, для который службами DQS найдены предложенные значения, имеющие уровень достоверности выше порогового значения автоматической подсказки , но ниже порогового значения автоматического исправления . Предложенные значения отображаются в столбце Исправить на напротив первоначального значения. Вы можете щелкнуть переключатель в столбце Утвердить или Отклонить напротив значения в верхней сетке, чтобы утвердить или отклонить подсказку для всех экземпляров значения. В этом случае утвержденное значение перемещается на вкладку Исправленное , а отклоненное значение перемещается на вкладку Недействительное . |
Новый | Отображает допустимый домен, для которого DQS не хватает сведений, и поэтому не может быть сопоставлен с любой другой вкладкой. Кроме того, эта вкладка также содержит значения, которые имеют уровень достоверности меньше порогового значения автоматического предложения, но достаточно высокий, чтобы пометить как допустимый. Если вы считаете, что значение является правильным, щелкните переключатель в столбце Утвердить . В противном случае щелкните переключатель в столбце Отклонить . Принятое значение перемещается на вкладку "Правильный" и отклоненное значение перемещается на вкладку "Недопустимый". Вы также можете вручную ввести правильное значение в качестве замены исходного значения в столбце "Правильное значение" со значением, а затем нажмите переключатель в столбце "Утвердить", чтобы принять это изменение. В этом случае значение перемещается на вкладку Исправлено . |
Недействительное | Отображает значения домена, которые были отмечены как недопустимые в домене базы знаний, или значения, которые оказались несоответствующими правилам домена. Эта вкладка содержит также значения, которые были отклонены пользователем на любой из других четырех вкладок. Если вы считаете, что значение является правильным, щелкните переключатель в столбце Утвердить . Принятое значение перемещается на вкладку "Правильный". Вы также можете вручную ввести правильное значение в качестве замены исходного значения в столбце "Правильное значение" со значением, а затем нажмите переключатель в столбце "Утвердить", чтобы принять это изменение. В этом случае значение перемещается на вкладку Исправлено . |
Исправленное | Отображает значения домена, которые были исправлены службами DQS в процессе автоматизированной очистки, поскольку службы DQS обнаружили исправление для значения с уровнем достоверности выше порогового значения автоматического исправления. Исправленные значения отображаются в столбце Исправить на напротив первоначального значения. По умолчанию напротив каждого значения выбран переключатель в столбце Утвердить . Если потребуется, вы можете отклонить предложенное исправление, щелкнув переключатель в Отклонить , чтобы переместить исправление на вкладку Недействительное , или вручную ввести правильное значение в столбце Исправить на , затем щелкнуть переключатель в столбце Утвердить , чтобы утвердить изменение и переместить его на вкладку Исправленное . |
Правильное | Отображает значения домена, для которых было обнаружено, что они правильные. Например, значение, которое соответствует значению домена. На этой вкладке также содержатся значения, которые были утверждены пользователем путем щелчка переключателя в столбце Утвердить на вкладках Новое и Недействительное . По умолчанию напротив каждого значения выбран переключатель в столбце Утвердить . Но если вы считаете, что какое-то значение на этой вкладке является неверным, то можно либо щелкнуть переключатель в столбце Отклонить напротив этого значения, чтобы переместить его на вкладку Недействительное , либо вручную ввести правильное значение напротив этого значения в столбце Исправить на , а затем щелкнуть переключатель в столбце Утвердить , чтобы утвердить изменение и переместить его на вкладку Исправленное . |
Очистка данных в интерактивном режиме:
На странице Просмотр результатов и управление ими мастера качества очистки данных щелкните имя домена в левой панели.
Просмотрите значения домена на пяти вкладках и предпримите соответствующее действие, как было описано выше.
В правой верхней панели отображаются следующие сведения для каждого значения в выбранном домене: исходное значение; количество экземпляров (записей); поле для указания другого (правильного) значения; уровень достоверности (недоступно для значений на вкладке Правильно ); причина выполнения действия служб DQS применительно к значению; а также параметр для утверждения и отклонения исправлений и подсказок для значения.
Совет
Вы можете утвердить или отклонить все значения в выбранном домене в правой верхней панели, щелкнув значок Утвердить все термины или Отклонить все термины соответственно. Еще один вариант состоит в том, что вы можете щелкнуть правой кнопкой мыши значение в выбранном домене, затем щелкнуть Утвердить все или Отклонить все в контекстном меню.
В нижней панели отображаются отдельные вхождения значения домена, выбранного в правой верхней панели. Доступна следующая информация: поле для указания другого (правильного) значения; уровень достоверности (недоступно для значений на вкладке Правильно ); причина выполнения действия DQS применительно к значению; параметр для утверждения и отклонения исправлений и подсказок для значения; а также исходное значение.
Если для домена во время его создания включена функция Средство проверки орфографии , то каждое значение домена, которое идентифицируется как потенциально ошибочное, подчеркивается волнистой красной линией. Подчеркиванием обозначается все значение. Например, если словосочетание New York будет неправильно записано как Neu York, то средство проверки орфографии подчеркнет красной линией Neu York, а не только Neu. Если щелкнуть значения правой кнопкой мыши, будут показаны предложенные исправления. Если количество подсказок больше 5, вы можете щелкнуть Больше подсказок в контекстном меню, чтобы просмотреть остальные подсказки. Как и в случае отображения ошибок, подсказки служат для замены целого значения. В частности, в предыдущем примере в качестве подсказки будет показано New York, а не только New. Вы можете выбрать одну из подсказок или добавить значение к словарю, который будет отображаться для этого значения. Значения хранятся в словаре на уровне учетной записи пользователя. После выбора подсказки из контекстного меню средства проверки орфографии выбранная подсказка добавляется к столбцу Исправить на . Но при выборе подсказки в столбце Исправить на значение в столбце заменяется в соответствии с выбранной подсказкой.
Функция средства проверки орфографии включается по умолчанию на стадии интерактивной очистки. Вы можете отключить средство проверки орфографии на стадии интерактивной очистки, щелкнув значок Включить/отключить средство проверки орфографии . Кроме того, можно щелкнуть правой кнопкой мыши в области значений домена, затем Средство проверки орфографии в контекстном меню. Чтобы включить его снова, сделайте то же самое.
Примечание.
Функция средства проверки орфографии доступна только в верхней панели (значения домена). Кроме того, нельзя включить или отключить средство проверки орфографии для составных доменов. Для дочерних доменов в составном домене, имеющих тип строки и включенных для функции средства проверки орфографии, функциональные возможности средства проверки орфографии включаются на стадии интерактивной очистки по умолчанию.
На этапе интерактивной очистки вы можете включить профилировщик для просмотра в реальном времени данных профилирования и уведомлений, щелкнув вкладку Профилировщик . Дополнительные сведения см. в статье Статистические данные профилировщика.
После просмотра всех значений домена щелкните Далее , чтобы перейти к этапу экспорта.
Этап экспорта
На этапе экспорта можно задать параметры для экспорта очищенных данных: что и куда экспортировать.
На странице Экспорт мастера качества очистки данных выберите целевой тип для экспорта очищенных данных: SQL Server, CSV-файлили Файл Excel.
Внимание
Если используется 64-разрядная версия Excel, то нельзя экспортировать очищенные данные в файл Excel. Можно экспортировать данные только в базу данных SQL Server или в CSV-файл.
SQL Server. Выберите DQS_STAGING_DATA в качестве целевой базы данных, если необходимо экспортировать данные в эту базу данных, затем укажите имя таблицы, которая должна быть создана для сохранения экспортированных данных. В противном случае выберите другую базу данных, если необходимо экспортировать данные в отличную от нее базу данных, затем укажите имя таблицы, которая должна быть создана для сохранения экспортированных данных. Целевая база данных должна присутствовать в том же экземпляре SQL Server, что и сервер качества данных, который будет доступен в раскрывающемся списке базы данных .
CSV-файл. Нажмите кнопку Обзори укажите имя и местоположение CSV-файла, в который необходимо экспортировать очищенные данные. Вы можете также ввести имя CSV-файла наряду с указанием полного пути, по которому необходимо экспортировать очищенные данные. Например, c:\ExportedData.csv. Файл сохраняется на компьютере, на котором установлен сервер качества данных.
Файл Excel. Нажмите кнопку Обзори укажите имя и местоположение файла Excel, в который необходимо экспортировать очищенные данные. Вы можете также ввести имя файла Excel наряду с указанием полного пути, по которому необходимо экспортировать очищенные данные. Например, c:\ExportedData.xlsx. Файл сохраняется на компьютере, на котором установлен сервер качества данных.
Выберите флажок Стандартизировать вывод , чтобы стандартизировать вывод на основе выходного формата, выбранного для домена. Например, можно перевести строковое значение в верхний регистр или преобразовать в прописную первую букву слова. Для получения сведений об определении выходного формата домена см. список Формат вывода в в Установка свойств домена.
Далее выберите выходные данные: экспортировать только очищенные данные или экспортировать очищенные данные наряду с информацией очистки.
Только данные. Щелкните переключатель, чтобы экспортировать только очищенные данные.
Сведения о данных и очистке. Щелкните переключатель, чтобы экспортировать следующие данные для каждого домена:
<Домен>_Source: исходное значение в домене.
<Домен>_Output: очищенные значения в домене.
<Домен>_Reason: причина, указанная для исправления значения.
<Домен>_Confidence: уровень достоверности для всех условий, которые были исправлены. Она отображается в виде десятичного значения, эквивалентного соответствующим процентным значениям. Например, степень достоверности 95 % отображается как 0,9500000.
<Домен>_Status: состояние значения домена после очистки данных. В качестве примера можно назвать Предложенное, Новое, Недействительное, Исправленноеили Правильное.
Состояние записи: помимо поля состояния для каждого сопоставленного домена (<DomainName>_Status), поле "Состояние записи" отображает состояние записи. Если состояние домена в записи — Новый или Правильный, Состояние записи устанавливается в значение Правильный. Если состояние домена в записи — Предложенный, Недопустимый или Исправленный, Состояние записи устанавливается в соответствующее значение. Например, если состояние домена в записи имеет значение Предложенный, Состоянию записи присваивается значение Предложенный.
Примечание.
Если для операции очистки используется служба эталонных данных, то для экспорта доступны также некоторые дополнительные данные о значении домена. Дополнительные сведения см. в разделе "Очистка данных с помощью эталонных данных (внешних) знаний.
Щелкните Экспорт , чтобы экспортировать данные в выбранное место назначения. Если выбран вариант:
SQL Server — в выбранной базе данных будет создана новая таблица с указанным именем;
CSV-файл в качестве места назначения данных, .csv файл будет создан на компьютере сервера качества данных с именем файла, указанным ранее в поле имени CSV-файла .
Файл Excel в качестве назначения данных, файл Excel будет создан в расположении на компьютере сервера качества данных с именем файла, указанным ранее в поле имени файла Excel.
Щелкните Готово , чтобы закрыть проект служб DQS.
Profiler Statistics
На вкладке Профилировщик представлены статистические данные, которые указывают качество исходных данных. Профилирование позволяет оценить эффективность действия по очистке данных и с его помощью можно определить, в какой степени очистка данных способствовала улучшению качества данных.
На вкладке Профилировщик предоставлены следующие статистические данные для исходных данных, по полю и домену:
Записи: сколько записей в образце данных было проанализировано для действия по очистке данных.
Правильные записи: сколько найденных записей оказалось правильными.
Исправленные записи: сколько записей было исправлено.
Предлагаемые записи: сколько записей было предложено.
Недопустимые записи: сколько записей оказалось недействительными.
Статистические данные поля включают следующее:
Поле: имя поля в исходных данных.
Домен. Имя домена, который сопоставляется с полем.
Исправленные значения: количество значений домена, которые были исправлены.
Предложенные значения: количество значений домена, которые были предложены.
Полнота: полнота каждого исходного поля, которое сопоставлено для действия очистки.
Точность: точность каждого исходного поля, которое сопоставлено для действия очистки.
Профилирование служб DQS предоставляет два измерения качества данных: полнота (степень, в которой представлены данные) и точность (степень, в которой данные могут использоваться по намеченному назначению). Если профилирование указывает, что поле является относительно неполным, то может потребоваться удалить его из базы знаний проекта служб DQS. Профилирование может не предоставлять надежных статистических данных по полноте для составных доменов. Если требуются статистические данные по полноте, используйте одиночные домены вместо составных. Если необходимо использовать составные домены, то, возможно, потребуется создать одну базу знаний с одиночными доменами для профилирования в целях определения полноты и другой домен с составным доменом для процесса очистки. Например, профилирование может показать полноту 95% для записей адреса в составном домене, но для одного из столбцов (например, столбца почтового индекса) уровень неполноты может оказаться гораздо больше. В этом примере может потребоваться измерить полноту столбца почтового индекса с помощью одиночного домена. Профилирование с большей вероятностью вы можете предоставить надежные статистические данные по точности для составных доменов, поскольку позволяет измерить точность для нескольких столбцов вместе. Значение этих данных находится в составном агрегате, поэтому может потребоваться измерить точность с помощью составного домена.
Статистические данные по точности, вероятно, потребуют дополнительной интерпретации, если не используется служба справочных данных. Если для очистки данных используется служба справочных данных, то достигается определенный уровень доверия к статистическим данным по точности. Дополнительные сведения о очистке данных с помощью службы ссылочных данных см. в статье "Очистка данных с помощью эталонных данных (внешних) знаний.
Уведомления об очистке
К появлению уведомлений приводят следующие условия:
Для поля отсутствуют исправления или подсказки. Может потребоваться удалить его из сопоставления, вначале запустить обнаружение знаний или применить другую базу знаний.
Количество исправлений или подсказок для поля относительно невелико. Может потребоваться удалить его из сопоставления, вначале запустить обнаружение знаний или применить другую базу знаний.
Уровень точности поля является очень низким. Может потребоваться проверить сопоставление или рассмотреть возможность сначала выполнить обнаружение знаний.
Дополнительные сведения о профилировании см. в разделе Профилирование данных и уведомления в DQS.