Занятие 1. Создание поставщиков базы знаний служб DQS
На этом занятии создается база знаний служб DQS Поставщики с набором знаний (метаданные) о данных поставщика. База знаний используется для выполнения очистки и действий сопоставления над входными данными о поставщиках. Действие очистки определяет неверные или недопустимые данные, исправляет неверные данные, предлагает исправления и рекомендации, унифицирует данные и вводит в данные дополнительные сведения. Действие сопоставления сравнивает данные и определяет в данных подобные записи (но немного различающиеся), что позволяет удалять повторения из данных.
Для создания, построения базы знаний и управления ей можно использовать интерактивные и автоматизированные процессы. Знания в базе знаний поддерживаются в доменах, каждый из которых специфичен для поля данных в тех данных, которые необходимо очистить или сопоставить.
На этом занятии предстоит выполнить следующие задачи для создания базы знаний Поставщики:
Создание базы знаний служб DQS с именем Поставщики. Базу знаний можно создать несколькими способами. Можно создать базу знаний с нуля или построить ее на основе существующей базы знаний путем либо импорта DQS-файла (DQS), содержащего заранее построенную и экспортированную базу знаний, либо выполнения операции обнаружения знаний над образцом данных. В этом учебнике можно создать базу знаний с нуля.
Создайте домены в базе знаний Поставщики, которые используются для очистки данных и сопоставления данных в поисках повторений. создание доменов для полей данных, которые будут использоваться в действиях по очистке и сопоставлению данных, не для всех полей данных в данных.
Добавьте значения к домену, добавляя значения вручную, импортируя значения из файла Excel, выполняя операцию обнаружения знаний над образцом данных и импортируя значения из проекта очистки. Можно также импортировать значения домена путем импорта DQS-файла, содержащего свойства и значения домена. Эта операция не выполняется во время занятия.
Задайте правила для домена. Правило домена — это условие, которое используется службой DQS для проверки, исправления и стандартизации значений домена.
Установите отношения на основе терма для домена. Отношение на основе терма позволяет исправить терм, являющийся частью значения в домене. Например, в значении Contoso Inc. Inc. — это терм, который можно определить как Incorporated. Это помогает в стандартизации данных и в определении повторений. Например, Contoso Inc. и Contoso Incorporated могут считаться повторениями.
Укажите синонимы в значениях домена. Можно задать два значения или несколько как синонимы и задать одно из них как основное значение, которое заменит синонимы в ходе действий очистки для стандартизации данных.
Создайте составной домен с именем «Проверка адреса», в который входят домены адреса, города, штата и почтового индекса. Составной домен — это домен, состоящий из одного или нескольких отдельных доменов. Он позволяет создать правило, включающее несколько доменов. Например, можно определить правило: если город — Лос-Анджелес, штат должен быть CA, где город и штат — два отдельных домена.
Настройка и использование службы ссылочных данных. Функция Reference Data Service в службах Data Quality Services (DQS) позволяет подписываться на услуги сторонних поставщиков эталонных данных, а также очищать и дополнять свои бизнес-данные с помощью их проверки по высококачественным данным. С помощью служб, предоставляемых ведущими поставщиками служб DQS, можно выполнять стандартизацию, исправление и дополнение данных в процессе очистки. В этом учебнике описывается настройка среды DQS для использования службы ссылочных данных в Windows Azure Marketplace, а также использование службы, связанной с составным доменом проверки адреса, для очистки данных адреса.
Публикация базы знаний для ее использования в операциях очистки и сопоставления.