Создание политики сопоставления
Область применения:SQL Server
В этом разделе описывается, как создать политику сопоставления в базе знаний в системе качества данных (DQS). Вы подготавливаете процесс сопоставления в DQS, выполняя действие политики соответствия на образце данных. В данной операции создается и проверяется одно или несколько правил сопоставления в политике, затем публикуется база знаний, что делает правила сопоставления доступными для общего пользования. В базе знаний может быть только одна политика сопоставления, но эта политика может содержать несколько правил сопоставления.
Создание политики сопоставления выполняется в три этапа: процесс сопоставления, в котором определяется источник данных и домены сопоставляются со столбцами, процесс политики сопоставления, в котором создается одно или несколько правил сопоставления и проверяется каждое правило сопоставления в отдельности, а также процесс сопоставления результатов, в котором выполняются все правила сопоставления вместе, и при успешном выполнении политика добавляется в базу знаний. Все эти процессы выполняются на отдельной странице мастера операции политики сопоставления, что позволяет переходить от одной странице к другой, повторно запускать процесс, завершать конкретный процесс политики сопоставления и возвращаться на тот же этап процесса. После проверки всех правил вместе при необходимости вы можете вернуться на страницу Политика сопоставления , настроить отдельное правило, снова проверить его отдельно и затем вернуться на страницу Результаты сопоставления для повторного запуска всех правил вместе. В службах DQS предусмотрены статистические данные об исходных данных, правилах сопоставления и результатах сопоставления, которые позволяют принимать осведомленные решения относительно политики сопоставления и вносить необходимые улучшения.
Перед началом
Предварительные условия
Microsoft Excel должен быть установлен на клиентском компьютере обеспечения качества данных, если исходные данные представлены в файле Excel. В противном случае на стадии сопоставления невозможно будет выбрать файл Excel. Файлы, созданные Microsoft Excel, могут иметь расширение XLSX, XLS или CSV. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003 (.xls), файлы Excel 2007 и 2010 (.xlsx) не поддерживаются. При использовании 64-разрядной версии Excel 2007 или 2010 сохраните файл как XLS- или CSV-файл либо вместо этого установите 32-разрядную версию Excel.
Безопасность
Разрешения
Для создания политики сопоставления необходимо иметь роль dqs_kb_editor или dqs_administrator в базе данных DQS_MAIN.
Как задать параметры правил сопоставления
Создание правила сопоставления является интерактивным процессом, в ходе которого вводятся коэффициенты, позволяющие определить соответствие между записями. Вы можете ввести условия для любого домена в таблице. Когда DQS выполняет сопоставление по двум записям, сравниваются значения в полях, сопоставленных с доменами, которые входят в правило сопоставления. DQS анализирует значения в каждом поле правила, затем по коэффициентам, введенным в правило для каждого домена, вычисляет окончательный показатель сопоставления. Если показатель сопоставления для двух сравниваемых записей больше, чем минимальный показатель сопоставления, то два поля считаются совпадающими.
К коэффициентам, введенным в правило сопоставления, относятся следующие.
Вес. Для каждого домена в правиле введите числовые данные веса, которые определяют, каким образом результаты анализа сопоставления для домена будут сравниваться со всеми другими доменами в правиле. Вес отражает вклад оценки поля в общий результат сопоставления между двумя записями. Рассчитанные показатели, присвоенные каждому исходному полю, складываются в составной показатель сопоставления двух записей. Для каждого поля, которое не является обязательным (с точным подобием или сходством), установите значение веса от 10 до 100. Сумма весов доменов, которые не являются обязательными, должна быть равна 100. Если значение является обязательным, то вес устанавливается равным 0 и не может быть изменен.
Выберите Точное, если значения в одном и том же поле двух разных записей должны быть идентичными, чтобы считаться совпадающими. При идентичности показатель сопоставления для этого домена получит значение 100, а службы DQS применят этот показатель и показатели других доменов в правиле для определения агрегатного показателя сопоставления. В случае неидентичности показатель сопоставления для этого домена получит значение 0, а обработка правила продолжится до следующего условия. При установке правила сопоставления для численного домена и выборе параметра Подобныйвы можете ввести погрешность в процентах или целым числом. При выборе параметра Похожие для домена типа «дата» вы можете ввести погрешность в днях, месяцах или годах (целое число); для домена даты погрешность в процентах отсутствует. При выборе параметра Точное, эта опция отсутствует.
Выберите Похожее, если два значения в одном поле двух разных записей могут считаться совпадающими, даже если значения не идентичны. Когда в DQS выполняется правило, для соответствующего домена рассчитывается показатель сопоставления, а для определения агрегатного показателя сопоставления будет использоваться этот показатель и показатели других доменов в правиле. Минимальное подобие между значениями поля составляет 60%. Если рассчитанный показатель сопоставления для поля двух записей меньше, чем 60, показатель подобия автоматически устанавливается равным 0. При установке правила сопоставления для численного поля и выборе параметра Подобныйвы можете ввести погрешность в процентах или целым числом. При установке правила сопоставления для поля даты и выборе параметра Подобныйвы можете ввести погрешность в числовом виде.
Необходимое условие. Выберите параметр Необходимое условие , чтобы значения в одном поле двух разных записей возвращали 100-процентные совпадения, либо эти поля нельзя будет рассматривать как совпадающие, и другие предложения в правиле не будут учитываться. При выборе параметра Обязательное весовое поле для домена удаляется таким образом, что невозможно определить вес для домена. Необходимо сбросить веса одного или нескольких доменов таким образом, чтобы сумма весов составляла 100. Домены предварительных условий не влияют на оценку сопоставления записей. Показатель сопоставления записи определяется сравнением значений в полях, для которых параметру «Подобие» присвоено значение «Подобное» или «Точное». Если поле становится обязательным, параметр «Подобие» для этого домена автоматически получает значение «Точное».
Минимальный показатель сопоставления — это порог, на границе или выше которого рассматривается соответствие двух записей (состояние для записей установлено в значение "Совпадает"). Введите целое числовое значение с приращением 1 или щелкните стрелку вверх или вниз для увеличения или уменьшения значения с приращением 10. Минимальное значение — 80. Если показатель сопоставления ниже 80, две записи не считаются совпадающими. На этой странице нельзя изменить диапазон минимального показателя сопоставления. Наименьший минимальный показатель сопоставления — 80. Однако вы можете изменить наименьший минимальный показатель сопоставления на странице «Администрирование» (если вы являетесь администратором DQS).
Создание правила сопоставления является интерактивным процессом, поскольку может потребоваться изменение соответствующих весов доменов в правиле, подобия либо свойства предварительного требования для домена или минимального показателя сопоставления для правила, чтобы добиться необходимых результатов. Кроме того, возможно, потребуется создать несколько правил, каждое из которых запускается для создания показателя сопоставления. С помощью одного единственного правила может быть сложно достичь необходимого результата. Несколько правил предоставят различные представления требуемого совпадения. С помощью нескольких правил возможно включение небольшого числа доменов в каждое правило, использование больших весов для каждого домена и улучшение результатов. Если данные являются менее точными и менее полными, может потребоваться большее количество правил для поиска требуемых совпадений. Если данные являются более точными и полными, потребуется меньшее количество правил.
Профилирование дает представление о полноте и уникальности. Рассмотрим последовательно полноту и уникальность. Используйте данные о полноте и уникальности, чтобы определить, какой вес присваивается полю в процессе сопоставления. При наличии высокого уровня уникальности в поле использование поля в политике сопоставления может снизить результаты сопоставления так, что возникнет необходимость установки веса для этого поля в относительно небольшое значение. Если у вас низкий уровень уникальности для столбца и низкая полнота, возможно, вы не захотите включать домен для этого столбца. При низком уровне уникальности и высоком уровне полноты данных может возникнуть необходимость во включении домена. Как и следовало ожидать, некоторые столбцы, например пол, могут иметь низкий уровень уникальности. Дополнительные сведения см. в статье Вкладки «Профилировщик» и «Результаты».
Первый шаг. Запуск политики сопоставления
Вы выполняете действие политики сопоставления в области управления базой знаний клиентского приложения "Качество данных".
Запустите клиент управления качеством данных. Для получения дополнительной информации см. раздел Запустите клиентское приложение для проверки качества данных.
На домашнем экране клиента качества данных нажмите кнопку "Создать базу знаний", чтобы создать политику сопоставления в новой базе знаний. Введите имя для базы знаний и описание, затем выберите требуемый вариант Создать базу знаний из . Нажмите кнопку Политика сопоставления для операции. Чтобы продолжить, нажмите кнопку Далее .
Нажмите кнопку Открыть базу знаний , чтобы создать или изменить политику сопоставления в существующей базе знаний. Выберите базу знаний, выберите Политику сопоставления, затем нажмите Далее. Кроме того, вы можете щелкнуть базу знаний в списке Последние базы знаний. При открытии базы знаний, которая была закрыта в процессе работы над политикой сопоставления, вы перейдете к тому этапу, на котором деятельность политики сопоставления была завершена (как указано в столбце Состояние для базы знаний в таблице базы знаний или в названии базы знаний в разделе Недавно открытая база знаний). При открытии базы знаний, которая содержит политику сопоставления и завершена, произойдет переход на страницу Политика сопоставления . При открытии базы знаний, которая не содержит политику сопоставления и завершена, произойдет переход на страницу Сопоставление .
Этап картирования
На стадии сопоставления определяется источник данных, для которого создается политика сопоставления, а исходные столбцы сопоставляются с доменами, чтобы сделать домены доступными для операции политики сопоставления.
На странице Сопоставление для создания политики базы данных оставьте Источник данных в значении SQL Server, в поле База данныхвыберите базу данных, для которой необходимо создать политику, затем щелкните таблицу или представление в области Таблица/Представление. Исходная база данных должна присутствовать в том же экземпляре SQL Server, что и сервер качества данных. В противном случае она не появится в раскрывающемся списке.
Чтобы создать политику для данных в электронной таблице Excel, выберите Файл Excel в поле Источник данных, нажмите кнопку Обзор и выберите файл Excel. При необходимости оставьте выбранным поле Использовать первую строку в качестве заголовка . В поле Листвыберите лист в файле Excel, который будет источником данных. Для выбора файла Excel на компьютер с клиентом DQS должен быть установлен Microsoft Excel. В противном случае кнопка «Обзор» будет недоступна, и под текстовым полем появится уведомление о том, что не установлен Microsoft Excel.
В пункте Сопоставлениявыберите поле для Исходного столбца, затем щелкните значок Создать домен .
В пункте Сопоставлениявыберите поле в источнике данных для Исходного столбца, а затем выберите соответствующий домен. Повторите действия для всех доменов, используемых в процессе сопоставления. При необходимости создайте домены, нажав кнопку Создать домен или Создать составной домен.
Примечание.
Сопоставление исходных данных с доменом служб DQS при создании политики сопоставления возможно, только если совпадающий тип исходных данных поддерживается службами DQS и совпадает с типом данных домена DQS. Сведения о поддерживаемых службами DQS типах данных см. в разделе Типы данных SQL Server и службы SSIS, поддерживаемые для доменов DQS.
Для добавления строки в таблицу "Сопоставления" щелкните значок плюс (+), а для удаления строки — значок минус (–).
Щелкните значок Предварительный просмотр источника данных для просмотра данных в таблице SQL Server, в выбранных представлениях или в выбранных листах Excel.
Для просмотра списка составных доменов, доступных в базе знаний и выбранных для сопоставления, нажмите кнопку Просмотр/выбор составных доменов .
Нажмите кнопку Далее , чтобы перейти к этапу политики сопоставления.
Примечание.
Нажмите кнопку Закрыть , чтобы сохранить стадию сопоставления проекта и вернуться на домашнюю страницу DQS. При следующем открытии данного проекта он начнется с того же этапа. Нажмите Отмена, чтобы завершить действие сопоставления, ваша работа будет потеряна, и вернитесь на домашнюю страницу DQS.
Этап политики соответствия
Создаются правила сопоставления и проверяются по отдельности на странице «Политика сопоставления». При проверке правила сопоставления на странице Политика сопоставления можно просматривать таблицу результатов сопоставления, в которой приведены кластеры, выявленные DQS для выбранного правила. В таблице отображаются все записи в кластере со значениями домена сопоставления и показателями сопоставления, а также исходная сводная запись для кластера. Также вы можете отобразить профилирование данных для процесса сопоставления в целом, условия в каждом правиле сопоставления и статистические данные по результатам каждого правила сопоставления отдельно. Вы можете фильтровать основные данные правил по своему усмотрению.
Дополнительные сведения о работе правил сопоставления см. в разделе Как задать параметры правил сопоставления.
На странице Политика сопоставления щелкните значок Создать правило сопоставления .
Введите имя и описание правила.
Увеличьте значение Мин. показатель сопоставления , если необходимы более жесткие требования сопоставления. Дополнительные сведения о минимальном показателе сопоставления см. в разделе Как задать параметры правил сопоставления.
Щелкните значок Добавить новый элемент домена .
Выберите домен или составной домен для ввода значения правила.
Примечание.
Составной домен вы можете выбрать, только если один домен в составном домене сопоставлен с исходным столбцом.
Для параметра Подобиевыберите Подобный , если два значения в одном поле двух разных записей могут считаться совпадающими, даже если значения неидентичны. Если два значения в одном поле двух разных записей должны быть идентичными, чтобы считаться совпадающими, выберите параметр Точное . (Дополнительные сведения см. в разделе Как задать параметры правил сопоставления.)
В поле Вес введите значение, которое определяет вклад показателя сопоставления домена в общий показатель сопоставления для двух записей.
Примечание.
При определении веса для составного домена вы можете ввести разные значения веса для каждого отдельного домена в составном домене, в этом случае составной домен не получает отдельного значения веса. Кроме того, вы можете ввести отдельный вес для составного домена, при этом отдельные домены в составном домене не получают отдельных значений веса.
С помощью параметра Обязательное можно указать, что значения для этого поля в двух разных записях должны возвращать 100-процентное совпадение, иначе эти записи не рассматриваются как совпадающие и другие предложения в правиле не учитываются. Если параметр Подобие имеет значение Подобное, то это значение изменится на Точное, а вес будет удален, поскольку должно соблюдаться 100-процентное совпадение.
Повторите шаги 4-8 для всех остальных доменов, которые будут входить в правило сопоставления. Убедитесь, что сумма весов для всех доменов в правиле равна 100.
Из раскрывающегося списка выберите пункт Перекрывающиеся кластеры , чтобы отобразить эталонные записи и следующие записей для всех кластеров при выполнении сопоставления, даже если группы кластеров имеют общие записи. Для отображения кластеров, которые имеют общие записи, в качестве единого кластера при выполнении сопоставления выберите пункт Неперекрывающиеся кластеры .
Для копирования данных из источника данных в промежуточную таблицу и их повторной индексации при выполнении политики сопоставления щелкните Перезагрузить данные из источника . Чтобы выполнить политику сопоставления без копирования данных в промежуточную таблицу и повторной индексации данных, щелкните Выполнить на предыдущих данных. Функция Выполнить на предыдущих данных отключена при первом запуске политики сопоставления или если вы измените сопоставление на странице Сопоставление, а затем нажмите Да во всплывающем окне. В обоих этих случаях необходимо произвести повторную индексацию. Нет необходимости в выполнении повторной индексации, если политика сопоставления не была изменена. Использование предыдущих данных может повысить производительность.
Нажмите кнопку Пуск , чтобы запустить процесс сопоставления для выбранного правила. По завершении процесса в таблице отобразятся идентификатор записи, количество кластеров и столбцы данных (в том числе те, которые не входят в правило сопоставления) для каждой записи в кластере. Сводная строка в кластере считается основным претендентом на «выживание» в процессе удаления дубликатов. Каждая дополнительная строка в кластере считается дубликатом. Ее показатель сопоставления (по сравнению со сводной записью) приводится в таблице результатов. Номер кластера совпадает с идентификатором записи для опорной записи.
С данными в таблице Результаты сопоставления вы можете работать следующим образом.
В пункте Фильтрациявыберите Соответствует для отображений всех совпадающих строк и их показателей. Строки, которые считаются несовпадающими (с показателем совпадения меньше, чем минимальный показатель совпадения), не отображаются в таблице результатов совпадения. Выберите Несоответствующие, чтобы показать все несовпадающие строки, а не совпадающие строки.
В выпадающем списке Процентный выпадающий список выберите процент из выпадающего списка с интервалом в 5. Все строки с показателем совпадения большим или равным этому проценту будут отображены в таблице результатов сопоставления.
Если дважды щелкнуть запись в таблице результатов сопоставления, в DQS появится всплывающее окно Подробные сведения о показателе сопоставления , в котором отображаются сводная и исходная записи, а также значения во всех их полях, показатель между ними и углубленная детализация сопоставления записи. Детализация выводит значения в каждом поле сводной и исходной записи, чтобы вы могли их сравнить, и отображает показатель сопоставления, который каждое поле вносит в общий показатель сопоставления этих двух записей.
Просмотрите статистику на вкладках Профилировщик и Результаты сопоставления , чтобы убедиться в правильности получаемых результатов. Дополнительные сведения см. в статье Вкладки «Профилировщик» и «Результаты».
Если правило необходимо изменить, измените его в редакторе правил и нажмите кнопку Перезапустить.
Примечание.
После выполнения первого анализа данных кнопка Пуск превратится в кнопку Перезапустить . Если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить происходит потеря ранее полученных данных. Во время выполнения анализа не уходите с этой страницы, поскольку процесс анализа будет прекращен.
На вкладке Результаты сопоставления отображается статистика двух последних запусков правил. При запуске правила сопоставления несколько раз с различными параметрами сравните статистические данные текущего и предыдущего правила. Если предыдущее правило дает лучшие результаты, нажмите кнопку Восстановить предыдущее правило , чтобы восстановить условия предыдущего правила и вернуть правило в его предыдущее состояние до изменения. Условия текущего правила будут потеряны. Это позволит настроить политику на основе последних двух запусков сопоставления, тем самым сокращая время, затрачиваемое на настройку политики сопоставления.
Для добавления другого правила в политику сопоставления повторите шаг 1.
Нажмите кнопку Далее , чтобы перейти к стадии результатов сопоставления.
Этап результатов сопоставления
Вы можете проверить все правила сопоставления одновременно на странице Результаты сопоставления. Прежде чем это сделать, вы можете указать, чтобы тестовый запуск правила определял перекрывающиеся или неперекрывающиеся кластеры. При многократном запуске правил вы можете выполнить правило на данных, повторно загруженных из исходных или предыдущих данных.
При проверке правил сопоставления на странице Результаты сопоставления можно просматривать таблицу результатов сопоставления, в которой отображаются кластеры, идентифицируемые DQS для всех правил. В таблице отображаются все записи в кластере со значениями домена сопоставления и показателями сопоставления, а также исходная сводная запись для кластера. Также вы можете отобразить профилирование данных для правил сопоставления в целом, условия в каждом правиле сопоставления и статистические данные по результатам всех правил сопоставления.
На странице Результаты сопоставления выберите из раскрывающегося списка пункт Перекрывающиеся кластеры для отображения эталонных записей и следующих записей для всех кластеров при выполнении сопоставления, даже если группы кластеров имеют общие записи. Для отображения кластеров, которые имеют общие записи, в качестве единого кластера при выполнении сопоставления выберите пункт Неперекрывающиеся кластеры .
Для копирования данных из источника данных в промежуточную таблицу и их повторной индексации при выполнении политики сопоставления щелкните Перезагрузить данные из источника . Для запуска политики сопоставления без копирования данных в промежуточную таблицу и повторной индексации данных щелкните Выполнить на предыдущих данных . Опция Выполнить на предыдущих данных отключена при первом запуске политики сопоставления или если вы изменяете сопоставление на странице Сопоставление, а затем нажимаете Да во всплывающем окне. В обоих этих случаях необходимо произвести повторную индексацию. Нет необходимости в выполнении повторной индексации, если политика сопоставления не была изменена. Выполнение на основе предыдущих данных может повысить производительность.
Нажмите кнопку Пуск , чтобы запустить процесс сопоставления для всех определенных правил. В таблице Результаты сопоставления отображаются идентификатор записи, количество кластеров и столбцы данных (в том числе те, которые не входят в правило сопоставления) для каждой записи в кластере. Старшая запись в кластере выбирается случайным образом. (Вы определяете выживающую запись, выбрав правило выживаемости на странице Экспорт при запуске соответствующего проекта.) Каждая дополнительная строка в кластере считается дубликатом; её соответствующая оценка (по сравнению с опорной записью) предоставляется в таблице результатов.
С данными в таблице Результаты сопоставления вы можете работать следующим образом.
В пункте Фильтрациявыберите Соответствует для отображений всех совпадающих строк и их показателей. Строки, которые считаются несовпадающими (с показателем совпадения меньше, чем минимальный показатель совпадения), не отображаются в таблице результатов совпадения. Выберите пункт Не соответствует, чтобы показать все несовпадающие, а не совпадающие строки.
В раскрывающемся списке Процент выберите процент из выпадающего списка с шагом 5. Все строки с показателем совпадения большим или равным этому проценту будут отображены в таблице результатов сопоставления.
Если дважды щелкнуть запись в таблице результатов сопоставления, в DQS появится всплывающее окно Подробные сведения о показателе сопоставления , в котором отображаются сводная и исходная записи, а также значения во всех их полях, показатель между ними и углубленная детализация сопоставления записи. Развертывание показывает значения в каждом поле сводной и исходной записи, чтобы вы могли сравнить их, и показывает оценку соответствия, которую каждое поле вносит в общую оценку соответствия для этих двух записей.
Просмотрите статистику на вкладках Профилировщик и Результаты сопоставления , чтобы убедиться в правильности получаемых результатов. Перейдите на вкладку Правила сопоставления , чтобы посмотреть настройки домена для каждого правила. Дополнительные сведения см. в статье Вкладки «Профилировщик» и «Результаты».
Если результаты всех правил окажутся неудовлетворительными, нажмите кнопку Назад для возврата на страницу Политики сопоставления , требуемым образом измените одно или несколько правил, вернитесь на страницу Результаты сопоставления и нажмите кнопку Перезапустить.
Примечание.
После завершения анализа данных кнопка Пуск преобразуется в кнопку Перезапустить . Если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить происходит потеря ранее полученных данных.
Если результат всех правил окажется удовлетворительным, нажмите кнопку Готово для завершения процесса политики сопоставления, затем нажмите одну из следующих кнопок.
Да — опубликовать базу знаний и выйти: база знаний будет опубликована и доступна для использования текущим пользователем или другими пользователями. База знаний не будет заблокирована, ее состояние (в таблице баз знаний) будет пустым. Будут доступны как операция управления доменами, так и операция обнаружения набора знаний. Пользователь возвращается на экран открытия базы знаний.
Нет — сохранить работу в базе знаний и выйти: работа сохраняется, база знаний остается заблокированной, а ее состояние отображается как В работе. Будут доступны как операция управления доменами, так и операция обнаружения знаний. Вы будете возвращены на главную страницу.
Отмена — остаться на текущем экране: всплывающее окно закрывается, выполняется возврат на экран управления доменами.
Нажмите кнопку Закрыть , чтобы сохранить результаты работы и вернуться на домашнюю страницу DQS. Состояние базы знаний отобразит строку "Политика сопоставления — " и текущее состояние. После нажатия кнопки Закрыть в окне Результаты сопоставления отобразится состояние: «Политика сопоставления — результаты». После нажатия кнопки "Закрыть" в окне Политика сопоставления отобразится состояние: "Политика сопоставления — Политика сопоставления". После нажатия кнопки Закрытьдля выполнения операции Обнаружение знаний придется вернуться к операции Политика сопоставления . Нажмите кнопку Готово, затем либо кнопку Да для публикации базы знаний, либо Нет , чтобы сохранить работу в базе знаний и выйти.
Примечание.
При нажатии кнопки Закрыть во время работы процесса сопоставления этот процесс не будет прерван при нажатии кнопки Закрыть. Вы можете повторно открыть базу знаний и обнаружить, что процесс все еще выполняется, или, если процесс завершен, просмотреть отображаемые результаты. Если процесс не завершен, на экране будет отображен ход выполнения.
Нажмите Отмена, чтобы прервать действие, связанное с политикой сопоставления, потерять ваши результаты и вернуться на домашнюю страницу DQS.
Дальнейшие действия. После создания политики сопоставления
После создания политики сопоставления можно запустить проект сопоставления на основе базы знаний, которая содержит политику сопоставления. Дополнительные сведения см. в статье Запуск проекта сопоставления.
Вкладки Профилировщика и Результатов
Вкладки «Профилировщик» и «Результаты» содержат статистические данные страниц «Политика сопоставления» и «Результаты сопоставления».
Вкладка «Профилировщик»
Перейдите на вкладку Профилировщик , чтобы отобразить статистические данные для базы данных-источника и для каждого поля, входящего в правило политики. Статистические данные будут обновляться по мере выполнения правила политики.
Дополнительные сведения о том, как интерпретировать следующую статистику, см. в разделе Как задать параметры правил сопоставления.
К статистическим данным базы данных-источника относятся следующие данные.
Записи. Общее количество записей в базе данных-источнике.
Всего значений. Общее число значений в полях источника данных.
Новые значения. Общее число значений, которые являются новыми после предыдущего запуска, и их процент от целого.
Уникальные значения. Общее количество уникальных значений в полях и их процент от целого.
Новые уникальные значения. Общее количество уникальных значений, которые являются новыми в полях, и их процент от целого.
Статистические данные поля включают следующее:
Имя поля
Доменное имя
Новые: Количество новых значений и процент новых значений по сравнению с существующими значениями в домене.
Уникальный. Количество уникальных записей в поле и их процент от общего количества.
Полнота: Полнота каждого поля-источника, которое сопоставляется в процессе сопоставления.
Уведомления о политике сопоставления
Следующие условия в рамках политики сопоставления приводят к уведомлениям.
Поле не заполнено во всех записях. Рекомендуется исключить его из сопоставления.
Показатель полноты поля очень низкий. Может потребоваться исключение этого поля из сопоставления.
Все значения в поле являются недопустимыми. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.
В этом поле низкий уровень допустимых значений. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.
В этом поле высокий уровень уникальности. С помощью этого поля в политике сопоставления можно уменьшить количество результатов сопоставления.
Вкладка «Результаты сопоставления»
Перейдите на вкладку Результаты сопоставления , чтобы отобразить статистические данные для запуска правила политики сопоставления и запуска предыдущего правила сопоставления. При неоднократном запуске одного правила с различными параметрами в таблице результатов сопоставления будут отображены статистические данные для обоих запусков, что позволит выполнить их сравнение. Кроме того, при желании вы можете восстановить предыдущее правило.
К статистическим данным относятся следующие данные.
Общее количество записей в базе данных
Общее количество записей сопоставления в базе данных
Количество записей в базе данных, которые не считаются повторяющимися
Количество обнаруженных кластеров
Средний размер кластера (количество повторяющихся записей, деленное на количество кластеров)
Наименьшее число дубликатов в кластере
Наибольшее число дубликатов в кластере