Как определить аналогичные строки данных при помощи преобразования «Нечеткое группирование»

Статья
12/15/2008

Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача «Поток данных».

Включение преобразования «Нечеткое группирование» в поток данных

В среде Business Intelligence Development Studio откройте проект служб Integration Services, содержащий необходимый пакет.
Чтобы открыть пакет, дважды щелкните его в обозревателе решений.
Перейдите на вкладку Поток данных, а затем из области элементов перетащите преобразование «Нечеткое группирование» в область конструктора.
Подключите преобразование к потоку данных, перетащив соединитель — зеленую или красную стрелку — от источника данных или существующего преобразования на преобразование «Нечеткое группирование».
Дважды щелкните преобразование «Нечеткое группирование».

В диалоговом окне Редактор преобразования «Нечеткое группирование» на вкладке Диспетчер соединений выберите диспетчер соединений OLE DB, подключающийся к базе данных SQL Server 2005.

Примечание.
Соединение с базой данных SQL Server 2005 требуется преобразованию для создания временных таблиц и индексов.

Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.

Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.

Примечание.
Входные столбцы, используемые для группирования, автоматически помечаются в качестве сквозных, и эти флажки не могут быть сняты.

Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода.
Можно также изменить имена очищенных столбцов в столбце Псевдоним выхода групп.

Примечание.

По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».
Можно изменить используемый тип соответствия в столбце Тип совпадения.

Примечание.

Хотя бы один из столбцов должен использовать нечеткое соответствие.
Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Это значение должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.
Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия.
Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения.
Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения.
Щелкните вкладку Дополнительно, чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).
При желании можно отрегулировать порог подобия при помощи ползунка.
Можно также сбросить флажки разделителей лексем, чтобы игнорировать разделители в данных.
Нажмите ОК.
Чтобы сохранить обновленные пакеты, щелкните Сохранить выбранные элементы в меню Файл.

Примечание.
По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean».

Примечание.
Хотя бы один из столбцов должен использовать нечеткое соответствие.

См. также

Поделиться через

Как определить аналогичные строки данных при помощи преобразования «Нечеткое группирование»

Включение преобразования «Нечеткое группирование» в поток данных

См. также

Основные понятия

Другие ресурсы

Справка и поддержка

Дополнительные ресурсы