Как определить аналогичные строки данных при помощи преобразования «Нечеткое группирование»
Перед добавлением и настройкой преобразования «Нечеткое группирование» в пакете уже должен содержаться хотя бы один источник и задача «Поток данных».
Включение преобразования «Нечеткое группирование» в поток данных
В среде Business Intelligence Development Studio откройте проект служб Integration Services, содержащий необходимый пакет.
Чтобы открыть пакет, дважды щелкните его в обозревателе решений.
Перейдите на вкладку Поток данных, а затем из области элементов перетащите преобразование «Нечеткое группирование» в область конструктора.
Подключите преобразование к потоку данных, перетащив соединитель — зеленую или красную стрелку — от источника данных или существующего преобразования на преобразование «Нечеткое группирование».
Дважды щелкните преобразование «Нечеткое группирование».
В диалоговом окне Редактор преобразования «Нечеткое группирование» на вкладке Диспетчер соединений выберите диспетчер соединений OLE DB, подключающийся к базе данных SQL Server 2005.
Примечание. Соединение с базой данных SQL Server 2005 требуется преобразованию для создания временных таблиц и индексов. Щелкните вкладку Столбцы и в списке Доступные входные столбцы установите флажок для входных столбцов, в которых будет производиться поиск похожих строк в наборе данных.
Установите флажок в столбце Передать для передачи входных столбцов на выход преобразования. Передаваемые столбцы не включаются в процесс выявления повторяющихся строк.
Примечание. Входные столбцы, используемые для группирования, автоматически помечаются в качестве сквозных, и эти флажки не могут быть сняты. Существует дополнительная возможность обновления имен выходных столбцов в столбце Псевдоним выхода.
Можно также изменить имена очищенных столбцов в столбце Псевдоним выхода групп.
Примечание. По умолчанию столбцам присваиваются имена входных столбцов с суффиксом «_clean». Можно изменить используемый тип соответствия в столбце Тип совпадения.
Примечание. Хотя бы один из столбцов должен использовать нечеткое соответствие. Укажите в столбце Минимальное подобие уровень минимального подобия столбцов. Это значение должно находиться в диапазоне от 0 до 1. Чем больше значение, тем более похожими должны быть значения входных столбцов для объединения в группы. Значение минимального подобия, равное 1, указывает на четкое соответствие.
Можно также изменить имена столбцов подобия в столбце Псевдоним выхода подобия.
Для указания обработки чисел в значениях данных измените значения в столбце Числовые значения.
Чтобы указать, каким образом преобразование сравнивает символьные данные в столбце, измените установленные по умолчанию параметры сравнения в столбце Флаги сравнения.
Щелкните вкладку Дополнительно, чтобы изменить имена столбцов, которые преобразование добавляет к выходу для уникального идентификатора строки (_key_in), идентификатора повторяющейся строки (_key_out) и значения подобия (_score).
При желании можно отрегулировать порог подобия при помощи ползунка.
Можно также сбросить флажки разделителей лексем, чтобы игнорировать разделители в данных.
Нажмите ОК.
Чтобы сохранить обновленные пакеты, щелкните Сохранить выбранные элементы в меню Файл.
См. также
Основные понятия
Преобразование «Нечеткое группирование»
Преобразования служб Integration Services
Пути служб Integration Services
Задача «Поток данных»
Разделы руководства по потоку данных (службы SSIS)
Другие ресурсы
Источники служб Integration Services
Целевые объекты служб Integration Services