Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Преобразование «Уточняющий запрос термина» сопоставляет термины, извлеченные из текста во входном столбце преобразования, с терминами, содержащимися в ссылочной таблице. Затем оно подсчитывает количество найденных терминов в таблице уточняющих запросов входного набора данных и записывает количество повторений вместе с термином из ссылочной таблицы в столбец на выходе преобразования. Это преобразование полезно для создания пользовательского списка слов на основе входного текста, дополненного статистикой повторяемости слова.
Перед тем как преобразование «Уточняющий запрос термина» выполнит поиск, оно извлекает слова из текста входного столбца, используя тот же метод, что и преобразование «Извлечение терминов».
Текст разбивается на предложения.
Предложения разбиваются на слова.
Слова нормализуются.
Для дальнейшего уточнения искомых термов преобразование «Уточняющий запрос термина» может быть настроено для выполнения поиска совпадений с учетом регистра.
Совпадает
Преобразование «Уточняющий запрос термина» выполняет операцию поиска и затем возвращает значение, используя следующие правила.
Если преобразование настроено для проведения поиска, чувствительного к регистру, то совпадения с отличающимся регистром не учитываются. Например, ученик и УЧЕНИК считаются разными словами.
Примечание
Слово, начинающееся с заглавной буквы в начале предложения, может быть признано совпадающим со словом, начинающимся со строчной буквы. Например, совпадение между ученик и Ученик признается действительным, если Ученик является первым словом предложения.
Если множественное число существительного или субстантивное словосочетание существует в ссылочной таблице, то уточняющий запрос учитывает совпадение существительного или словосочетания с ним только во множественном числе. Например, все экземпляры слова ученики будут рассматриваться отдельно от экземпляров слова ученик.
Если в ссылочной таблице найдено слово только в единственном числе, то совпадениями будут признаны слова и во множественном, и в единственном числе. Например, если таблица уточняющих запросов содержит ученики преобразование находит слова ученик и ученики, то оба слова будут считаться соответствиями искомого термина ученик.
Если текст входного столбца является аннотированной фразой с существительным, то нормализации подвергается только последнее слово субстантивного словосочетания. Например, аннотированной версией фразы предписания врачей является предписание врача.
Когда искомый элемент содержит термины, которые перекрываются в эталонном наборе, то есть элемент термина найден более чем в одной эталонной записи, то преобразование "Уточняющий запрос термина" возвращает только один результат поиска. В следующем примере показан результат, когда искомый термин содержит перекрывающийся элемент. В этом случае перекрывающийся элемент — Windows, который найден в двух эталонных терминах. Однако преобразование возвращает не два результата, а только один эталонный термин, Windows. Второй эталонный термин, Windows 7 Профессиональная, не возвращается.
Элемент | Значение |
---|---|
Входной термин | Windows 7 Профессиональная |
Эталонные термины | Windows, Windows 7 Профессиональная |
Выходные данные | Windows |
Преобразование «Уточняющий запрос термина» может сопоставлять существительные и субстантивные словосочетания, которые содержат специальные символы, и данные в ссылочной таблице также могут содержать эти символы. Специальные символы: %, @, &, $, #, *, :, ;, ., , , , ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", и '.
Типы данных
В преобразовании «Уточняющий запрос термина» может использоваться только столбец, содержащий данные типа DT_WSTR или DT_NTEXT. Если столбец содержит текст, не принадлежащий ни к одному из этих типов данных, то преобразование «Конвертация данных» может добавить столбец с типом данных DT_WSTR или DT_NTEXT к потоку данных и скопировать значения столбца в этот новый столбец. Выходные данные преобразования «Конвертация данных» могут быть использованы в качестве входных данных преобразования «Уточняющий запрос термина». Дополнительные сведения см. в статье Data Conversion Transformation.
Настройка преобразования «Уточняющий запрос термина»
Преобразование "Уточняющий запрос термина" содержит свойство InputColumnType, которое указывает назначение столбца. InputColumnType может содержать следующие значения:
значение 0 указывает, что столбец передан сразу на выход и не использовался в уточняющем запросе;
значение 1 указывает, что столбец использовался только в уточняющем запросе;
значение 2 указывает, что столбец передан на выход и также был использован в уточняющем запросе.
Выходные столбцы преобразования, для свойства InputColumnType которых задано значение 0 или 2, содержат свойство CustomLineageID столбца, в котором хранится идентификатор журнала обращений и преобразований, назначенный столбцу компонентом восходящего потока данных.
Преобразование «Уточняющий запрос термина» добавляет два столбца в вывод преобразования с именами по умолчанию Term
и Frequency
. Столбец Term
содержит термин из таблицы подстановки, а столбец Frequency
— количество вхождений термина из ссылочной таблицы во входном наборе данных. Эти столбцы не содержат свойство CustomLineageID.
Таблица подстановки должна быть таблицей из базы данных SQL Server или Access. Если выход преобразования «Извлечение терминов» сохраняется в таблице, то эта таблица может быть использована в качестве ссылочной, однако можно использовать и другие таблицы. Перед использованием преобразования «Уточняющий запрос термина», текст неструктурированных файлов, рабочие книги Excel или другие источники должны быть импортированы в базу данных SQL Server или базу данных Access.
Преобразование «Уточняющий запрос термина» использует отдельное соединение OLE DB для подключения к ссылочной таблице. Дополнительные сведения см. в разделе Диспетчер соединений OLE DB.
Преобразование «Уточняющий запрос термина» работает в режиме полного предварительного кэширования. Во время выполнения преобразование «Уточняющий запрос термина» производит чтение терминов из ссылочной таблицы и перед обработкой входных строк преобразования сохраняет их в своей собственной памяти.
Так как термины строки входного столбца могут повторяться, обычно выходные данные преобразования «Уточняющий запрос термина» содержат больше строк, чем входные.
Преобразование имеет один вход и один выход. Оно не поддерживает выход ошибок.
Значения свойств можно задавать с помощью конструктора Integration Services или программными средствами.
Дополнительные сведения о свойствах, которые можно установить в диалоговом окне Редактор преобразования «Уточняющий запрос термина» , см. в следующих разделах:
Редактор преобразования «Уточняющий запрос терминов» (вкладка «Ссылочная таблица»)
Редактор преобразований «Уточняющий запрос термина» (вкладка «Уточняющий запрос термина»)
Редактор преобразования «Уточняющий запрос термина» (вкладка «Дополнительно»)
Дополнительные сведения о свойствах, которые вы можете задать в диалоговом окне Расширенный редактор или программными средствами, см. в следующих разделах.
Дополнительные сведения о настройке свойств см. в разделе Установление свойств компонента потока данных.