преобразование «Извлечение терминов»

Статья
05/23/2023

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Преобразование «Извлечение терминов» извлекает термины из текста во входном столбце преобразования, а затем записывает термины в выходной столбец преобразования. Это преобразование работает только с англоязычным текстом и использует собственный словарь и лингвистические сведения об английском языке.

Можно использовать преобразование «Извлечение терминов» для выяснения содержимого набора данных. Например, текст, содержащий сообщения электронной почты, предоставит полезные сведения о продуктах, поэтому можно использовать преобразование «Извлечение терминов», чтобы извлечь обсуждаемые в сообщениях темы для последующего анализа информации.

Извлеченные термины и типы данных

Преобразование «Извлечение терминов» может извлекать только существительные, только субстантивные словосочетания или как существительные, так и именные словосочетания. Субстантивные словосочетания состоят как минимум из двух слов, одно из которых — имя существительное, а другое — существительное или прилагательное. Например, если преобразование настроено на извлечение только существительных, оно извлекает такие термины, как bicycle и landscape; если же преобразование настроено на извлечение субстантивных словосочетаний, оно извлекает такие термины, как new blue bicycle, bicycle helmetи boxed bicycles.

Артикли и местоимения не извлекаются. Например, преобразование «Извлечение терминов» извлекает термин bicycle из текста the bicycle, my bicycleи that bicycle.

Преобразование «Извлечение терминов» формирует оценку каждого извлеченного термина. Оценка может быть либо значением TFIDF, либо просто частотой, то есть количеством появлений нормализованного термина во входных текстах. В любом случае оценка представляется положительным вещественным числом. Например, оценка TFIDF может иметь значение 0,5, а частота может иметь значение 1,0 или 2,0.

Выход преобразования «Извлечение терминов» включает только два столбца. Один столбец содержит извлеченные термины, а другой — их оценку. По умолчанию столбцы называются Term и Score. Текстовый столбец входа может содержать несколько терминов, поэтому на выходе преобразования «Извлечение терминов» обычно получается больше строк, чем на входе.

Если извлеченные термины записываются в таблицу, они могут быть использованы другим преобразованием, таким как преобразование «Поиск терминов», «Нечеткий поиск» или «Уточняющий запрос».

Преобразование «Извлечение терминов» работает только с текстом в столбцах, имеющих тип данных DT_WSTR или DT_NTEXT. Если столбец содержит текст, но относится к другому типу данных, можно воспользоваться преобразованием «Конвертация данных» для добавления столбца с типом данных DT_WSTR или DT_NTEXT к потоку данных и для копирования значений столбца в новый столбец. Выход преобразования «Конвертация данных» может быть использован как вход для преобразования «Извлечение терминов». Дополнительные сведения см. в статье Data Conversion Transformation.

Исключаемые термины

При желании преобразование «Извлечение терминов» может ссылаться на столбец в таблице, содержащий исключаемые термины, то есть термины, которые преобразование должно пропускать при извлечении терминов из набора данных. Это полезно, когда существует набор терминов, уже обозначенных как несущественные в том или ином бизнесе или индустрии — обычно из-за того, что термин встречается так часто, что становится неучитываемым словом. Например, при извлечении терминов из набора данных, который содержит сведения о поддержке пользователей для отдельной марки машины, само название марки может быть исключено, так как оно встречается слишком часто, чтобы иметь значение. Таким образом, значения в списке исключений должны иметь непосредственное отношение к набору данных, который обрабатывается.

При добавлении термина в список исключений все содержащие его термины, будь то слова или субстантивные словосочетания, также исключаются. Например, если список исключений содержит единственное слово data, все термины, содержащие это слово, такие как data, data mining, data integrityи data validation , тоже будут исключаться. Если надо исключить только сложные слова, содержащие слово data, следует явным образом добавить эти составные термины в список исключений. Например, если надо извлекать вхождения слова data, но исключать data validation, то следует добавить data validation в список исключений и убедиться, что слово data удалено из списка.

Эталонная таблица должна быть таблицей в SQL Server или базе данных Access. Преобразование «Извлечение терминов» использует отдельное соединение OLE DB для подключения к ссылочной таблице. Дополнительные сведения см. в разделе Диспетчер соединений OLE DB.

Преобразование «Извлечение терминов» работает в режиме с полным предварительным кэшированием. Во время выполнения преобразование «Извлечение терминов» считывает термины-исключения из ссылочной таблицы и сохраняет их в собственной памяти, перед тем как приступать к обработке входных строк преобразования.

Извлечение терминов из текста

Чтобы извлечь термины из текста, преобразование «Извлечение терминов» выполняет следующие задачи.

Идентификация слов

Сначала преобразование «Извлечение терминов» идентифицирует слова путем выполнения следующих задач.

Разделение текста на слова с использованием пробелов, знаков конца строки и других признаков конца слов в английском языке. Например, знаки препинания, такие как ? и :, являются символами-разделителями слов.
Сохранение слов, соединенных дефисами и символами подчеркивания. Например, слова copy-protected и read-only остаются одним словом.
Сохранение акронимов, включающих точки. Например, A.B.C Company будет маркировано как ABC и Company.
Разделение слов специальными символами. Например, слово date/time извлекается как date и time, (bicycle) — как bicycle, а C# рассматривается как C. Специальные символы пропускаются и не могут быть использованы.
Распознавание случаев, когда специальные символы, такие как апостроф, не разбивают слова. Например, слово bicycle's не разбивается на два слова, а преобразуется в единственный термин bicycle (существительное).
Разделение выражений времени, денежных сумм, адресов электронной почты и почтовых адресов. Например, дата January 31, 2004 разделяется на три токена: January, 31и 2004.

Помеченные слова

Во-вторых, преобразование «Извлечение терминов» помечает слова как следующие части речи.

Существительное в единственном числе. Например, bicycle и potato.
Существительное во множественном числе. Например, bicycles и potatoes. Все существительные во множественном числе, которые не приведены к словарной форме, приводятся к корневой форме.
Имя собственное в единственном числе. Например, April и Peter.
Имя собственное во множественном числе. Например, Aprils и Peters. Чтобы имя собственное приводилось к корневой форме, оно должно быть частью внутреннего лексикона, ограниченного обычными словами английского языка.
Прилагательное. Например, blue.
Прилагательное в сравнительной степени, сравнивающее две вещи. Например, higher и taller.
Прилагательное в превосходной степени, определяющее вещь, имеющую качество высшего или низшего уровня. Например, highest и tallest.
Числительное. Например, 62 и 2004.

Слова, не являющиеся этими частями речи, не учитываются. Например, не учитываются глаголы и местоимения.

Примечание.

Разметка частей речи основана на статистической модели и может быть не вполне точной.

Если преобразование «Извлечение терминов» настроено на извлечение лишь существительных, то извлекаются только те слова, которые помечены как существительные или имена собственные в единственном и множественном числе.

Если преобразование «Извлечение терминов» настроено на извлечение только именных словосочетаний, то слова, помеченные как существительные, имена собственные, прилагательные и числительные, могут быть скомбинированы в субстантивное словосочетание, но словосочетание должно содержать как минимум одно слово, помеченное как существительное или имя собственное в единственном или множественном числе. Например, субстантивное словосочетание highest mountain содержит слово, помеченное как прилагательное превосходной степени (highest), и слово, помеченное как существительное (mountain).

Если преобразование «Извлечение терминов» настроено на извлечение и существительных, и субстантивных словосочетаний, то применяются оба правила. Например, преобразование извлекает bicycle и beautiful blue bicycle из текста many beautiful blue bicycles.

Примечание.

Извлекаемые термины подвергаются проверке порогов максимальной длины термина и частоты, используемых преобразованием.

Слова, приведенные к корневым формам

Преобразование «Извлечение терминов» также выделяет основу существительных, чтобы извлекать только существительные в единственном числе. Например, преобразование извлекает man из men, mouse из miceи bicycle из bicycles. Для приведения слов к их корневым формам преобразование использует словарь. Герундий, обнаруженный в словаре, рассматривается как существительное.

Преобразование «Извлечение терминов» приводит слова к словарной форме с использованием внутреннего словаря, как показано в следующих примерах.

Удаление s из существительных (английская форма множественного числа). Например, bicycles становится bicycle.
Удаление s из существительных (английская форма множественного числа). Например, stories становится story.
Извлечение единственного числа для неправильных форм множественного числа существительных из словаря. Например, geese становится goose.

Нормализованные слова

Преобразование «Извлечение терминов» нормализует термины, написанные с прописной буквы только из-за их позиции в предложении, и использует их строчную форму. Например, во фразах Dogs chase cats и Mountain paths are steepтермины Dogs и Mountain будут нормализованы в dog и mountain.

Преобразование «Извлечение терминов» нормализует слова таким образом, что версии написания слова прописными и строчными буквами не рассматривается как различные термины. Например, в текстах You see many bicycles in Seattle и Bicycles are blueтермины bicycles и Bicycles распознаются как один и тот же термин, и преобразование оставляет только bicycle. Имена собственные и слова, не содержащиеся во внутреннем словаре, не нормализуются.

Нормализация с учетом регистра

Преобразование «Извлечение терминов» может быть настроено таким образом, чтобы рассматривать слова в нижнем и верхнем регистрах как различные термины или как различные варианты одного и того же термина.

Если преобразование настроено на распознавание различий в регистре, то такие термины, как Method и method , извлекаются как различные. Слова, написанные с прописной буквы и не являющиеся первыми в предложении, не нормализуются и помечаются как имена собственные.
Если преобразование настроено так, что не учитывает регистр, то такие термины, как Method и method , извлекаются как один термин. Список извлеченных терминов может включать Method или methodв зависимости от того, какое слово первым появилось во входном наборе данных. Если слово Method написано с прописной буквы только из-за того, что является первым в предложении, оно извлекается в нормализованной форме.

Границы слов и предложений

Преобразование «Извлечение терминов» разделяет текст на предложения с использованием следующих символов в качестве границ предложений.

Символы разбиения строк ASCII 0x0d (возврат каретки) и 0x0a (перевод строки). Эти символы используются как граница предложения, когда в строке идут два или более подобных символа подряд.
Дефисы (-). Этот символ может служить границей предложения, если символы слева и справа не являются буквами.
Подчеркивание (_). Этот символ может служить границей предложения, если символы слева и справа не являются буквами.
Все символы Юникод с кодами, меньшими или равными 0x19 или большими или равными 0x7b.
Сочетания чисел, знаков препинания и символов алфавита. Например, A23B#99 возвращает термин A23B.
Символы, %, @, &, $, #, *, :, ;, ., , , ?,<, >, +, =, ^, ~, |, \, (, (), [, ], {, }, ", " и ".

Примечание.

Акронимы, включающие одну или более точек (.), не разделяются на несколько предложений.

Затем преобразование «Извлечение терминов» разделяет предложение на слова, используя следующие границы слов:

Space
Вкладка
ASCII 0x0d (возврат каретки);
ASCII 0x0a (перевод строки).

Примечание.

Если апостроф найден в слове, которое является сокращением, таким как we're или it's, слово разбивается на апострофе; в противном случае буквы после апострофа удаляются. Например, we're разбивается на we и 're, а bicycle's сокращается до bicycle.

Конфигурация преобразования «Извлечение терминов»

Преобразование «Извлечение терминов» использует внутренние алгоритмы и статистические модели для создать результатов. Возможно, понадобится несколько раз запустить преобразование «Извлечение терминов» и изучить полученные результаты, чтобы настроить преобразование таким образом, чтобы оно формировало приемлемые результаты для решения интеллектуального анализа текста.

Преобразование «Извлечение терминов» имеет один стандартный вход, один выход и один выход ошибок.

Свойства могут быть заданы с помощью конструктора SSIS или программным путем.

Дополнительные сведения о свойствах, которые вы можете задать в диалоговом окне Расширенный редактор или программными средствами, см. в следующих разделах.

Дополнительные сведения о настройке свойств см. в разделе Установление свойств компонента потока данных.

Редактор преобразования «Извлечение терминов» (вкладка «Извлечение терминов»)

Вкладка Извлечение терминов диалогового окна Редактор преобразования «Извлечение терминов» служит для указания текстового столбца, из которого будет извлекаться текст.

Параметры

Доступные входные столбцы
С помощью флажков выберите отдельные текстовые столбцы для извлечения терминов.

Термин
Введите имя выходного столбца с извлеченными терминами.

Балл
Введите имя выходного столбца с оценками каждого извлеченного термина.

Настройка вывода ошибок
Используйте диалоговое окно Настройка вывода ошибок для указания метода обработки ошибок для строк, вызвавших ошибку.

Редактор преобразования «Извлечение терминов» (вкладка «Исключения»)

Используйте вкладку Исключение в диалоговом окне Редактор преобразования «Извлечение терминов» для установки соединения с таблицей исключений и указания столбцов, в которых содержатся исключаемые термины.

Параметры

Использовать исключаемые термины
Укажите, необходимо ли исключать определенные термины в процессе извлечения терминов, определив столбцы, содержащие исключаемые термины. Необходимо указать следующие свойства источника, если принято решение исключать термины.

Диспетчер соединений OLE DB
Выберите существующий диспетчер соединений OLE DB или создайте новое соединение, выбрав Создать.

Новый
Создайте новое соединение с базой данных, используя диалоговое окно Настройка диспетчера соединений OLE DB .

Таблица или представление
Выберите таблицу или представление, которое содержит исключаемые термины.

Столбец
Выберите столбец в таблице или представлении, который содержит исключаемые термины.

Редактор преобразования «Извлечение терминов» (вкладка «Дополнительно»)

Вкладка Дополнительно диалогового окна Редактор преобразования «Извлечение терминов» используется для задания свойств извлечения, таких как частота, длина и предмет извлечения (слова или фразы).

Параметры

Имя существительное
Указывает, что при преобразовании будут извлекаться только отдельные существительные.

Субстантивное словосочетание
Указывает, что при преобразовании будут извлекаться только субстантивные словосочетания.

Имя существительное и субстантивное словосочетание
Указывает, что при преобразовании будут извлекаться как существительные, так и субстантивные словосочетания.

Периодичность
Указывает, что целевой функцией является частота термина.

TFIDF
Указывает, что целевой функцией является значение TFIDF термина. Функция TFIDF расшифровывается как "частота термина и обратная частота документа" (Term Frequency and Inverse Document Frequency) и определяется формулой: TFIDF термина T = (частота_T) * log (#число_строк_во_входных_данных) / (#число_строк_включающих_T)

Порог частоты
Позволяет задать число вхождений слова или фразы, необходимое для их извлечения. Значение по умолчанию равно 2.

Максимальная длина термина
Позволяет задать максимальную длину фразы или слова. Этот параметр затрагивает только субстантивные словосочетания. Значение по умолчанию — 12.

Учитывать регистр при извлечении терминов
Указывает, будет ли учитываться регистр при извлечении. По умолчанию False.

См. также

Справочник по сообщениям об ошибках служб Integration Services
Преобразование "Уточняющий запрос термина"

Поделиться через

преобразование «Извлечение терминов»

Извлеченные термины и типы данных

Исключаемые термины

Извлечение терминов из текста

Идентификация слов

Помеченные слова

Слова, приведенные к корневым формам

Нормализованные слова

Нормализация с учетом регистра

Границы слов и предложений

Конфигурация преобразования «Извлечение терминов»

Редактор преобразования «Извлечение терминов» (вкладка «Извлечение терминов»)

Параметры

Редактор преобразования «Извлечение терминов» (вкладка «Исключения»)

Параметры

Редактор преобразования «Извлечение терминов» (вкладка «Дополнительно»)

Параметры

См. также

Обратная связь

Дополнительные ресурсы