Поделиться через


Нормализация форм Surface

Хотя слова и лингвистические правила существенно различаются, существуют некоторые факторы, такие как числа, даты и время, которые обрабатываются согласованно во всех разбиениях по словам. В этом разделе приводятся рекомендации по нормализации, которые могут повлиять на реализацию средства разбиения по словам.

Эта тема организована следующим образом:

Переносов

Дефисы (-) используются между частями составного слова или имени. Они также используются между слогами слова, когда слово делится в конце строки текста. В английском языке слова объединяются дефисами для обозначения особой связи в контексте, но эти слова обычно не могут быть дефисами в других контекстах; Например, "step-by-step". Во время создания индекса средство разбиения по словам должно рассматривать дефис как разделитель слов. Например, "база данных" будет храниться как "данные" и "база". Во время запроса фраза с дефисом должна быть заменена двумя альтернативами: вариантом из двух слов и истинным соединением. Например, слово "база данных" будет заменено на "data" и "base" и "database". Эта разница между индексом и временем запроса увеличивает комбинации представлений для слов с переносами и упрощает сопоставление слов в запросе.

В следующей таблице показано, как использование дефисов в качестве разделителей слов на английском языке увеличивает количество совпадаемых терминов запроса для каждого термина, включенного в индекс.

Термины, включенные в индекс Совпадения во время запроса
База данных база данных, база данных
База данных база данных, база данных
База данных база данных, база данных

 

Притяжательные

Притяжательные — это вариации существительного, указывающие на владение. Английские притяжательные представлены добавлением апострофа (') или апострофа и s ('s) к слову. Например, чтобы указать владение, слово "Мэри" представляется как "Мария". Средство разбиения по словам создает формы апострофа и апострофа во время запроса. Запросы для "Mary" должны совпадать с "Mary" и "Mary's".

Диакритические знаки

Диакритические знаки — это знаки, добавляемые в букву или фонему для обозначения специального фонетического значения для произношения. Диакритические знаки могут различать слова, которые в противном случае графически идентичны; Например, "resume" и "resumé" на английском языке. Однако сохранение диакритических значений в индексе увеличивает количество уникальных ключей слов в индексе, что замедляет производительность запросов. Если диакритические знаки используются в языке только минимально, средство разбиения по словам для этого языка должно удалить их во время создания индекса и выполнения запросов. Например, средство разбиения по английским словам создает "resume" при обработке "resumé", что оказывает минимальное влияние на релевантность результатов запроса.

Клитики

Клитик - это безнапряженное слово, которое не в состоянии стоять самостоятельно и прикрепляется к подчеркнутой слову, чтобы сформировать единое целое. Клитики нельзя легко классифицировать как фонологические, синтаксические или морфологические. Клитики бывают двух типов: проклитические и энклитические. Проклитики прикрепляются к началу слова. Энклитики прикрепляются к концу слова.

Клитики сложнее анализировать на таких языках, как испанский. Испанский глагол может создавать множество поверхностных форм в зависимости от времени. Необходимо учитывать, как удалить клитик во время создания индекса и создать поверхностные формы с помощью парадигмы во время запроса. Удаление клитики в тех случаях, когда морфология клитического состава неоднозначна, может привести к непредсказуемым результатам. Создание большого количества форм поверхности для слова увеличивает размер полнотекстового индекса и может снизить производительность запросов. Рекомендуется, чтобы парадигматический метод создавал только небольшое количество поверхностных форм.