Поделиться через


Влияние средств разбиения текста на слова, парадигматических модулей и файлов пропускаемых слов на результаты поиска (Office SharePoint Server 2007)

Средства разбиения текста на слова, парадигматические модули, файлы пропускаемых слов, также известные как файлы стоп-слов, являются компонентами, принимающими участие в процессах индексирования и обработки запросов.

В этой статье:

  • Средства разбиения текста на слова

  • Парадигматические модули

  • Файлы пропускаемых слов

Средства разбиения текста на слова

Средство разбиения текста на слова это компонент, используемый для разбиения сток текста на отдельные слова во время процессов индексирования и выполнения запросов. Во время процесса индексирования текст извлекается из элементов контента как неразрывная строка символов. Средство разбиения текста на слова устанавливает начало и окончание каждого слова в строке. Дополнительно средства разбиения текста на слова разъединяют составные слова так, чтобы результат запроса, полученный пользователями, частично состоял из исходного составного слова, а также из отдельных терминов, составляющих составное слово. Также средства разбиения текста на слова преобразуют числа и даты из элементов контента в стандартную форму.

Для каждого языка существует свое средство разбиения текста на слова. Модуль индексирования определяет, какое средство разбиения текста следует использовать и, в случае, если обнаружено более одного языка, может использовать более одного средства разбиения для текста, взятого из одного документа. Если нет средства разбиения для какого-либо языка, используется нейтральное средство разбиения.

Также средства разбиения текста на слова используются обработчиком запросов. Когда пользователь посылает запрос, средство разбиения используется для разбиения составных слов и фраз. Это увеличивает шансы на то, что запрос пользователя совпадет с терминами в индексе контента. Во время обработки запроса язык средства разбиения определяется языком браузера пользователя.

По умолчанию Microsoft Office SharePoint Server 2007 устанавливает средства разбиения, перечисленные в следующей таблице на каждом сервере фермы SharePoint.

Арабский

Венгерский

Пенджабский

Бенгальский

Исландский

Румынский

Болгарский

Индонезийский

Русский

Каталонский

Итальянский

Сербский, кириллица

Хорватский

Японский

Сербский, латиница

Чешский

Канадский

Словацкий

Датский

Корейский

Словенский

Нидерландский

Латвийский

Испанский

Английский

Литовский

Шведский

Финский

Малайский

Тамильский

Французский

Малаялам

Телугу

Немецкий

Маратхи

Тайский

Греческий

Норвежский (Букмол)

Турецкий

Гуджарати

Польский

Украинский

Иврит

Португальский

Урду

Хинди

Португальский (Бразилия)

Вьетнамский

Парадигматические модули

Парадигматический модуль это компонент, который находит ключевое слово термина и может сгенерировать варианты этого термина. Например, в английском языке, если запрос содержит слово "купить", парадигматический модуль может добавить к запросу ключевое слово "покупать", а также может сформировать другие формы этого термина, такие как "приобретение" и "покупка" и добавить к запросу.

Парадигматические модули зависят от языка и могут предоставлять различные возможности в зависимости от языка, который они поддерживают. Некоторые парадигматические модули находят ключевое слово, но не могут сформировать дополнительные формы слова. По умолчанию извлечение корней терминов при обработке запроса на нескольких языках выключено. Можно включить извлечение корней для поисковых запросов в веб-части основных результатов поиска.

Примечание

В любом языке, для которого есть средство разбиения текста на слова, также есть парадигматический модуль, если язык поддерживает извлечение корней терминов запроса. Для некоторых языков парадигматические модули установлены, но не включены. Чтобы включить эти парадигматические модули, нужно внести изменения в реестр. Инструкции по включению парадигматических модулей для этих особых языков можно получить в разделе Как включить средства разбиения текста на слова и парадигматические модули в SharePoint Server 2007 (на английском языке) (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x419) (на английском языке).

Файлы пропускаемых слов

Некоторые слова в языке бесполезны при выполнении поиска. Например, в английском языке такие слова как "the" и "an" приносят мало пользы для поиска, так как почти каждый документ, написанный на английском языке, будет содержать эти слова. Слова, не приносящие пользы при поиске называются пропускаемыми словами, также известными как стоп-слова. Во время процесса индексирования пропускаемые слова удаляются, чтобы уменьшить индексы и повысить этим производительность. Пропускаемые слова содержатся в текстовых файлах, зависящих от языка, которые можно изменять. Удаление или добавление слов в файл пропускаемых слов требует выполнения полного обхода контента. Дополнительную информацию можно получить в разделе Редактирование файла пропускаемых слов (Office SharePoint Server).

Файлы пропускаемых слов значительно изменились по сравнению с предыдущими версиями продуктов SharePoint. Многие из пропускаемых слов, которые ранее были включены в файлы пропускаемых слов, удалены из файлов пропускаемых слов Office SharePoint Server 2007 и включены в индексы контента. По умолчанию пользователь может выполнять запросы, используя слова, которые ранее были исключены как пропускаемые слова. Такие запроса называются запросами с пропускаемыми словами. Можно запретить выполнение таких запросов в веб-части "Основные результаты поиска". Дополнительно, если в запросе строка, заключенная в кавычки, содержит пропускаемое слово, в результатах поиска это слово может быть заменено любым словом. Например, если в запросе содержится строка "configure a server", в результаты поиска будут включены элементы контента, содержащие строки "configure the server" и "configure every server".

Важно!

Не следует удалять все слова в файле пропускаемых слов. В файле пропускаемых слов должна быть как минимум одна запись, даже если эта запись — символ точки (.).

См. также

Понятия

Управление настройками для улучшения результатов поиска (Office SharePoint Server)
Настройка достоверных страниц (Office SharePoint Server)
Добавление ключевых терминов к наиболее подходящим элементам (Office SharePoint Server)
Редактирование файла пропускаемых слов (Office SharePoint Server)
Редактирование файла тезауруса (Office SharePoint Server)
Создание вспомогательного словаря (Office SharePoint Server 2007)