Поделиться через


Планирование обхода содержимого (Search Server 2008)

Обновлено: 2008-09-19

Содержание:

  • Общие сведения об обходе и индексации содержимого

  • Определение источников содержимого для обхода

  • Планирование источников содержимого

  • Планирование проверки подлинности

  • Планирование обработчиков протоколов

  • Планирование управления воздействием обхода

  • Планирование правил обхода

  • Планирование параметров поиска, управляемых на уровне фермы

  • Индексация содержимого на разных языках

NoteПримечание:

Если не указано иное, содержащаяся в данной статье информация относится как к серверу Microsoft Search Server 2008, так и к серверу Microsoft Search Server 2008 Express.

Цель этой статьи — помочь администраторам служб поиска планировать обход содержимого, разъяснив им, как система Microsoft Search Server 2008 обходит и индексирует содержимое. Дополнительные сведения см. в разделе Добавление или удаление администратора служб поиска (Search Server 2008).

Прежде чем конечные пользователи смогут воспользоваться преимуществами функций корпоративного поиска в системе Search Server 2008, необходимо произвести обход содержимого, в котором будет в дальнейшем осуществляться поиск.

В этой статье под словом "содержимое" подразумевается материал, подлежащий обходу, такой как веб-страницы, документы Microsoft Office Word и файлы сообщений электронной почты.

При планировании обхода содержимого необходимо найти ответы на следующие вопросы:

  • Где физически размещено содержимое?

  • Хранится ли содержимое на источниках различного типа, таких как общие папки, сайты SharePoint, веб-сайты и прочее?

  • Нужно ли выполнять обход всего содержимого, сохраняемого в источнике, или только его части?

  • В файлах какого типа предстоит выполнять обход?

  • Когда и как часто придется делать обход содержимого?

  • Каковы средства защиты содержимого?

Сведения, представленные в этой статье, помогут найти ответ на эти вопросы и принять необходимые решения по планированию содержимого для обхода и времени обхода этого содержимого.

Общие сведения об обходе и индексации содержимого

Обход и индексация содержимого — это процесс, при помощи которого система обращается к содержимому и его свойствам (которые иногда называются метаданными) и обрабатывает его для создания индекса содержимого, который используется для обработки поисковых запросов.

В результате успешного обхода содержимого отдельные файлы и элементы содержимого прочитываются обходчиком. Ключевые слова и метаданные хранятся в индексе содержимого, который иногда называет индексом. Индекс состоит из ключевых слов, которые хранятся в файловой системе сервера индекса, и метаданных, которые хранятся в базе данных поиска. Система поддерживает сопоставление между ключевыми словами, метаданными, связанными с отдельными элементами содержимого, при обходе которого были получены эти ключевые слова, и URL-адресами источника, в котором был выполнен обход содержимого.

Служба поиска связана с поставщиком общих служб (SSP) и специальным сервером, выделенным для индексирования содержимого. В отличие от системы серверные продукты в выпуске 2007 Office, которая может иметь несколько поставщиков общих служб и, соответственно, более одного индекса содержимого, система Search Server 2008 ограничена одним SSP и поэтому имеет только один индекс содержимого.

NoteПримечание:

Обходчик никоим образом не меняет файлов на несущих серверах. Вместо этого, обходчик получает доступ к файлам, прочитывает их и отсылает текст и метаданные на сервер индексирования. Некоторые несущие серверы изменяют даты файлов после того, как обходчик получал к ним доступ. Обходчик этого не делает.

Определение источников содержимого для обхода

Во многих случаях организациям будет достаточно обхода всего содержимого сайтов SharePoint своей фермы серверов. При этом не понадобится определять источники содержимого для обхода, так как все семейства сайтов фермы обходятся с использованием источника по умолчанию. Дополнительные сведения об источнике содержимого по умолчанию см. в разделе Планирование источников содержимого далее в этой статье.

Многим организациям также потребуется обход содержимого из источников, внешних по отношению к ферме серверов, таких как общие папки и веб-сайты в Интернете. Система Search Server 2008 может обходить и индексировать содержимое, размещенное на других фермах Службы Windows SharePoint Services, веб-сайтах, в общих папках, общих папках Microsoft Exchange и на серверах IBM Lotus Notes. Это сильно увеличивает объем содержимого, доступного для поисковых запросов.

Во многих случаях обход всех семейств сайтов фермы не потребуется, поскольку содержимое, сохраненное в некоторых семействах сайтов, может быть нерелевантно для результатов поиска. В этом случае необходимо выполнить одно или оба следующих действия:

  • Отметьте URL-адреса семейств сайтов, которые не нужно обходить. Если будет решено использовать источник содержимого по умолчанию, необходимо убедиться, что начальные адреса семейств сайтов, которые не нужно обходить, не указаны в источнике содержимого по умолчанию.

  • Отметьте начальные адреса семейств сайтов, которые не нужно обходить. Если будет решено создать дополнительные источники содержимого для обхода этого содержимого, необходимо сохранить эти начальные адреса. Сведения об использовании одного или нескольких источников содержимого приводится в разделе Планирование источников содержимого этой статьи.

Совет

При наличии поискового сервера имеется два способа обработки поисковых запросов и предъявления пользователям результатов поиска. Можно производить поиск в индексе содержимого поискового сервера или использовать федеративный поиск. У каждого способа есть свои преимущества. Для сравнения этих двух подходов к обработке поисковых запросов см. статью Обзор федеративного поиска. Список и краткое описание Поисковый сервер статей, посвященных разъяснению и использованию федерации, можно найти в материале Работа с федерацией.

Планирование источников содержимого

Перед обходом содержимого необходимо определить, где находится содержимое и на серверах каких типов оно размещено. После сбора этой информации администратор службы поиска может создать один или несколько источников содержимого. Эти источники содержимого предоставляют обходчику следующие сведения:

  • Тип содержимого, для которого необходим обход, например сайт SharePoint или общая папка.

  • Начальный адрес, с которого необходимо начать обход.

  • Режим обхода, например, глубина обхода с начального адреса или количество переходов.

  • Частота повторения обходов.

NoteПримечание:

Обход содержимого с использованием определенного источника содержимого иногда называется "обходом источника содержимого".

Этот раздел помогает спланировать источники содержимого, необходимые для организации.

Источник содержимого по умолчанию называется Локальные сайты Office SharePoint Server. Администраторы служб поиска могут использовать этот источник содержимого для обхода и индексации всего содержимого фермы. По умолчанию, система Search Server 2008 добавляет начальный адрес (в данном случае URL-адрес) сайта верхнего уровня каждого семейства сайтов в ферме источнику содержимого по умолчанию.

Некоторым организациям для удовлетворения требований к поиску будет достаточно простого использования источника содержимого по умолчанию для обхода всех семейств сайтов. Однако многим организациям потребуются дополнительные источники содержимого.

Причины создания дополнительных источников содержимого:

  • Обход различных типов содержимого.

  • Обход части содержимого по расписанию, отличному от общего.

  • Ограничение или увеличение объема содержимого для обхода.

Администраторы служб поиска могут создать до 500 источников содержимого, каждый из которых может содержать до 500 начальных адресов. Для максимального упрощения администрирования следует создать ровно столько источников содержимого, сколько необходимо.

Обход различных типов содержимого

Источник содержимого обеспечивает обход только одного источника содержимого. Это значит, что можно создать один источник содержимого, включающий URL-адреса сайтов SharePoint, и другой источник содержимого с URL-адресами общих папок, но нельзя создать источник, включающий URL-адреса и сайтов SharePoint и общих папок. В таблице ниже перечислены типы источников содержимого, которые можно настроить.

Этот тип источника содержимого Включает следующий тип содержимого

Сайты SharePoint

Сайты SharePoint с одной или нескольких ферм Office SharePoint Server 2007, Windows SharePoint Services 3.0 или Search Server 2008.

  • Сайты SharePoint от Microsoft Office SharePoint Portal Server 2003 или Windows SharePoint Services 2.0

    NoteПримечание:
    В отличие от обхода сайтов SharePoint в Office SharePoint Server 2007, Windows SharePoint Services 3.0 или Search Server 2008, обходчик не может автоматически обходить все дочерние сайты семейства сайтов предыдущих версий продуктов и технологий SharePoint. Поэтому при обходе сайтов SharePoint из предыдущих версий необходимо указать URL-адрес каждого сайта верхнего уровня и каждого дочернего сайта, для которого необходим обход. Сайты, перечисленные в каталоге сайтов ферм Microsoft Office SharePoint Portal Server 2003, обходятся при обходе сайта портала. Дополнительные сведения о каталоге сайтов см. в статье О каталоге сайтов https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x419).

Веб-сайты

  • Другое веб-содержимое в пределах организации, расположенное вне сайтов SharePoint.

  • Содержимое на веб-сайтах в Интернете.

Общие папки

Содержимое, находящееся в общих папках в пределах организации.

Lotus Notes

Сообщения электронной почты, сохраненные в базах данных Lotus Notes.

NoteПримечание:
В отличие от других источников содержимого, источник содержимого Lotus Notes не отображается в пользовательском интерфейсе, пока необходимое программное обеспечение не будет установлено и настроено. Дополнительные сведения см. в статье Настройка Search Server для обхода Lotus Notes (Search Server 2008).

Общие папки Exchange

Содержимое, хранящееся на сервере Exchange.

Обход содержимого по различным расписаниям

Администраторы служб поиска могут решить, что для части содержимого обход должен выполняться чаще, чем для остального содержимого. Чем больше объем содержимого для обхода, тем выше вероятность, что обход будет выполняться по нескольким источникам содержимого. Эти различные источники могут быть как одного, так и разных типов, и могут располагаться на серверах разных типов.

Эти факторы повышают вероятность использования дополнительных источников содержимого для обхода данных источников в разное время.

Основные причины обхода содержимого по разному расписанию:

  • В условиях простоев и периодов пиковой загрузки.

  • Для более частого обхода часто обновляемого содержимого.

  • Для обхода содержимого, размещенного на медленных серверах отдельно от содержимого на быстрых серверах.

Во многих случаях не вся информация известна до развертывания и запуска Search Server 2008. Некоторые из этих решений принимаются, наоборот, во время оперативной фазы. Однако рекомендуется оценить эти факторы во время планирования, чтобы можно было планировать расписания обходов, основываясь на имеющейся информации.

В двух следующих разделах представлены дополнительные сведения об обходе содержимого по различным расписаниям.

Простои и периоды пиковой загрузки

Оцените время простоя и пиковой загрузки серверов, на которых размещено содержимое для обхода. Например, если обход выполняется по содержимому, размещенному на большом количестве серверов за пределами фермы, их резервное копирование, скорее всего, будет выполняться по разному расписанию, а также время их пиковой загрузки будет различным. Администрирование внешних серверов обычно выполняется другими администраторами. Поэтому рекомендуется координировать обходы с администраторами серверов, на которых размещено содержимое для обхода. Это позволит избежать попыток обхода во время простоев или периодов пиковой загрузки.

В типичной ситуации имеется содержимое, не контролируемое организацией, связанное с содержимым ее сайтов SharePoint. Можно добавить начальные адреса для этого содержимого в существующий источник содержимого или создать новый для внешнего содержимого. Поскольку доступность внешних сайтов может быть совершенно разной, полезно добавить отдельные источники содержимого для разного внешнего содержимого. Таким образом внешние источники содержимого можно обходить по расписанию, отличному от других источников. Набор внешнего содержимого можно затем обновлять по расписанию обхода содержимого, составленного в соответствии с доступностью каждого сайта.

Часто обновляемое содержимое

При планировании расписаний обхода учтите, что некоторые источники содержимого будут обновляться чаще, чем другие. Например, если есть данные о том, что содержимое некоторых семейств сайтов или внешних источников обновляется только по пятницам, обход содержимого чаще раза в неделю будет означать неэффективное использование ресурсов. Однако ферма серверов может содержать другие семейства сайтов, которые обновляются непрерывно с понедельника по пятницу, но не обновляются по субботами и воскресеньям. В этом случае будет целесообразен обход несколько раз в день по рабочим дням, но только один или два раза в день по выходным.

Метод хранения содержимого в семействах сайтов определяет способ создания дополнительных источников содержимого для каждого семейства сайтов в каждом веб-приложении. Например, если семейство сайтов содержит только архивированные данные, его нужно обновлять реже, чем семейство сайтов, в котором хранится часто обновляемое содержимое. В этом случае эти семейства сайтов можно обходить с использованием разных источников содержимого, что позволит применять разные расписания обхода и избежать обхода архивных сайтов с той же частотой, что другого содержимого.

Расписания полного и добавочного обхода

Администраторы служб поиска могут настроить отдельные расписания обхода независимо для каждого источника содержимого. Для каждого источника содержимого можно указать время полного обхода и время добавочного обхода по отдельности. Обратите внимание, что перед добавочным обходом источника содержимого необходимо выполнить его полный обход. Если будет выбран добавочный обход содержимого, для которого не было полного обхода, система выполнит полный обход.

Рекомендуется составлять расписания обхода, принимая во внимание доступность, производительность и пропускную способность канала передачи данных как серверов, на которых выполняется служба поиска, так и серверов, на которых расположено содержимое для обхода.

При планировании расписаний обхода следуйте приведенным ниже рекомендациям:

  • Группируйте начальные адреса в источниках содержимого на основании одинаковой доступности и с приемлемой общей нагрузкой на ресурсы серверов, где расположено содержимое.

  • Назначайте добавочные обходы содержимого в расписании для каждого источника содержимого на те периоды времени, когда соответствующие серверы доступны и при этом их ресурсы задействованы минимально.

  • Составляйте расписания обхода содержимого так, чтобы нагрузка на серверы в ферме организации равномерно распределялась по времени.

  • Планируйте полный обход только когда он необходимо по причинам, изложенным в следующем разделе. Рекомендуется выполнять полный обход реже, чем добавочный.

  • Планируйте административные изменения, которые требуют полного обхода, незадолго до полного обхода. Например, мы рекомендуем запланировать создание правила обхода перед запланированным полным обходом, чтобы устранить необходимость в дополнительной операции полного обхода.

  • Параллельные операции обхода должны основываться на мощности сервера индекса, который их обходит. Рекомендуется разделять расписания обхода так, чтобы сервер индекса не обходил несколько источников содержимого одновременно. Для наилучшей производительности рекомендуется разделять расписания обхода по источникам содержимого. Производительность сервера индекса и серверов, на которых размещено содержимое, определяет степень перекрытия операций обхода. Стратегия планирования обхода может сформироваться с течением времени, по мере знакомства администратора со стандартной длительностью обхода источника содержимого.

Причины полного обхода

Причины, по которым администратор поставщика общих служб выполняет полный обход:

  • Установка одного или нескольких исправлений (QFE) или пакетов обновления на серверах фермы. См. дополнительные сведения в инструкциях к исправлению или пакету обновления.

  • Администратор поставщика общих служб добавил новое управляемое свойство.

  • Для повторной индексации страниц ASPX на сайтах Windows SharePoint Services 3.0.

    NoteПримечание:

    Обходчик не может определить, были ли обновлены страницы ASPX на сайтах Windows SharePoint Services 3.0. Из-за этого добавочный обход не может обеспечить повторную индексацию представлений или домашних страниц при удалении отдельных элементов. Рекомендуется периодически выполнять полный обход сайтов, включающих страницы ASPX, чтобы гарантировать их повторную индексацию.

  • Для определения изменений системы обеспечения безопасности, внесенных после последнего полного обхода общей папки.

  • Для устранения повторяющихся ошибок добавочного обхода. В редких случаях, когда добавочный обход на любом уровне репозитория завершается с ошибкой сто раз подряд, сервер индекса удаляет затронутое содержимое из индекса.

  • Одно или несколько правил обхода добавлены или изменены.

  • Для исправления поврежденного индекса.

  • Администратор служб поиска создал одно или более сопоставлений имен серверов.

  • Учетная запись, связанная с учетной записью доступа к содержимому по умолчанию или к правилу обхода, была изменена.

В следующих случаях система выполняет полный обход содержимого, даже несмотря на то что запрашивается добавочный обход:

  • Администратор поставщика общих служб остановил предыдущий обход.

  • Восстановлена база данных контента.

    NoteПримечание:

    Если запущен Обновление инфраструктуры для серверов Microsoft Office Servers, можно с помощью операции восстановления программы командной строки Stsadm изменить настройку, согласно которой восстановление базы данных контента влечет за собой полный обход.

  • Администратор фермы отключил и снова подключил базу данных контента.

  • Полный обход содержимого никогда не выполнялся.

  • Журнал изменений не содержит записей для адресов, обход которых выполняется. Без записей в журнале изменений для элементов, обход которых выполняется, выполнение добавочных обходов невозможно.

  • Учетная запись, связанная с учетной записью доступа к содержимому по умолчанию или к правилу обхода, была изменена.

  • Для исправления поврежденного индекса.

    В зависимости от степени повреждения система может попытаться выполнить полный обход, если в индексе обнаружено повреждение.

Расписания можно скорректировать после начального развертывания, основываясь на производительности и возможностях серверов фермы и серверов, на которых расположено содержимое.

Ограничение или увеличение объема содержимого для обхода

Для каждого источника содержимого можно выбрать глубину обхода содержимого относительно начального адреса. Кроме того, можно задать режим обхода, который иногда называют параметрами обхода. Параметры, которые можно выбрать для определенного источника содержимого, меняются в зависимости от его типа. Однако большинство параметров определяют количество уровней иерархии для каждого начального адреса, которые подлежат обходу. Обратите внимание, что этот режим применяется ко всем начальным адресам определенного источника содержимого. Если необходим обход части сайтов на более низком уровне, необходимо создать дополнительные источники содержимого, включающие эти сайты.

Параметры, доступные в свойствах каждого источника содержимого, меняются в зависимости от типа этого источника. В таблице ниже описываются параметры обхода, доступные для каждого типа источника содержимого.

Тип источника содержимого Параметры обхода

Сайты SharePoint

  • Все содержимое сайта для каждого начального адреса

  • Только сайт SharePoint для каждого начального адреса

Веб-сайты

  • Только содержимое сервера для каждого начального адреса

  • Только первая страница для каждого начального адреса

  • Настраиваемый — задать глубину страниц и количество переходов.

    NoteПримечание:
    Значение по умолчанию для этого параметра — неограниченная глубина страниц и число переходов.

Общие папки

  • Папка и все подпапки каждого начального адреса

  • Только папка каждого начального адреса

Общие папки Exchange

  • Папка и все подпапки каждого начального адреса

  • Только папка каждого начального адреса

Как показано в предыдущей таблице, администраторы служб поиска могут использовать значения параметров для увеличения или уменьшения объема содержимого для обхода.

В таблице ниже приводятся рекомендации по настройке параметров обхода.

Для этого типа источника содержимого Если относится к Используйте следующий параметр обхода

Сайты SharePoint

Необходимо включить содержимое на самом сайте

- или -

Не требуется включать содержимое дочерних сайтов, или их обход выполняется по другому расписанию.

Обход только содержимого сайта SharePoint для каждого начального адреса

Сайты SharePoint

Необходимо включить содержимое на самом сайте

- или -

Необходим обход всего содержимого, соответствующего начальному адресу, по одному расписанию.

Обход всего содержимого под именем сайта для каждого начального адреса

Веб-сайты

Содержимое сайта является релевантным.

- или -

Содержимое, доступное на связанных сайтах, скорее всего, не является релевантным.

Обход только содержимого в пределах сервера для каждого начального адреса

Веб-сайты

Релевантное содержимое присутствует только на первой странице.

Обход содержимого только первой страницы для каждого начального адреса

Веб-сайты

Необходимо ограничить глубину обхода ссылок от начального адреса.

Настраиваемый — задайте число страниц в глубину и количество серверных переходов для обхода.

NoteПримечание:
Рекомендуется начать с небольшого числа тесно связанных сайтов, поскольку глубина более трех страниц или более трех переходов от сервера может привести к обходу всего Интернета.

Общие папки

Общие папки Exchange

Содержимое, доступное в подпапках, скорее всего, не является релевантным.

Обход только папки для каждого начального адреса

Общие папки

Общие папки Exchange

Содержимое подпапок, скорее всего, не является релевантным.

Обход папки и подпапки для каждого начального адреса

Планирование включения типов файлов и интерфейсов IFilter

Обход содержимого выполняется только если релевантное расширение файла добавлено в список включений типов файлов и на сервере индекса установлен IFilter, поддерживающий эти типы файлов. Некоторые типы файлов включаются автоматически во время начальной установки. При планировании источников содержимого для начального развертывания, определите включены ли расширения файлов содержимого для обхода. Если типы файлов не включены, добавьте их на странице "Управление типами файлов" во время развертывания и убедитесь, что IFilter установлен и зарегистрирован для поддержки данного типа файлов.

В Search Server 2008 представлено несколько типов IFilter, дополнительные типы доступны у Microsoft и сторонних поставщиков программного обеспечения. Дополнительные сведения об установке и регистрации IFilter, предоставляемых корпорацией Microsoft см. в разделе Порядок регистрации Microsoft Filter Pack в SharePoint Server 2007 и в Search Server 2008. При необходимости разработчики ПО могут создать IFilter для новых типов файлов.

С другой стороны, если необходимо исключить определенные типы файлов из обхода, можно удалить разрешение этого типа и списка включения типов файлов. Это позволит исключить файлы с соответствующим расширением из обхода.

В таблице ниже перечислены типы файлов, поддерживаемые интерфейсами IFilter, которые устанавливаются по умолчанию, и типы, которые включаются по умолчанию на странице Управление типами файлов.

Расширение имени файла Поддержка IFilter по умолчанию Включения типов файлов по умолчанию

ascx

Да

Да

asm

Да

Нет

asp

Да

Да

aspx

Да

Да

bat

Да

Нет

c

Да

Нет

cmd

Да

Нет

cpp

Да

Нет

css

Да

Нет

cxx

Да

Нет

def

Да

Нет

dic

Да

Нет

doc

Да

Да

docm

Да

Да

docx

Да

Да

dot

Да

Да

eml

Да

Да

exch

Нет

Да

h

Да

Нет

hhc

Да

Нет

hht

Да

Нет

hpp

Да

Нет

hta

Да

Нет

htm

Да

Да

html

Да

Да

htw

Да

Нет

htx

Да

Нет

jhtml

Нет

Да

jsp

Нет

Да

lnk

Да

Нет

mht

Да

Да

mhtml

Да

Да

mpx

Да

Нет

msg

Да

Да

mspx

Нет

Да

nsf

Нет

Да

odc

Да

Да

one

Нет

Нет

php

Нет

Да

pot

Да

Нет

pps

Да

Нет

ppt

Да

Да

pptm

Да

Да

pptx

Да

Да

pub

Да

Да

stm

Да

Нет

tif

Да

Да

tiff

Нет

Да

trf

Да

Нет

txt

Да

Да

url-адрес

Нет

Да

vdx

Нет

Да

vsd

Нет

Да

vss

Нет

Да

vst

Нет

Да

vsx

Нет

Да

vtx

Нет

Да

xlb

Да

Нет

xlc

Да

Нет

xls

Да

Да

xlsm

Да

Да

xlsx

Да

Да

xlt

Да

Нет

xml

Да

Да

Интерфейсы IFilter и Microsoft Office OneNote

Для расширения ONE, используемого приложением Microsoft Office OneNote 2007, интерфейс IFilter не включен в комплект. Чтобы дать пользователям возможность поиска содержимого в файлах Office OneNote, необходимо установить IFilter для OneNote. Для этого следует установить клиентское приложение Microsoft Office OneNote на сервере индекса.

  • Установите клиентское приложение Microsoft Office OneNote на сервере индексирования.

    Office OneNote 2007 IFilter обеспечивает обход файлов Office OneNote 2003 и Office OneNote 2007. Office OneNote 2003 IFilter поддерживает обход только файлов Office OneNote 2003.

  • Установите и зарегистрируйте Microsoft Filter Pack.

    OneNote IFilter, предоставляемый данным пакетом фильтра можно использовать только для обхода файлов Office OneNote 2007. Дополнительные сведения см. в разделе Порядок регистрации Microsoft Filter Pack в SharePoint Server 2007 и в Search Server 2008.

Ограничение или исключение содержимого с помощью правил обхода

После добавления начального адреса в источники содержимого и принятия режима по умолчанию будет выполняться обход всех дочерних сайтов и папок, если они не исключены с помощью одного или нескольких правил обхода.

Дополнительные сведения о правилах обхода см. в разделе Планирование правил обхода содержимого далее в этом документе.

Другие соображения по планированию источников содержимого

Нельзя обходить один адрес, используя несколько источников содержимого. Например, если тот или иной источник содержимого используется для обхода семейства сайтов и всех дочерних сайтов, нельзя использовать другой источник содержимого для отдельного обхода этих дочерних сайтов по другому расписанию. Чтобы обойти это ограничение, можно выполнить отдельный обход некоторых сайтов. Рассмотрим следующий сценарий.

Администратор компании Contoso хочет обойти веб-сайт http://contoso/, включающий дочерние сайты http://contoso//sites/site1 и http://contoso//sites/site2. Администратор хочет обходить сайт http://contoso//sites/site2 по расписанию, отличному от расписания для других сайтов. С этой целью он добавляет адреса http://contoso/ и http://contoso//sites/site1 в один источник содержимого и выбирает параметр Обходить только содержимое сайта SharePoint для каждого начального адреса. Затем он добавляет дочерний сайт http://contoso//sites/site2 в другой источник содержимого с другим расписанием обхода.

Помимо расписаний обхода при планировании источников содержимого необходимо рассмотреть ряд других моментов. Например, нужно ли группировать начальные адреса в одном источнике содержимого или создать дополнительные источники содержимого для обхода этих начальных адресов. Это решение сильно зависит от административных соображений. Администраторы часто вносят изменения, которые требуют полного обновления какого-либо источника содержимого. Изменения источника содержимого требует полного обхода этого источника. Для упрощения администрирования организуйте источники содержимого так, чтобы обновление источников содержимого, правил обхода и содержимого для обхода было удобным для администраторов.

Сводные сведения по источникам содержимого

При планировании источников содержимого рассмотрите следующие моменты:

  • Источник содержимого можно использовать для обхода только одного из следующих типов содержимого: сайты SharePoint, веб-сайты, не являющиеся сайтами SharePoint, общие папки, общие папки Exchange и базы данных Lotus Notes.

  • Администраторы служб поиска могут создать до 500 источников содержимого, каждый из которых может содержать до 500 начальных адресов. Для максимального упрощения администрирования следует создать ровно столько источников содержимого, сколько необходимо.

  • Все URL-адреса в источнике содержимого должны ссылаться на содержимое одного типа.

  • Для источника содержимого можно выбрать глубину обхода от начального адреса. Эти параметры применяются ко всем начальным адресам источника содержимого. Доступные значения глубины обхода от начального адреса зависят от типа источника содержимого.

  • Можно запланировать полный или добавочный обход полного источника содержимого. Дополнительные сведения о планировании обхода см. в разделе Планирование расписаний обхода далее в этой статье.

  • Администраторы общих служб могут изменять источник содержимого по умолчанию, создавать дополнительные источники содержимого для обхода другого содержимого или выполнять оба эти действия. Например, они могут настроить источник содержимого по умолчанию для обхода содержимого на сервере в другой ферме или создать новый источник для обхода другого содержимого.

  • Для эффективного обхода всего содержимого, необходимого организации, используйте ровно столько источников, сколько необходимо для обхода нужных источников содержимого с требуемой частотой.

Планирование проверки подлинности

Когда обходчик обращается к начальным адресам, перечисленным в источниках содержимого, его подлинность должна быть проверена для предоставления доступа к серверам, на которых размещено содержимое. Это значит, что учетная запись домена, используемая обходчиком, должна иметь как минимум разрешения на чтение содержимого.

Учетная запись по умолчанию для доступа к содержимому используется по умолчанию при обходе источников содержимого. Эта учетная запись задается администратором служб поиска. Напротив, можно использовать правила обхода для определения другой учетной записи, которая будет применяться при обходе определенного содержимого. Независимо от того, какая учетная запись используется — учетная запись по умолчанию или другая учетная запись, указанная с помощью правила обхода, она должна иметь доступ для чтения ко всему содержимому для обхода. В противном случае обход выполняться не будет, и содержимое будет недоступно для запросов.

Рекомендуется выбирать такую учетную запись по умолчанию для доступа к содержимому, которая имеет максимально широкий доступ к большей части обходимого содержимого, и использовать другие учетные записи только в тех случаях, когда использование отдельных учетных записей необходимо по соображениям безопасности. Сведения о создании отдельных учетных записей для обхода содержимого, которое не может быть считано с помощью учетной записи по умолчанию, см. в разделе Планирование правил обхода содержимого далее в этой статье.

Для каждого планируемого источника содержимого определите начальные адреса, доступ к которым нельзя получить с помощью учетной записи по умолчанию, и спланируйте добавление правил обхода для шаблонов URL, которые включают эти начальные адреса.

NoteПримечание:

Убедитесь, что учетная запись домена, используемая в качестве учетной записи по умолчанию для доступа к содержимому, или другая учетная запись для доступа к содержимому не является той же учетной записью домена, которая используется пулом приложений, связанным с веб-приложением, обход которого выполняется. Это может привести к обходу и индексации неопубликованного содержимого и второстепенных (исторических) версий файлов на сайтах SharePoint.

Дополнительные сведения о планировании учетных записей для доступа к содержимому см. в разделе Планирование правил обхода содержимого далее в этой статье.

Другой важный момент: обходчик должен использовать тот же метод проверки подлинности, что несущий сервер. По умолчанию, обходчик пытается выполнить проверку подлинности NTLM. При необходимости можно настроить обходчик на использование другого метода проверки подлинности. Дополнительные сведения см. в разделе "Требования к проверке подлинности при обходе содержимого" в разделе Планирование способов проверки подлинности (Office SharePoint Server). Эта статья относится также к системе Search Server 2008.

Планирование обработчиков протоколов

Для доступа ко всему содержимому для обхода необходимо использовать обработчик протоколов. Search Server 2008 обеспечивает обработчики для всех распространенных протоколов Интернета. Однако, если необходим обход содержимого, которое требует обработчика протокола, не установленного в Search Server 2008, необходимо установить обработчик протоколов стороннего производителя или нестандартный обработчик протоколов для обхода содержимого.

В следующей таблице представлены обработчики протоколов, установленные по умолчанию.

Обработчик протоколов Используется для обхода

Файл

Общие папки

http

Веб-сайты

https

Веб-сайты, поддерживающие протокол SSL

Примечание

Базы данных Lotus Notes

Rb

Общие папки Exchange

Rbs

Общие папки Exchange, поддерживающие SSL

Sps

Профили пользователей ферм серверов Службы Windows SharePoint Services 2.0

Sps3

Профиль пользователя обходит только фермы серверов Windows SharePoint Services 3.0

Sps3s

Профиль пользователя обходит из ферм серверов Windows SharePoint Services 3.0 только через протокол SSL

Spsimport

Импорт профилей пользователей

Spss

Импорт профилей пользователей из ферм серверов Службы Windows SharePoint Services 2.0 через протокол SSL

Sts

Windows SharePoint Services 3.0 корневые URL-адреса (внутренний протокол)

Sts2

Сайты Службы Windows SharePoint Services 2.0

Sts2s

Сайты Службы Windows SharePoint Services 2.0 с поддержкой SSL

Sts3

Сайты Windows SharePoint Services 3.0

Sts3s

Сайты Windows SharePoint Services 3.0 с поддержкой SSL

Планирование управления воздействием обхода

Обход содержимого может привести к значительному снижению производительности серверов, на которых хранится содержимое. Воздействие на тот или иной сервер зависит от нагрузки на этот сервер, наличия достаточных ресурсов (особенно ЦП и ОЗУ) для выполнения соглашений об уровне обслуживания при нормальной и пиковой загрузке.

Правила воздействия обхода позволяют администраторам фермы управлять воздействием обходчика на серверы, подлежащие обходу. Для каждого правила можно указать один URL-адрес или использовать подстановочные знаки в URL-пути для применения правила к группе адресов. После этого можно указать количество одновременных запросов страниц для указанного URL-адреса или разрешить запрос только одного документа в отдельно взятый момент времени и задать период ожидания между запросами.

Правила управления воздействием обхода уменьшают или увеличивают частоту запросов содержимого с начального сайта или диапазона начальных адресов (другое название — имя сайта), независимо от источника содержимого, который используется для обхода этих адресов. В приведенной ниже таблице представлены подстановочные знаки, которые можно использовать в именах сайтов при добавлении правила.

Подстановочный знак Результат

* в качестве имени сайта

Правило применяется ко всем сайтам.

*.* в качестве имени сайта

Правило применяется к сайтам, содержащим точки в имени.

*.site_name.com в качестве имени сайта

Правило применяется ко всем сайтам домена site_name.com (например, *.adventure-works.com).

*.top-level_domain_name в качестве имени сайта

Правило применяется ко всем сайтам, имена которых оканчиваются специфическим именем домена верхнего уровня (например, .com или .net).

?

Заменяет один знак в правиле. Например, правило для *.adventure-works?.com применяется ко всем сайтам в доменах adventure-works1.com, adventure-works2.com и т. д.

Можно создать правило воздействия обходчика, которое будет применяться ко всем сайтам в рамках домена верхнего уровня. Например *.com будет относиться ко всем сайтам Интернета с адресами, заканчивающимися на .com. Например, администратор сайта портала может добавить источник содержимого для example.microsoft.com. Правило для *.com применяется к этому сайту, если только не добавлено специальное правило воздействия обходчика для example.microsoft.com.

При работе с содержимым внутри организации можно проконсультироваться с администраторами других сайтов о том, как настроить правила воздействия обходчика в соответствии с производительностью и возможностями серверов. Для большинства внешних сайтов такая координация невозможна. Если запрашивать слишком много содержимого или делать запросы слишком часто, администраторы сайтов в дальнейшем могут ограничить доступ, поскольку обходы требуют слишком много ресурсов или чрезмерно загружают сеть. Поэтому рекомендуется использовать более медленный обход. Это позволит снизить риск потери доступа, необходимого для обхода релевантного содержимого.

В процессе начального развертывания задайте правила воздействия обходчика так, чтобы как можно меньше воздействовать на другие серверы и при этом обходить содержимое в достаточном объеме и достаточно часто для обеспечения актуальности содержимого для обхода.

Правила воздействия обходчика можно корректировать на этапе эксплуатации на основании результатов и данных журналов обхода.

Планирование правил обхода

Правила обхода применяются к определенному URL-адресу или набору URL-адресов, представленным с помощью подстановочных знаков (путь, на который действует правило). Правила обхода позволяют:

  • Избежать обхода нерелевантного содержимого, исключив один или несколько URL-адресов. Кроме того, они помогают сократить использование серверных ресурсов и сетевой трафик, а также повысить релевантность результатов поиска.

  • Обходить ссылки по URL-адресу без обхода содержимого самого URL-адреса. Этот параметр особенно полезен для сайтов со ссылками релевантного содержимого, когда страница со ссылками не содержит релевантной информации.

  • Выполнять обход сложных URL-адресов. Этот параметр используется для обхода содержимого URL-адресов, включающих параметр запроса, указанный с использованием знаков вопроса. На разных сайтах эти URL-адреса могут включать или не включать релевантное содержимое. Поскольку сложные URL-адреса часто ведут к нерелевантным сайтам, рекомендуется выбирать этот параметр только для тех сайтов, сложные URL-адреса которых заведомо релевантны.

  • Обеспечить обход содержимого сайтов SharePoint как HTTP-страниц. Этот параметр позволяет серверу индекса обходить сайты SharePoint за пределами межсетевого экрана или в сценариях, в которых сайт для обхода ограничивает доступ к веб-службе, используемой обходчиком.

  • Указать, какую учетную запись следует использовать для доступа к содержимому — учетную запись по умолчанию, другую учетную запись или клиентский сертификат для обхода выбранного URL-адреса.

NoteПримечание:

Правила обхода содержимого применяются одновременно ко всем источникам содержимого.

Чаще всего большая часть содержимого определенного адреса сайта релевантна, но отдельные дочерние сайты или группы сайтов — нет. Выбрав ограниченное сочетание URL-адресов, для которого необходимо задать правила обхода, исключающие ненужные элементы, администраторы общих служб могут повысить релевантность содержимого в индексе и снизить воздействие на производительность обхода и размера базы данных поиска. Создание правил обхода для исключения URL-адресов особенно полезно при планировании начальных адресов для внешнего содержимого, воздействие на использование ресурсов которого не контролируется вашей организацией.

При создании правила обхода можно использовать стандартные подстановочные символы в пути. Например:

  • http://server1/folder* соответствует всем веб-ресурсам с URL-адресом, начинающимся на "http://server1/folder".

  • *://*.txt соответствует всем документам с расширением TXT.

Поскольку обход содержимого требует выделения части ресурсов и полосы пропускания, лучше включить небольшой объем содержимого, о котором известно, что оно релевантно, чем больший объем, в котором могут быть нерелевантные данные. После начального развертывания можно просмотреть журналы запросов и обходов и скорректировать источники содержимого и правила обхода для обеспечения более высокой релевантности и большего объема содержимого.

Задание другой учетной записи для доступа к содержимому

Для правил обхода, включающих содержимое, администраторы могут изменить учетную запись для доступа к содержимому в рамках правила. Учетная запись по умолчанию для доступа к содержимому используется, если иное не указано в правиле обхода. Другую учетную запись применяют в тех случаях, когда учетная запись по умолчанию для доступа к содержимому не имеет доступа к некоторым начальным адресам. Для таких начальных адресов можно создать правило обхода содержимого и выбрать учетную запись, которая имеет к ним доступ.

NoteПримечание:

Убедитесь, что учетная запись домена, используемая в качестве учетной записи по умолчанию для доступа содержимому или другая учетная запись для доступа к содержимому не используется пулом приложений, связанным с веб-приложением, для которого выполняется обход. Это может привести к обходу и индексации неопубликованного содержимого и второстепенных (исторических) версий файлов на сайтах SharePoint.

Планирование параметров поиска на уровне фермы

В дополнение к параметрам, задаваемым на уровне администрирования поиска, несколько параметров, влияющих на обход содержимого, управляются на уровне фермы. При планировании обхода рассмотрите следующие параметры поиска на уровне фермы:

Адрес электронной почты контакта. Обход содержимого влияет на ресурсы серверов, подлежащих обходу. Перед началом обхода содержимого необходимо задать адрес электронной почты сотрудника организации, к которому администраторы могут обратиться, если обход оказывает значительное влияние на их серверы. Этот адрес содержится в журналах для администраторов серверов, подлежащих обходу, чтобы эти администраторы могли обратиться к кому-то, если обход слишком сильно воздействует на производительность и полосу пропускания или возникают иные вопросы.

Адрес электронной почты контакта должен принадлежать сотруднику, обладающему необходимым опытом, и имеющему возможность быстро отвечать на запросы. Кроме того, в качестве адреса электронной почты можно использовать отслеживаемый псевдоним списка рассылки. Быстрота ответа важна в любом случае, независимо от того, хранится ли обходимое содержимое внутри организации или вне ее.

Параметры прокси-сервера   Можно выбрать, использовать ли прокси-сервер при обходе содержимого. Использование прокси-сервера зависит от топологии развертывания Search Server 2008 и архитектуры других серверов организации.

  • Параметры времени ожидания   Параметры времени ожидания используются для ограничения времени ожидания подключения к другим службам на сервере поиска.

  • Параметр SSL    Параметр SSL определяет, необходимо ли точное соответствие сертификата SSL для обхода содержимого.

Индексация содержимого на разных языках

При обходе содержимого обходчик определяет каждое отдельное слово, которое он находит в содержимом. В языках, где слова разделены пробелами, обходчику не составляет особого труда различить отдельные слова. В других языках задача определения границы между словами может оказаться более сложной.

Система Search Server 2008 предоставляет средства разбиения по словам и средства извлечения корней по умолчанию, помогающие совершать обход и индексировать содержимое на многих языках. Средства разбиения по словам находят границы между словами в полнотекстовых индексированных данных, а средства извлечения корней спрягают глаголы.

Если производится обход содержимого на любом из языков, перечисленных в приведенной ниже таблице, система Search Server 2008 автоматически использует соответствующие средства разбиения по словам и извлечения корней для этих языков. Звездочка (*) говорит о том, что функция извлечения корней включена по умолчанию.

Языки, поддерживаемые по умолчанию Языки, поддерживаемые по умолчанию

Арабский

Литовский*

Бенгальский

Малайский

Болгарский*

Малаялам*

Каталанский

Маратхи

Хорватский

Норвежский_Bokmaal

Чешский*

Польский*

Датский

Португальский

Нидерландский

Португальский _Бразилия

Английский

Пенджаби

Финский*

Румынский*

Французский*

Русский*

Немецкий*

Сербский_кириллица*

Греческий*

Сербский _латиница*

Гуджарати

Словацкий*

Иврит

Словенский*

Хинди

Испанский*

Венгерский*

Шведский

Исландский*

Тамильский*

Индонезийский

Телугу*

Итальянский

Тайский

Японский

Турецкий*

Каннада*

Украинский*

Корейский

Урду*

Латышский*

Вьетнамский

Если обходчик индексирует содержимое для языка, который не поддерживается, используется нейтральное средство разбиения по словам. Если нейтральное средство разбиения по словам не дает ожидаемых результатов, можно попытаться использовать решения сторонних производителей, работающие с системой Search Server 2008.

См. также

Работа с федерацией