Compartir a través de


Definición de reglas de rastreo y tipos de archivo

En Enterprise Search de Microsoft Office SharePoint Server 2007, las extensiones y reglas de rastreo se usan para definir cómo se debe rastrear un conjunto determinado de contenidos de un origen de contenido.

Reglas de rastreo

Las reglas de rastreo proporcionan la capacidad de establecer el comportamiento del motor de indización de Enterprise Search cuando desea rastrear contenido de una ruta de acceso determinada. Al usar estas reglas, podrá:

  • Evitar que se rastree el contenido de una ruta de acceso determinada.

    Por ejemplo, en un escenario donde un origen de contenido señala a la ruta de acceso de la dirección URL, como https://www.microsoft.com/, pero en el que desea evitar que se rastree el contenido del subdirectorio de "descargas" https://www.microsoft.com/downloads/, debería establecer una regla para la dirección URL con el comportamiento establecido para excluir contenido de ese subdirectorio.

  • Indicar que se rastree una ruta de acceso determinada que, de otro modo, se excluiría del rastreo.

    Si usamos el escenario anterior, en el caso de que el directorio de descargas contuviera un directorio denominado "content" que se debiera incluir en el rastreo, podría crear una regla de rastreo para la siguiente dirección URL con el comportamiento establecido para incluir el subdirectorio "content" https://www.microsoft.com/downloads/content.

Nota

Esto sólo se aplica al contenido HTTP.

  • Especificar credenciales de autenticación

    Podría usar esta regla para un escenario en el que el contenido al que se tiene acceso requiere credenciales distintas de las especificadas para la cuenta de acceso al contenido predeterminada.

Puede usar el asterisco (*) como un carácter comodín en las reglas de rastreo, por ejemplo:

http://*.microsoft.com/*.html

Nota

No use reglas como otra forma de definir orígenes de contenido ni proporcionar un ámbito. En su lugar, use reglas para especificar más detalles sobre cómo controlar un conjunto determinado de contenidos de un origen de contenido.

Orden de las reglas de rastreo

El orden de las reglas es importante, ya que la primera regla que coincide con un conjunto determinado de contenidos es la que se aplica. Así, en el ejemplo anterior, como la regla de exclusión de páginas .aspx se enumeró primero, cada vez que el rastreador (crawler) encuentra una página .aspx en http://hostname, la página se excluye: aunque cumpla ambas reglas y no se apliquen otras reglas.

Modelo de objetos de regla de rastreo

Las reglas de rastreo individuales se representan mediante la clase CrawlRule. El conjunto completo de reglas de rastreo está contenido en la clase CrawlRuleCollection. La clase CrawlRuleCollection permite agregar nuevas reglas de rastreo con el método Create, establecer la prioridad de una regla de rastreo existente con el método SetPriority y probar una dirección URL o una ruta de acceso en todas las reglas de rastreo para determinar cuál de ellas se aplica con el método Test.

Para obtener actualizaciones o probar reglas de rastreo individuales, use el objeto CrawlRule. También puede usar este objeto para especificar las credenciales de acceso al contenido que se usan para el contenido que cumple esa regla, o si desea eliminar la regla.

Tipos de archivo

La lista de inclusión/exclusión de tipos de archivo contiene la lista de las extensiones que identifican los tipos de archivo que debe incluir o excluir el rastreador (crawler) del índice. Para que el rastreador (crawler) extraiga los contenidos y las propiedades de un tipo de archivo determinado, se debe instalar un filtro para ese tipo de archivo en el servidor donde se ejecuta el servicio de índice.

Puede usar la lista para excluir un tipo de archivo determinado, aunque haya un filtro instalado asociado a este tipo de archivo.

Modelo de objetos de tipo de archivo

Las extensiones de nombre de archivo individuales se representan mediante la clase Extension. Puede usar este objeto para quitar una extensión de nombre de archivo. Las extensiones se agrupan en un objeto ExtensionCollection. El método Create sirve para especificar una extensión de nombre de archivo nueva.

Vea también

Referencia

Microsoft.Office.Server.Search.Administration.CrawlRule
Microsoft.Office.Server.Search.Administration.Extension

Otros recursos

Administración de contenido
Introducción al modelo de objetos de administración del motor de búsqueda Enterprise Search
Procedimiento: Devolver el contexto de búsqueda para el proveedor del servicio de búsqueda