Limitar ou aumentar a quantidade de conteúdo rastreada (Search Server 2008)
Atualizado em: 2008-10-23
Observação: |
---|
Exceto quando especificado, as informações neste artigo aplicam-se tanto ao Microsoft Search Server 2008 como ao Microsoft Search Server 2008 Express. |
Durante as operações, você geralmente precisa alterar a quantidade de conteúdo que está atualmente rastreando. Por exemplo, talvez você queira:
Interromper o rastreamento de alguns sites de um namespace específico que é definido por uma fonte de conteúdo existente.
Rastrear sites de uma profundidade diferente.
Alterar o número de tipos de arquivo a serem rastreados, ou seja, iniciar o rastreamento dos tipos de arquivo já rastreados antes, interromper o rastreamento de determinados tipos de arquivo em rastreamento no momento ou ambos.
À medida que as necessidades de sua organização mudarem, você também poderá rastrear fontes de conteúdo inteiramente novas. Para obter mais informações sobre como rastrear fontes de conteúdo inteiramente novas, consulte Sobre fontes de conteúdo (Search Server 2008).
Você pode aumentar ou limitar a quantidade de conteúdo que é rastreado usando:
Configurações de rastreamento nas fontes de conteúdo Por exemplo, você pode especificar o rastreamento somente dos endereços iniciais especificados em uma determinada fonte de conteúdo ou pode especificar quantos níveis de profundidade do namespace (a partir daqueles endereços iniciais) irá rastrear e quantos saltos de servidor irá permitir. Observe que as opções que estão disponíveis em uma fonte de conteúdo para especificar a quantidade de conteúdo rastreado variam de acordo com o tipo da fonte de conteúdo.
Inclusões de tipo de arquivo Você pode escolher os tipos de arquivo que deseja rastrear.
Regras de rastreamento Você pode usar regras de rastreamento para excluir todos os itens de um determinado caminho que está sendo rastreado. Essa é uma boa maneira de garantir que os subsites que não deseja indexar não sejam rastreados com um site pai que está rastreando. Você também pode usar as regras de rastreamento para aumentar a quantidade de conteúdo rastreado; por exemplo, rastreando URLs complexas de um determinado caminho.
Configurações de rastreamento
Para cada fonte de conteúdo, você pode selecionar em que nível rastreará os endereços iniciais. Você também especifica o comportamento do rastreamento, o que às vezes denominamos configurações de rastreamento. As opções que você pode escolher para uma determinada fonte de conteúdo variam um pouco com o tipo de fonte de conteúdo selecionado. No entanto, a maioria das opções determinam quantos níveis na hierarquia de cada endereço inicial listado na fonte de conteúdo são rastreados. Observe que esse comportamento é aplicado a todos os endereços iniciais de uma determinada fonte de conteúdo.
As opções disponíveis nas propriedades para cada fonte de conteúdo variam de acordo com o tipo de fonte de conteúdo selecionado. A tabela a seguir descreve as opções de configuração de rastreamento para cada tipo de fonte de conteúdo.
Tipo de fonte de conteúdo | Opções de configurações de rastreamento |
---|---|
Sites do SharePoint |
|
Sites |
|
Compartilhamentos de arquivo |
|
Pastas públicas do Exchange |
|
Como mostra a tabela anterior, os administradores de serviços de pesquisa podem usar opções de configuração de rastreamento para limitar ou aumentar a quantidade de conteúdo rastreado.
A tabela a seguir descreve as práticas recomendadas durante a configuração de opções de rastreamento.
Para este tipo de fonte de conteúdo | Se ele pertencer | Use esta opção de configuração de rastreamento |
---|---|---|
Sites do SharePoint |
Você deseja rastrear o conteúdo de um conjunto de sites específico usando um agendamento diferente dos demais. |
Rastrear apenas o site SharePoint de cada endereço de início
Observação:
Esta opção aceita qualquer URL, mas iniciará o rastreamento no site de nível superior do conjunto de sites especificado na URL digitada. Por exemplo, se você digitar http://contoso/sites/vendas/carro mas http://contoso/sites/vendas for o site de nível superior do conjunto, o conjunto de sites http://contoso/sites/vendas e todos os seus subsites serão rastreados.
|
Sites do SharePoint |
Você deseja rastrear todo o conteúdo de todos os conjuntos de sites de um determinado aplicativo Web no mesmo agendamento. |
Rastrear tudo sob o nome do host de cada endereço de início
Observação:
Esta opção só aceita nomes de host como endereços iniciais, como http://contoso. Você não pode inserir a URL de um subsite, como http://contoso/sites/vendas ao usar esta opção.
|
Sites |
O conteúdo do site propriamente dito é relevante. -ou- O conteúdo disponível em sites vinculados provavelmente não é relevante. |
Rastrear somente dentro do servidor de cada endereço de início |
Sites |
O conteúdo relevante está somente na primeira página. |
Rastrear somente a primeira página de cada endereço inicial |
Sites |
Você quer limitar a profundidade do rastreamento dos links nos endereços iniciais. |
Personalizado — Especifique o número de páginas de profundidade e o número de saltos de servidor a serem rastreados
Observação:
É recomendável começar com um número pequeno em um site altamente conectado porque a especificação de mais de três páginas de profundidade ou mais de três saltos de servidor poderá rastrear toda a Internet.
Observação:
Você também pode usar uma ou mais regras de rastreamento para especificar qual conteúdo deseja rastrear. Para obter mais informações, consulte Usar regras de rastreamento para determinar qual conteúdo será rastreado (Search Server 2008).
|
Compartilhamentos de arquivo Pastas públicas do Exchange |
O conteúdo disponível nas subpastas provavelmente não é relevante. |
Rastrear somente a pasta de cada endereço de início |
Compartilhamentos de arquivo Pastas públicas do Exchange |
O conteúdo das subpastas provavelmente é relevante. |
Rastrear a pasta e a subpasta de cada endereço de início |
Inclusões de tipo de arquivo e IFilters
O conteúdo será rastreado somente se a extensão de nome de arquivo relevante estiver na lista de inclusões de tipo e um IFilter estiver instalado no servidor de indexação que oferece suporte a esses tipos de arquivo. Vários tipos de arquivo são automaticamente incluídos durante a instalação inicial. Analisando os logs de consulta, você pode descobrir quais tipos de arquivo contêm conteúdo que seus usuários finais desejam consultar. Talvez descubra a necessidade de rastrear um tipo de arquivo que não está rastreando no momento ou talvez queira excluir determinados tipos de arquivo que estão sendo rastreados.
Ao adicionar tipos de arquivo à lista de inclusões de tipo de arquivo, talvez seja conveniente verificar se tem um IFilter que possa ser usado para analisar o tipo de arquivo quando rastreado. Se não houver um IFilter instalado, o conteúdo dos arquivos desse tipo não serão indexados nem pesquisados. No entanto, os metadados dos arquivos desse tipo específico serão rastreados e pesquisados. Por exemplo, se você adicionar PDF à lista de inclusões de tipo de arquivo, mas não instalar um IFilter para o tipo de arquivo PDF, o conteúdo dos arquivos PDF não serão indexados, mas os metadados deles serão.
O Servidor de Pesquisa da Microsoft 2008 fornece vários IFilters, e mais estão disponíveis na Microsoft e em outros fornecedores. Se for necessário, os desenvolvedores de software poderão criar IFilters para novos tipos de arquivos. Para instalar e registrar IFilters adicionais fornecidos pela Microsoft com o Search Server 2008, consulte o artigo sobre como registrar o Microsoft Filter Pack no SharePoint Server 2007 e no Search Server 2008 (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x416). Para obter mais informações sobre os IFilters, inclusive sobre outros fornecedores, consulte o artigo sobre a Central de Filtros (em inglês) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x416) (em inglês).
Para obter uma lista dos tipos de arquivo compatíveis com os IFilters instalados por padrão e quais tipos de arquivo estão habilitados para rastreamento por padrão, consulte Rastrear mais tipos de arquivo instalando iFilters (Search Server 2008).
Limitar ou excluir conteúdo usando regras de rastreamento
Você pode editar regras de rastreamento existentes ou criar novas para excluir todos os itens ou incluir itens específicos em um determinado caminho.
Observação: |
---|
Quando você adiciona um endereço de início a uma fonte de conteúdo e aceita o comportamento padrão, todos os subsites ou pastas abaixo desse endereço de início são rastreados, a menos que você os exclua usando uma ou mais regras de rastreamento. |
As regras de rastreamento aplicam-se a uma determinada URL ou a um conjunto de URLs representadas por curingas. Essa URL também é indicada como o caminho afetado pela regra. Você pode usar regras de rastreamento para:
Evitar rastrear conteúdo menos relevante excluindo uma ou mais URLs. Isso também ajuda a reduzir o uso de recursos de servidor e o tráfego na rede e a aumentar a relevância dos resultados da pesquisa.
Rastrear links da URL sem rastrear a própria URL. Essa opção é útil para sites com links de conteúdo relevante quando a página que contém os links não contém informações relevantes ou não deve ser exposta aos usuários finais nas páginas de resultados da pesquisa.
Permitir que URLs complexas sejam rastreadas. Essa opção rastreia URLs que contêm um parâmetro de consulta especificado com um ponto de interrogação. Dependendo do site, essas URLs podem ou não incluir conteúdo relevante. Como as URLs complexas podem frequentemente fazer o redirecionamento para sites menos relevantes, convém habilitar essa opção apenas em sites nos quais o conteúdo disponível a partir de URLs complexas seja considerado relevante.
Observação: Essa opção não tem efeito algum no rastreamento de sites do SharePoint, pois o Search Server 2008 enumera todo o conteúdo ao rastrear sites do SharePoint.
Observação: |
---|
Regras de rastreamento aplicam-se simultaneamente a todas as fontes de conteúdo. |
Normalmente, a maioria do conteúdo de um endereço de site específico é relevante, mas não de um subsite ou de um intervalo de sites específico abaixo desse endereço. Selecionando uma determinada combinação de URLs para criar regras de rastreamento que excluam itens desnecessários, os administradores de serviços de pesquisa podem maximizar a relevância do conteúdo na indexação e, ao mesmo tempo, minimizar o impacto sobre o desempenho do rastreamento e o tamanho dos bancos de dados de pesquisa. Criar regras de rastreamento para excluir URLs é particularmente útil durante o planejamento de endereços iniciais para conteúdo externo, pois o impacto sobre o uso de recursos não está sob o controle de pessoas de sua organização.
Ao criar uma regra de rastreamento, você pode usar caracteres curinga padrão no caminho. Por exemplo:
http://server1/folder* contém todos os recursos da Web com uma URL que inicie com http://server1/folder.
*://*.txt inclui todos os documentos com a extensão de nome de arquivo .txt.
Como o rastreamento de conteúdo consome recursos e largura de banda, convém incluir uma quantidade menor de conteúdo relevante. Após a implantação inicial, você poderá revisar os logs de consulta e rastreamento e ajustar as fontes de conteúdo e as regras de rastreamento de forma a serem mais relevantes e incluírem mais conteúdo.
Para limitar ou aumentar a quantidade de conteúdo rastreado, você pode executar os seguintes procedimentos: