Rastrear conteúdo (Search Server 2008)
Atualizado em: 2008-09-11
Observação: |
---|
Exceto quando especificado, as informações neste artigo aplicam-se tanto ao Microsoft Search Server 2008 como ao Microsoft Search Server 2008 Express. |
O rastreamento do conteúdo é o processo pelo qual um sistema acessa e analisa o conteúdo e suas propriedades, às vezes denominados metadados, para criar um índice de conteúdo com base no qual as consultas de pesquisa poderão ser realizadas.
O resultado de um rastreamento de conteúdo bem-sucedido é que as partes de conteúdo ou os arquivos individuais que você deseja disponibilizar para as consultas de pesquisa são acessados e lidos pelo rastreador. As palavras-chave e os metadados desses arquivos são armazenados no índice de conteúdo, algumas vezes chamado de índice. O índice consiste nas palavras-chave armazenadas no sistema de arquivos do servidor de indexação e nos metadados armazenados no banco de dados de pesquisa. O sistema mantém um mapeamento entre as palavras-chave, os metadados associados às partes individuais de conteúdo e à URL da fonte da qual o conteúdo foi rastreado.
Observação: |
---|
O rastreador não altera os arquivos nos servidores host de forma alguma. Em vez disso, os arquivos nos servidores host são acessados e lidos, e o texto e os metadados desses arquivos são enviados para o servidor de indexação para serem indexados. Entretanto, como o rastreador lê o conteúdo no servidor host, alguns servidores que hospedam certas fontes de conteúdo podem atualizar a data de último acesso em arquivos que tenham sido rastreados. |
Determinando quando rastrear o conteúdo
Depois que um farm de servidores tiver sido implantado e estiver em execução há algum tempo, um administrador de serviços de pesquisa normalmente precisa alterar a agenda de rastreamento. Talvez seja necessário fazer isso pelos seguintes motivos:
Para acomodar alterações em períodos de inatividade e de pico de uso.
Para acomodar alterações na frequência com a qual o conteúdo é atualizado nos servidores que hospedam o conteúdo.
Para agendar rastreamentos de modo que:
O conteúdo hospedado em servidores host mais lentos seja rastreado separadamente do conteúdo hospedado em servidores host mais rápidos.
Novas fontes de conteúdo sejam rastreadas.
Os rastreamentos ocorrem na mesma medida em que um conteúdo de destino é atualizado. Por exemplo, talvez seja necessário fazer rastreamentos diários em repositórios atualizados todos os dias e rastrear menos frequentemente repositórios atualizados só ocasionalmente.
Executando rastreamentos
Em geral, você deseja automatizar a maioria dos rastreamentos por meio do agendamento. Entretanto, às vezes você quer iniciar um rastreamento manualmente. Por exemplo, é possível iniciar um rastreamento para aplicar alterações administrativas, como regras de rastreamento, no conteúdo que você rastreia e indexa ou para determinar se um erro no log de rastreamento foi resolvido.
Além disso, não importa se um rastreamento foi iniciado por agendamento ou manualmente, talvez seja necessário interromper ou pausar um ou mais rastreamentos. Por exemplo, um administrador cujo servidor hospeda o conteúdo que você está rastreando pode notificá-lo de que determinado rastreamento está sobrecarregando o servidor ou você pode ser alertado de que o servidor que está sendo rastreado está offline no momento. Em ambos os casos, você pode querer interromper ou pausar o rastreamento.
Você deve considerar que mais tempo e recursos de servidor são necessários para realizar um rastreamento completo do que são necessários para realizar um rastreamento incremental. Os rastreamentos completos:
Consomem mais memória e ciclos de CPU no servidor de indexação que os rastreamentos incrementais.
Consomem mais memória e ciclos de CPU nos servidores Web front-end durante o rastreamento de conteúdo no farm de servidores. Isso não se aplica ao conteúdo externo ao farm de servidores.
Usam mais largura de banda de rede que os rastreamentos incrementais.
Importante: |
---|
Quando você interromper um rastreamento de qualquer fonte de conteúdo, na próxima vez que rastrear essa fonte de conteúdo, o Servidor de Pesquisa da Microsoft 2008 realizará automaticamente um rastreamento completo da fonte de conteúdo. Isso ocorrerá mesmo que você tente realizar um rastreamento incremental. Portanto, considere cuidadosamente se você deve pausar o rastreamento em vez de pará-lo. |
Você também deve ter cuidado para não pausar os rastreamentos de muitas fontes de conteúdo ao mesmo tempo, pis cada fonte de conteúdo pausada consome memória e recursos de CPU no servidor de indexação.
Para iniciar um rastreamento completo ou incremental, interromper, pausar ou reiniciar ou rastreamento, siga um destes procedimentos:
Agendando rastreamentos
As seções a seguir fornecem mais informações sobre considerações do rastreamento de conteúdo em um agendamento.
Tempos de inatividade e períodos de pico de uso
Considere os períodos de inatividade e de pico de uso dos servidores que hospedam o conteúdo que você quer rastrear. Por exemplo, se você estiver rastreando conteúdo hospedado por muitos servidores diferentes fora do farm de servidores, é provável que seja feito backup desses servidores em agendas diferentes, com períodos de uso de pico diferentes. A administração de servidores fora do farm de servidores geralmente fica fora de controle. Portanto, recomendamos que você coordene os rastreamentos com os administradores dos servidores que hospedam o conteúdo que você quer rastrear, de maneira a garantir que você não tente rastrear conteúdo naqueles servidores durante períodos de inatividade ou de pico de uso.
Observação: |
---|
Como os períodos de pico de uso e de inatividade de servidores host podem mudar, recomendamos a reavaliação periódica das programações de rastreamento de todas as fontes de conteúdo, não apenas das novas fontes que você criar. |
Um cenário comum envolve conteúdo fora do controle da empresa relacionado ao conteúdo nos seus sites do SharePoint. Você pode adicionar os endereços de início desse conteúdo a uma fonte de conteúdo existente ou criar uma nova fonte de conteúdo para conteúdo externo. Como a disponibilidade dos sites externos varia amplamente, é útil adicionar fontes de conteúdo à parte para um conteúdo externo distinto. Dessa maneira, as fontes de conteúdo externo poderão ser rastreadas em ocasiões diferentes daquelas das fontes de conteúdo. Em seguida, basta atualizar o conteúdo externo em uma agenda de rastreamento que considere a disponibilidade de cada site.
Conteúdo atualizado com frequência
Ao planejar agendas de rastreamento, considere que algumas fontes de conteúdo são atualizadas com mais frequência que outras. Por exemplo, se você souber que o conteúdo de alguns conjuntos de sites ou fontes externas é atualizado às sextas-feiras, é perda de recurso rastrear conteúdo mais frequentemente que uma vez por semana. Contudo, o farm de servidores pode conter outros conjuntos de sites que são continuamente atualizados de segunda a sexta-feira, mas geralmente não são atualizados aos sábados e domingos. Nesse caso, pode ser interessante rastrear esses sites várias vezes durante a semana e não nos fins de semana.
A maneira pela qual o conteúdo é armazenado nos conjuntos de sites do seu ambiente pode direcioná-lo a criar outras fontes de conteúdo para cada conjunto de sites de cada aplicativo Web. Por exemplo, se um conjunto de sites armazena somente informações arquivadas, talvez não seja necessário rastrear esse conteúdo com a mesma frequência de um conjunto de sites que armazene esses dois conjuntos de sites com fontes de conteúdo diferentes, para que possam ser rastreados em agendas diferentes.
Agendas de rastreamento completo e incremental
Como administrador de serviços de pesquisa, você pode configurar de maneira independente os agendamentos de rastreamento para cada fonte de conteúdo. Para cada fonte de conteúdo, é possível especificar um período para fazer rastreamentos completos e um período diferente para fazer rastreamentos incrementais.
Observação: |
---|
Você precisa executar um rastreamento completo para uma determinada fonte de conteúdo para poder executar um rastreamento incremental. |
É recomendável planejar as agendas de rastreamento com base em considerações de disponibilidade, desempenho e largura de banda dos servidores que executam o serviço de pesquisa e servidores que hospedam o conteúdo rastreado.
Ao planejar agendas de rastreamento, considere as seguintes práticas recomendadas:
Agrupe endereços de início em fontes de conteúdo com base em uma disponibilidade semelhante e com um uso geral aceitável de recursos para os servidores que hospedam o conteúdo.
Agende rastreamentos incrementais para cada fonte de conteúdo durante horários nos quais os servidores que hospedam o conteúdo estão disponíveis e quando houver pouca demanda de recursos nesses servidores. Também é possível adicionar ou editar uma ou mais regras de impacto do rastreador para reduzir a carga dos servidores que estão sendo rastreados. Para obter informações sobre regras de impacto do rastreador, consulte Gerenciar impacto do rastreador (Search Server 2008).
Faça o balanceamento de agendamentos de rastreamento para que a carga nos servidores do seu farm seja distribuída ao longo do tempo.
Só agende rastreamentos completos quando necessário e pelos motivos listados na próxima seção. Recomendamos que você faça rastreamentos completos com menos frequência do que rastreamentos incrementais.
Faça o agendamento de alterações administrativas que exigem um rastreamento completo de forma que ele ocorra logo antes do agendamento planejado para rastreamentos completos. Por exemplo, é recomendável tentar agendar a criação da regra de rastreamento antes do próximo rastreamento completo agendado, para que um rastreamento completo adicional não seja necessário.
Baseie rastreamentos simultâneos na capacidade do servidor de indexação de rastreá-los. É recomendável coordenar as agendas de rastreamento, de modo que o servidor de indexação não rastreie usando várias origens de conteúdo ao mesmo tempo. O desempenho do servidor de indexação e dos servidores que hospedam o conteúdo determina em que medida os rastreamentos podem se sobrepor. Uma estratégia para agendar rastreamentos pode ser desenvolvida ao longo do tempo, à medida que você se familiarize com as durações típicas de rastreamento de cada fonte de conteúdo. Recomendamos registrar dados de tendência do tempo de duração dos rastreamentos no seu ambiente.
Motivos para realizar um rastreamento completo
Os motivos para um administrador de serviços de pesquisa executar um rastreamento completo incluem:
Um ou mais hotfix ou service pack foi instalado nos servidores do farm. Consulte as instruções do hotfix ou service pack para obter mais informações.
Um administrador de serviços de pesquisa adicionou uma nova propriedade gerenciada.
Para indexar novamente páginas ASPX em sites do Windows SharePoint Services 3.0.
Observação: O rastreador não pode descobrir quando as páginas ASPX em sites do Windows SharePoint Services 3.0 ou foram alteradas. Por causa disso, os rastreamentos incrementais não indexam novamente modos de exibição ou home pages quando itens de lista individuais são excluídos. É recomendável executar periodicamente rastreamentos completos de sites que contenham arquivos ASPX para assegurar que essas páginas sejam indexadas novamente.
Para detectar alterações na segurança feitas em um compartilhamento de arquivo depois do último rastreamento completo do compartilhamento de arquivos.
Para resolver falhas de rastreamento incremental consecutivas. Em casos raros, se um rastreamento incremental falhar uma centena de vezes consecutivas em qualquer nível de um repositório, o servidor de indexação removerá o conteúdo afetado do índice.
As regras de rastreamento foram adicionadas, excluídas ou modificadas.
Para reparar um índice corrompido.
O administrador de serviços de pesquisa criou um ou mais mapeamentos de nome de servidor.
A conta atribuída à conta padrão de acesso a conteúdo ou a regra de rastreamento foi alterada.
O sistema executa um rastreamento completo até mesmo quando um rastreamento incremental é solicitado nas seguintes circunstâncias:
Um administrador de serviços de pesquisa interrompe o rastreamento anterior.
Um banco de dados de conteúdo foi restaurado.
Observação: Se você estiver executando o Atualização de infraestrutura para os Microsoft Office Servers, poderá usar a operação de restauração da ferramenta de linha de comando stsadm para alterar se a restauração de um banco de dados de conteúdo causa um rastreamento completo.
Um administrador de farm desanexou e reanexou um banco de dados de conteúdo.
Um rastreamento completo do site nunca foi realizado.
O log de alteração não contém entradas para os endereços que estão sendo rastreados. Se não houver entradas no log de alteração para os itens que estão rastreados, não poderão ocorrer rastreamentos incrementais.
A conta atribuída à conta padrão de acesso a conteúdo ou a regra de rastreamento foi alterada.
Para reparar um índice corrompido.
Dependendo da severidade da corrupção, o sistema poderá tentar executar um rastreamento completo caso ela seja detectada no índice.
Você pode ajustar agendamentos após a implantação inicial com base no desempenho e na capacidade dos servidores do farm e nos servidores que hospedam conteúdo.
Consulte também
Como rastrear conteúdo (Search Server 2008)
Agendar um rastreamento completo (Search Server 2008)
Agendar um rastreamento incremental (Search Server 2008)