Planejar para rastrear conteúdo (Search Server 2008)
Atualizado em: 2008-09-19
Neste artigo:
Sobre como rastrear e indexar conteúdo
Identificar as fontes de conteúdo que você deseja rastrear
Planejar fontes de conteúdo
Planejar a autenticação
Planejar os manipuladores de protocolo
Planejar o gerenciamento do impacto de rastreamento
Planejar regras de rastreamento
Planejar as configurações de pesquisa gerenciadas no nível do farm
Indexando conteúdo em idiomas diferentes
Observação: |
---|
Exceto quando especificado, as informações neste artigo aplicam-se tanto ao Microsoft Search Server 2008 como ao Microsoft Search Server 2008 Express. |
O objetivo deste artigo é ajudar os administradores dos serviços de pesquisa a planejar o rastreamento de conteúdo, ajudando-os a compreender como o Servidor de Pesquisa da Microsoft 2008 rastreia e indexa conteúdo. Para obter mais informações, consulte Adicionar ou remover um administrador de serviços de pesquisa (Search Server 2008).
Para que os usuários finais possam aproveitar a funcionalidade de pesquisa corporativa no Search Server 2008, o conteúdo no qual executarão consultas deve ser rastreado primeiro.
Para os fins deste artigo, conteúdo é um item que pode ser rastreado, como uma página da Web, um documento do Microsoft Office Word ou em arquivo de mensagem de email.
Ao planejar o rastreamento de conteúdo, considere os seguintes fatores:
Onde o conteúdo está fisicamente localizado?
O conteúdo está armazenado em fontes diferentes, como compartilhamentos de arquivos, sites do SharePoint, sites ou outros lugares?
Você deseja rastrear todo o conteúdo armazenado na fonte ou uma parte dele?
Quais tipos de arquivo deseja rastrear?
Quando e com que frequência você rastreará conteúdo?
Como o conteúdo é protegido?
Use as informações neste artigo para ajudá-lo a responder essas perguntas e tomar as decisões de planejamento necessárias sobre o conteúdo que você deseja rastrear e como e quando rastrear esse conteúdo.
Sobre como rastrear e indexar conteúdo
Rastrear e indexar o conteúdo é o processo pelo qual o sistema acessa e analisa o conteúdo e suas propriedades, às vezes denominadas metadados, para criar um índice de conteúdo com base no qual as consultas de pesquisa poderão ser atendidas.
O resultado de um rastreamento de conteúdo bem-sucedido é o acesso e a leitura de arquivos ou partes de conteúdo pelo rastreador. As palavras-chave e os metadados desses arquivos são armazenados no índice de conteúdo, às vezes chamado de índice. O índice consiste em palavras-chave armazenadas no sistema de arquivos do servidor de indexação e nos metadados armazenados no banco de dados de pesquisa. O sistema mantém um mapeamento entre as palavras-chave, os metadados e a URL da fonte na qual o conteúdo foi rastreado.
O serviço de pesquisa está associado ao SSP (Provedor de Serviços Compartilhados) e é atribuído a um servidor específico para indexar conteúdo. Ao contrário do os produtos de servidor da versão 2007 Office System, que pode ter vários SSPs e, portanto, mais de um índice de conteúdo, o Search Server 2008 está limitado a um SSP e, portanto, tem apenas um índice de conteúdo.
Observação: |
---|
O rastreador não altera os arquivos nos servidores host. Em vez disso, o rastreador acessa e lê os arquivos e, em seguida, envia o texto e os metadados ao servidor de indexação. Alguns servidores host alteram a data nos arquivos após o rastreador acessá-los. O rastreador não faz isso. |
Identificar as fontes de conteúdo que você deseja rastrear
Em muitos casos, as necessidades da sua organização podem apenas exigir que você rastreie todo o conteúdo incluído nos sites do SharePoint de seu farm de servidores. Nesse caso, talvez não seja necessário identificar as fontes de conteúdo que deseja rastrear, pois todos os conjuntos de sites de um farm de servidores podem ser rastreados usando a fonte de conteúdo padrão. Para obter mais informações sobre a fonte de conteúdo padrão, consulte Planejar fontes de conteúdo, posteriormente neste artigo.
Muitas organizações também precisam rastrear conteúdo externo ao farm de servidores, como compartilhamentos de arquivos ou sites na Internet. O Search Server 2008 pode rastrear e indexar conteúdo hospedado em outros farms do Windows SharePoint Services, sites, compartilhamentos de arquivos, pastas públicas do Microsoft Exchange e servidores IBM Lotus Notes. Isso aumenta significativamente a quantidade de conteúdo disponível para consultas de pesquisa.
No entanto, em muitos casos, talvez você não queira rastrear cada conjunto de sites no farm de servidores, porque o conteúdo armazenado em alguns conjuntos de sites talvez não seja relevante nos resultados da pesquisa. Nesse caso, siga um ou ambos os procedimentos:
Anote as URLs dos conjuntos de sites que você não deseja rastrear. Se decidir usar a fonte de conteúdo padrão, deverá garantir que os endereços iniciais dos conjuntos de sites que não deseja rastrear não estejam listados na fonte de conteúdo padrão.
Anote os endereços iniciais dos conjuntos de sites que você deseja rastrear. Se você decidir criar fontes de conteúdo adicionais para usar para rastrear esse conteúdo, terá de saber esses endereços iniciais. Informações sobre quando usar uma ou mais fontes de conteúdo são fornecidas na seção Planejar fontes de conteúdo deste artigo.
Dica
Com o servidor de pesquisa, existem duas maneiras de processar consultas de pesquisa para retornar resultados da pesquisa aos usuários. Você pode consultar o índice de conteúdo do servidor de pesquisa ou pode usar pesquisa federada. Há vantagens em cada abordagem. Para ver uma comparação entre essas duas abordagens de processamento consultas de pesquisa, consulte a Visão Geral sobre Pesquisa Federada (em inglês) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x416) (em inglês). Para obter uma lista e uma descrição sucinta dos artigos do Servidor de Pesquisa sobre noções básicas e o uso de federação, consulte Trabalhando com federação (Search Server 2008).
Planejar fontes de conteúdo
Para poder rastrear conteúdo, você deve determinar onde ele está localizado e em que tipos de servidores é hospedado. Após a coleta dessas informações, um administrador de serviços de pesquisa poderá criar uma ou mais fontes de conteúdo. Essas fontes de conteúdo fornecem as seguintes informações ao rastreador:
O tipo de conteúdo a ser rastreado — por exemplo, um site do SharePoint ou armazenamento de arquivos.
O endereço inicial no qual o rastreamento será iniciado.
Tipo de comportamento durante o rastreamento — por exemplo, a profundidade do rastreamento a partir do endereço inicial ou quantos saltos de servidor permitir.
Frequência do rastreamento.
Observação: |
---|
O processo de rastrear o conteúdo usando uma determinada fonte de conteúdo às vezes é denominado "rastreamento da fonte de conteúdo". |
Esta seção o ajuda a planejar as fontes de conteúdo necessárias para a sua organização.
A fonte de conteúdo padrão é chamada de Sites locais do Office SharePoint Server. Os administradores de serviços de pesquisa podem usar essa fonte de conteúdo para rastrear e indexar todo o conteúdo do farm de servidores. Por padrão, o Search Server 2008 adiciona o endereço inicial (neste caso, uma URL) do site de nível superior de cada conjunto de sites do farm à fonte de conteúdo padrão.
Para algumas organizações, o simples uso da fonte de conteúdo padrão para rastrear todos os sites nos conjuntos de sites satisfaz os requisitos de pesquisa. No entanto, muitas organizações precisam de mais fontes de conteúdo.
Os motivos para a criação de fontes de conteúdo adicionais incluem a necessidade de:
Rastrear tipos diferentes de conteúdo.
Rastrear algum conteúdo em agendas diferentes da do conteúdo.
Limitar ou aumentar a quantidade de conteúdo rastreada.
Os administradores de serviços de pesquisa podem criar até 500 fontes de conteúdo e cada fonte pode conter até 500 endereços iniciais. Para manter a administração tão simples quanto possível, você deve criar somente as fontes de conteúdo necessárias.
Rastrear tipos diferentes de conteúdo.
Você somente pode rastrear um tipo de conteúdo por fonte de conteúdo. Ou seja, você pode criar uma fonte de conteúdo que tenha URLs para sites do SharePoint e outra que tenha URLs para compartilhamentos de arquivo, mas não pode criar uma única fonte de conteúdo que tenha URLs para sites do SharePoint e compartilhamentos de arquivo. A tabela a seguir lista os tipos de fontes de conteúdo que podem ser configurados.
Este tipo de fonte de conteúdo | Inclui este tipo de conteúdo |
---|---|
Sites do SharePoint |
Sites do SharePoint do mesmo farm ou de farms diferentes de Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou Search Server 2008
|
Sites |
|
Compartilhamentos de arquivo |
Conteúdo em compartilhamentos de arquivo em sua organização. |
Lotus Notes |
Mensagens de email armazenadas em bancos de dados do Lotus Notes
Observação:
Ao contrário de todos os outros tipos fonte de conteúdo, a opção de fonte de conteúdo do Lotus Notes não aparece na interface de usuário enquanto você não instala e configura o software de pré-requisito apropriado. Para obter mais informações, consulte Configurar o Servidor de Pesquisa para rastrear o Lotus Notes (Search Server 2008).
|
Pastas públicas do Exchange |
Conteúdo do Exchange Server |
Rastrear conteúdo em agendas diferentes
Normalmente, os administradores de serviços de pesquisa decidem se um conteúdo será rastreado com mais frequência que os demais. Quanto maior o volume de conteúdo a rastrear, mais provável será que você esteja rastreando conteúdo de fontes diferentes. Essas fontes diferentes podem ou não ser do mesmo tipo e podem ser hospedadas em servidores de várias velocidades entre si.
Esses fatores aumentam a probabilidade de você precisar de mais fontes de conteúdo para rastrear essas fontes de conteúdo diferentes em ocasiões diferentes.
Os motivos principais do rastreamento de conteúdo em agendas diferentes são:
Para acomodar tempos de inatividade e períodos de pico de uso.
Para rastrear com mais frequência o conteúdo atualizado mais frequentemente.
Para rastrear o conteúdo hospedado em servidores host mais lentos separadamente do conteúdo rastreado em servidores host mais rápidos.
Em muitos casos, nem todas essas informações poderão ser conhecidas antes da implantação e da execução do Search Server 2008 por algum tempo. Em vez disso, algumas dessas decisões são tomadas durante a fase de operações. No entanto, é uma boa ideia considerar esses fatores durante o planejamento, para que você possa planejar as agendas de rastreamento com base nas informações disponíveis.
As duas seções a seguir fornecem mais informações sobre como rastrear conteúdo em agendas diferentes.
Tempos de inatividade e períodos de pico de uso
Considere os períodos de inatividade e os tempos de pico de uso dos servidores que hospedam o conteúdo que você quer rastrear. Por exemplo, se você estiver rastreando conteúdo hospedado por muitos servidores diferentes fora do farm de servidores, é provável que o backup desses servidores seja realizado em agendas diferentes e tenha tempos de pico de uso distintos. A administração de servidores fora do farm geralmente está fora do seu controle. Assim, é recomendável coordenar os rastreamentos com os administradores dos servidores que hospedam o conteúdo que você deseja rastrear para assegurar que não haja uma tentativa de rastreamento de conteúdo em seus servidores durante um tempo de inatividade ou tempo de pico de uso.
Um cenário comum envolve um conteúdo fora do controle da sua empresa relacionado ao conteúdo nos seus sites do SharePoint. Você pode adicionar os endereços de início desse conteúdo a uma fonte de conteúdo existente ou criar uma nova fonte de conteúdo para conteúdo externo. Como a disponibilidade dos sites externos varia amplamente, é útil adicionar fontes de conteúdo à parte para um conteúdo externo distinto. Dessa maneira, as fontes de conteúdo externo poderão ser rastreadas em ocasiões diferentes daquelas das fontes de conteúdo. Em seguida, basta atualizar o conteúdo externo em um agendamento de rastreamento que considere a disponibilidade de cada site.
Conteúdo atualizado com frequência
Ao planejar agendamentos de rastreamento, considere que algumas fontes de conteúdo geralmente são atualizadas com mais frequência que outras. Por exemplo, se você souber que o conteúdo em alguns conjuntos de sites ou fontes externas é atualizado somente nas sextas-feiras, seria um desperdício de recursos rastrear esse conteúdo com uma frequência maior que uma vez por semana. Entretanto, o farm de servidores pode conter outros conjuntos de sites que sejam atualizados continuamente de segunda a sexta, mas que normalmente não sejam atualizados aos sábados e domingos. Nesse caso, você pode rastrear várias vezes em cada dia da semana, mas apenas uma ou duas vezes nos fins de semana.
A maneira como o conteúdo é armazenado nos conjuntos de sites do seu ambiente pode orientá-lo na criação de fontes de conteúdo adicionais para cada um dos conjuntos de sites em cada um dos aplicativos Web. Por exemplo, se um conjunto de sites armazenar apenas informações arquivadas, talvez você não precise rastrear esse conteúdo com tanta frequência quanto rastreia um conjunto de sites que armazena conteúdo atualizado frequentemente. Nesse caso, você pode rastrear esses dois conjuntos de sites usando fontes de conteúdo diferentes para que eles possam ser rastreados em agendamentos diferentes, sem ter de rastrear os sites de dados arquivados com a mesma frequência que o outro conteúdo.
Agendas de rastreamento completo e incremental
Os administradores de serviços de pesquisa podem configurar cronogramas de rastreamento independentemente para cada fonte de conteúdo. Para cada fonte de conteúdo, eles podem especificar um tempo total de rastreamento e um tempo separado para fazer rastreamentos incrementais. Lembre-se de que você deve executar um rastreamento completo para uma determinada fonte de conteúdo antes de executar um rastreamento incremental. Se você escolher um rastreamento incremental para uma fonte de conteúdo ainda não rastreada, o sistema executará um rastreamento completo.
É recomendável planejar as agendas de rastreamento com base em considerações de disponibilidade, desempenho e largura de banda dos servidores que executam o serviço de pesquisa e servidores que hospedam o conteúdo rastreado.
Ao planejar agendas de rastreamento, considere as seguintes práticas recomendadas:
Agrupe endereços de início em fontes de conteúdo com base em uma disponibilidade semelhante e com um uso geral aceitável de recursos para os servidores que hospedam o conteúdo.
Agende rastreamentos incrementais para cada fonte de conteúdo durante horários nos quais os servidores que hospedam o conteúdo estão disponíveis e quando houver pouca demanda de recursos nesses servidores.
Faça o balanceamento de agendamentos de rastreamento para que a carga nos servidores do seu farm seja distribuída ao longo do tempo.
Só agende rastreamentos completos quando for necessário e pelos motivos listados na próxima seção. Recomendamos agendar rastreamentos completos com menos frequência que os rastreamentos incrementais.
Faça o agendamento de alterações administrativas que exigem um rastreamento completo de forma que ele ocorra logo antes do agendamento planejado para rastreamentos completos. Por exemplo, é recomendável tentar agendar a criação da regra de rastreamento antes do próximo rastreamento completo agendado, para que um rastreamento completo adicional não seja necessário.
Baseie rastreamentos simultâneos na capacidade do servidor de indexação de rastreá-los. É recomendável coordenar as agendas de rastreamento de modo que o servidor de indexação não rastreie usando várias fontes de conteúdo ao mesmo tempo. Para obter o melhor desempenho, sugerimos que você coordene as agendas de rastreamento de fontes de conteúdo. O desempenho do servidor de indexação e dos servidores que hospedam o conteúdo determina a extensão até a qual os rastreamentos podem ser sobrepostos. Uma estratégia para agendar rastreamentos pode ser desenvolvida com o tempo, à medida que você se familiariza com as durações de rastreamento típicas para cada fonte de conteúdo.
Motivos para executar um rastreamento completo
Os motivos para um administrador de serviços de pesquisa executar um rastreamento completo incluem:
Um ou mais hotfix ou service pack foi instalado nos servidores do farm. Consulte as instruções do hotfix ou service pack para obter mais informações.
Um administrador de serviços de pesquisa adicionou uma nova propriedade gerenciada.
Para indexar novamente páginas ASPX em sites do Windows SharePoint Services 3.0.
Observação: O rastreador não pode descobrir quando as páginas ASPX em sites do Windows SharePoint Services 3.0 ou foram alteradas. Por causa disso, os rastreamentos incrementais não indexam novamente modos de exibição ou home pages quando itens de lista individuais são excluídos. É recomendável executar periodicamente rastreamentos completos de sites que contenham arquivos ASPX para assegurar que essas páginas sejam indexadas novamente.
Para detectar alterações na segurança feitas em um compartilhamento de arquivo depois do último rastreamento completo do compartilhamento de arquivos.
Para resolver falhas de rastreamento incremental consecutivas. Em casos raros, se um rastreamento incremental falhar uma centena de vezes consecutivas em qualquer nível de um repositório, o servidor de indexação removerá o conteúdo afetado do índice.
As regras de rastreamento foram adicionadas, excluídas ou modificadas.
Para reparar um índice corrompido.
O administrador de serviços de pesquisa criou um ou mais mapeamentos de nome de servidor.
A conta atribuída à conta padrão de acesso a conteúdo ou a regra de rastreamento foi alterada.
O sistema executa um rastreamento completo até mesmo quando um rastreamento incremental é solicitado nas seguintes circunstâncias:
Um administrador de serviços de pesquisa interrompe o rastreamento anterior.
Um banco de dados de conteúdo foi restaurado.
Observação: Se você estiver executando a Atualização de infraestrutura para os Microsoft Office Servers, poderá usar a operação de restauração da ferramenta de linha de comando Stsadm para alterar se a restauração de um banco de dados de conteúdo causa um rastreamento completo.
Um administrador de farm desanexou e reanexou um banco de dados de conteúdo.
Um rastreamento completo do site nunca foi realizado.
O log de alteração não contém entradas para os endereços que estão sendo rastreados. Se não houver entradas no log de alteração para os itens que estão rastreados, não poderão ocorrer rastreamentos incrementais.
A conta atribuída à conta padrão de acesso a conteúdo ou a regra de rastreamento foi alterada.
Para reparar um índice corrompido.
Dependendo da severidade da corrupção, o sistema poderá tentar executar um rastreamento completo caso ela seja detectada no índice.
Você pode ajustar agendamentos após a implantação inicial com base no desempenho e na capacidade dos servidores do farm e nos servidores que hospedam conteúdo.
Limitar ou aumentar a quantidade de conteúdo rastreada.
Para cada fonte de conteúdo, você pode selecionar em que nível rastreará os endereços de início nessa fonte de conteúdo. Você também especifica o comportamento do rastreamento, o que às vezes denominamos configurações de rastreamento. As opções que você pode escolher para uma determinada fonte de conteúdo variam um pouco com base no tipo de fonte de conteúdo selecionado. No entanto, muitas opções determinam quantos níveis na hierarquia de cada endereço inicial listado na fonte de conteúdo são rastreados. Observe que esse comportamento é aplicado a todos os endereços iniciais em uma determinada fonte de conteúdo. Se você precisar rastrear alguns sites em níveis mais profundos, crie fontes de conteúdo adicionais que englobem esses sites.
As opções disponíveis nas propriedades para cada fonte de conteúdo variam de acordo com o tipo de fonte de conteúdo selecionado. A tabela a seguir descreve as opções de configuração de rastreamento para cada tipo de fonte de conteúdo.
Tipo de fonte de conteúdo | Opções de configurações de rastreamento |
---|---|
Sites do SharePoint |
|
Sites |
|
Compartilhamentos de arquivo |
|
Pastas públicas do Exchange |
|
Como mostra a tabela anterior, os administradores de serviços de pesquisa podem usar opções de configuração de rastreamento para limitar ou aumentar a quantidade de conteúdo rastreado.
A tabela a seguir descreve as práticas recomendadas durante a configuração de opções de rastreamento.
Para este tipo de fonte de conteúdo | Se ele pertencer | Use esta opção de configuração de rastreamento |
---|---|---|
Sites do SharePoint |
Você deseja incluir o conteúdo no próprio site -ou- Não deseja incluir o conteúdo disponível em subsites ou deseja rastreá-los seguindo um cronograma diferente |
Rastrear apenas o site SharePoint de cada endereço de início |
Sites do SharePoint |
Você deseja incluir o conteúdo no próprio site -ou- Você deseja rastrear todo o conteúdo no endereço inicial seguindo o mesmo cronograma |
Rastrear tudo sob o nome do host de cada endereço de início |
Sites |
O conteúdo do site propriamente dito é relevante. -ou- O conteúdo disponível em sites vinculados provavelmente não é relevante. |
Rastrear somente dentro do servidor de cada endereço de início |
Sites |
O conteúdo relevante está somente na primeira página. |
Rastrear somente a primeira página de cada endereço inicial |
Sites |
Você quer limitar a profundidade do rastreamento dos links nos endereços iniciais. |
Personalizado — Especifique o número de páginas de profundidade e o número de saltos de servidor a serem rastreados
Observação:
É recomendável começar com um número pequeno em um site altamente conectado, porque a especificação de mais de três páginas de profundidade ou mais de três saltos de servidor poderá rastrear toda a Internet.
|
Compartilhamentos de arquivo Pastas públicas do Exchange |
O conteúdo disponível nas subpastas provavelmente não é relevante |
Rastrear somente a pasta de cada endereço de início |
Compartilhamentos de arquivo Pastas públicas do Exchange |
O conteúdo das subpastas provavelmente é relevante |
Rastrear a pasta e a subpasta de cada endereço de início |
Planejar inclusões de tipos de arquivo e IFilters
O conteúdo só é rastreado se a extensão de nome de arquivo relevante estiver incluída na lista de inclusões de tipos de arquivo e um iFilter estiver instalado no servidor de indexação com suporte a esses tipos de arquivo. Vários tipos de arquivo são incluídos automaticamente durante a instalação inicial. Quando você planejar as fontes de conteúdo na implantação inicial, determine se o conteúdo que deseja rastrear usa tipos de arquivo que não estão incluídos. Se os tipos de arquivo não estiverem incluídos, você deverá adicioná-los na página Gerenciar Tipos de Arquivo durante a implantação e se certificar de que um IFilter foi instalado e registrado para suportar esse tipo de arquivo.
O Search Server 2008 oferece vários IFilters, além dos disponíveis pela Microsoft e por outros fornecedores. Para obter mais informações sobre como instalar e registrar IFilters adicionais disponíveis pela Microsoft, consulte Como registrar o Microsoft Filter Pack no SharePoint Server 2007 e no Search Server 2008. Os IFilters podem ser criados por desenvolvedores de software, para novos tipos de arquivos, conforme necessário.
Por outro lado, se você quiser excluir certos tipos de arquivo do rastreamento, poderá excluir a extensão de nome de arquivo para esse tipo de arquivo da lista de inclusões de tipo de arquivo. Isso excluirá nomes de arquivos que tenham essa extensão do rastreamento.
A tabela a seguir lista quais tipos de arquivo são aceitos pelos IFilters instalados por padrão e quais tipos de arquivo são habilitados na página Gerenciar Tipos de Arquivo por padrão.
Extensão de nome de arquivo | Suporte de IFilter padrão | Inclusões de tipo de arquivo padrão |
---|---|---|
ascx |
Sim |
Sim |
asm |
Sim |
Não |
.asp |
Sim |
Sim |
aspx |
Sim |
Sim |
.bat |
Sim |
Não |
c |
Sim |
Não |
.cmd |
Sim |
Não |
cpp |
Sim |
Não |
css |
Sim |
Não |
cxx |
Sim |
Não |
def |
Sim |
Não |
dic |
Sim |
Não |
doc |
Sim |
Sim |
docm |
Sim |
Sim |
docx |
Sim |
Sim |
dot |
Sim |
Sim |
eml |
Sim |
Sim |
exch |
Não |
Sim |
h |
Sim |
Não |
hhc |
Sim |
Não |
hht |
Sim |
Não |
hpp |
Sim |
Não |
hta |
Sim |
Não |
htm |
Sim |
Sim |
html |
Sim |
Sim |
htw |
Sim |
Não |
htx |
Sim |
Não |
jhtml |
Não |
Sim |
jsp |
Não |
Sim |
lnk |
Sim |
Não |
mht |
Sim |
Sim |
mhtml |
Sim |
Sim |
mpx |
Sim |
Não |
msg |
Sim |
Sim |
mspx |
Não |
Sim |
nsf |
Não |
Sim |
odc |
Sim |
Sim |
one |
Não |
Não |
php |
Não |
Sim |
pot |
Sim |
Não |
pps |
Sim |
Não |
ppt |
Sim |
Sim |
pptm |
Sim |
Sim |
pptx |
Sim |
Sim |
pub |
Sim |
Sim |
stm |
Sim |
Não |
tif |
Sim |
Sim |
tiff |
Não |
Sim |
trf |
Sim |
Não |
txt |
Sim |
Sim |
url |
Não |
Sim |
vdx |
Não |
Sim |
vsd |
Não |
Sim |
vss |
Não |
Sim |
vst |
Não |
Sim |
vsx |
Não |
Sim |
vtx |
Não |
Sim |
xlb |
Sim |
Não |
xlc |
Sim |
Não |
xls |
Sim |
Sim |
xlsm |
Sim |
Sim |
xlsx |
Sim |
Sim |
xlt |
Sim |
Não |
xml |
Sim |
Sim |
IFilters e Microsoft Office OneNote
Um IFilter não é fornecido para a extensão de nome de arquivo .one usada pelo Microsoft Office OneNote. Se você quiser que os usuários possam pesquisar conteúdo em arquivos do Office OneNote, instale um IFilter para o OneNote. Para fazer isso, você deve seguir um destes procedimentos:
Instale o aplicativo cliente do Microsoft Office OneNote 2007 no servidor de indexação.
O IFilter fornecido pelo Office OneNote 2007 pode ser usado para rastrear arquivos do Office OneNote 2003 e do Office OneNote 2007. O IFilter instalado pelo Office OneNote 2003 pode rastrear apenas arquivos do Office OneNote 2003.
Instale e registre o Microsoft Filter Pack.
O IFilter do OneNote fornecido por esse pacote de filtros pode usado para rastrear apenas arquivos do Office OneNote 2007. Para obter mais informações, consulte Como registrar o Microsoft Filter Pack no SharePoint Server 2007 e no Search Server 2008.
Limitar ou excluir conteúdo usando regras de rastreamento
Quando você adiciona um endereço de início a uma fonte de conteúdo e aceita o comportamento padrão, todos os subsites ou pastas abaixo desse endereço de início são rastreados, a menos que você os exclua usando uma ou mais regras de rastreamento.
Para obter mais informações sobre regras de rastreamento, consulte Planejar regras de rastreamento posteriormente neste artigo.
Outras considerações ao planejar fontes de conteúdo
Você não pode rastrear os mesmos endereços usando várias fontes de conteúdo. Por exemplo, se você usar uma fonte de conteúdo particular para rastrear um conjunto de sites e todos os seus subsites, não poderá usar uma fonte de conteúdo diferente para rastrear um desses subsites separadamente em outra agenda. Para acomodar essa restrição, talvez seja necessário rastrear alguns desses sites separadamente. Considere o seguinte cenário:
Um administrador da Contoso deseja rastrear http://contoso, que contém os subsites http://contoso/sites/site1 e http://contoso/sites/site2. O administrador deseja rastrear http://contoso/sites/site2 seguindo um cronograma diferente dos outros sites. Para fazer isso, o administrador adiciona os endereços http://contoso e http://contoso/sites/site1 a uma fonte de conteúdo e seleciona a configuração chamada Rastrear apenas o Site do SharePoint de cada endereço inicial. O subsite http://contoso/sites/site2 é então adicionado a uma fonte de conteúdo separada com um cronograma de rastreamento diferente.
Além dos agendamentos de rastreamento, há outros itens a serem considerados durante o planejamento de fontes de conteúdo. Por exemplo, a opção de agrupar endereços iniciais em uma única fonte de conteúdo ou criar fontes de conteúdo adicionais para rastrear esses endereços iniciais depende amplamente de considerações de administração. Em geral, os administradores fazem alterações que exigem a atualização completa de uma fonte de conteúdo específica. As alterações em uma fonte de conteúdo exigem um rastreamento completo dessa fonte. Para facilitar a administração, organize as fontes de conteúdo de forma que a atualização delas, das regras de rastreamento e do conteúdo de rastreamento seja conveniente aos administradores.
Resumo de fontes de conteúdo
Considere o seguinte ao planejar suas fontes de conteúdo:
Uma determinada fonte de conteúdo pode ser usada para rastrear apenas um dos seguintes tipos de conteúdo: sites do SharePoint, sites que não são do SharePoint, compartilhamentos de arquivos, pastas públicas do Exchange e bancos de dados do Lotus Notes.
Os administradores de serviços de pesquisa podem criar até 500 fontes de conteúdo e cada fonte pode conter até 500 endereços iniciais. Para manter a administração tão simples quanto possível, crie somente as fontes de conteúdo absolutamente necessárias.
Todas as URLs de uma determinada fonte de conteúdo devem ser do mesmo tipo de fonte de conteúdo.
Para uma determinada fonte de conteúdo, você pode escolher com que profundidade rastrear os endereços iniciais. Essas definições de configuração aplicam-se a todos os endereços iniciais na fonte de conteúdo. As opções disponíveis de profundidade de rastreamento de endereços iniciais são diferentes de acordo com o tipo de fonte de conteúdo selecionado.
Você pode agendar quando executar um rastreamento completo ou incremental para toda a fonte de conteúdo. Para obter mais informações sobre como agendar rastreamentos, consulte Planejas as regras de rastreamento, posteriormente neste artigo.
Os administradores de serviços de pesquisa podem modificar a fonte de conteúdo padrão, criar fontes de conteúdo adicionais para rastrear outro conteúdo, ou ambos. Por exemplo, eles podem configurar a fonte de conteúdo padrão para rastrear também o conteúdo de um farm de servidores diferente ou podem criar uma nova fonte de conteúdo para rastrear outro conteúdo.
Para rastrear com eficiência todo o conteúdo necessário para a organização, use tantas fontes de conteúdo quantas fizer sentido para os tipos de fonte que você deseja rastrear e para a frequência na qual planeja rastreá-las.
Planejar a autenticação
Quando o rastreador acessa os endereços de início listados nas fontes de conteúdo, ele deve ser autenticado pelos servidores que hospedam esse conteúdo e ter permissão de acesso a eles. Isso significa que a conta de domínio usada pelo rastreador deve ter pelo menos permissão de leitura no conteúdo.
A conta de acesso ao conteúdo padrão é aquela usada por padrão no rastreamento das fontes de conteúdo. Essa conta é especificada pelo administrador de serviços de pesquisa. Como alternativa, você pode usar regras de rastreamento para especificar uma conta de acesso ao conteúdo diferente a ser usada no rastreamento de um determinado conteúdo. Independentemente de usar a conta de acesso ao conteúdo padrão ou qualquer outra especificada por uma regra de rastreamento, a conta usada deve ter acesso de leitura a todo o conteúdo rastreado; caso contrário, o conteúdo não será rastreado nem disponibilizado para consultas.
É recomendável selecionar uma conta de acesso de conteúdo padrão que tenha o acesso mais amplo à maior parte do conteúdo rastreado e usar apenas outras contas de acesso de conteúdo quando as considerações de segurança exigirem contas de acesso de conteúdo separadas. Para obter mais informações sobre como criar contas de acesso de conteúdo separadas para rastrear conteúdo que não possa ser lido com o uso da conta de conteúdo de acesso padrão, consulte Planejar regras de rastreamento posteriormente neste artigo.
Para cada fonte de conteúdo que você planejar, identifique os endereços de início que não podem ser acessados pela conta de acesso de conteúdo padrão e planeje adicionar regras de rastreamento para padrões de URL que englobem esses endereços de início.
Observação: |
---|
Verifique se a conta de domínio usada para a conta de acesso de conteúdo padrão ou qualquer outra conta de acesso de conteúdo não é a mesma conta de domínio usada por um pool de aplicativos associado a qualquer aplicativo Web rastreado. Isso poderá causar conteúdo não publicado em sites do SharePoint e versões secundárias de arquivos (histórico) em sites do SharePoint a serem rastreados e indexados. |
Para obter mais informações sobre as considerações de planejamento das contas de acesso ao conteúdo padrão, consulte Planejar regras de rastreamento, posteriormente neste artigo.
Outra consideração importante é que o rastreador deve usar o mesmo método de autenticação que o servidor host. Por padrão, o rastreador tenta autenticar usando autenticação NTLM. Você pode configurar o rastreador para usar um método de autenticação diferente, se necessário. Para obter mais informações, consulte o tópico sobre requisitos de autenticação para rastreamento de conteúdo em Planejar métodos de autenticação (Office SharePoint Server). Esse artigo também pertence ao Search Server 2008.
Planejar os manipuladores de protocolo
Todo o conteúdo rastreado requer o uso de um manipulador de protocolo para obter acesso a esse conteúdo. O Search Server 2008 fornece manipuladores de conteúdo para todos os protocolos de Internet comuns. No entanto, se você quiser rastrear conteúdo que exija um manipulador de protocolo que não seja instalado com o Search Server 2008, instale o manipulador de protocolo de terceiro ou personalizado antes de rastrear esse conteúdo.
A tabela a seguir mostra os manipuladores de protocolo instalados por padrão.
Manipulador de protocolo | Usado para rastrear |
---|---|
Arquivo |
Compartilhamentos de arquivo |
http |
Sites |
https |
Sites sobre SSL |
Observações |
Bancos de dados do Lotus Notes |
Rb |
Pastas públicas do Exchange |
Rbs |
Pastas públicas do Exchange sobre SSL |
Sps |
Perfis pessoais de farms de servidores do Windows SharePoint Services 2.0 |
Sps3 |
Rastreamentos de perfis pessoais de farms de servidores do Windows SharePoint Services 3.0 apenas |
Sps3s |
Rastreamentos de perfis pessoais de farms de servidores do Windows SharePoint Services 3.0 sobre SSL |
Spsimport |
Importação de perfil pessoal |
Spss |
Importação de perfil pessoal de farms de servidores do Windows SharePoint Services 2.0 sobre SSL |
Sts |
URLs de raiz do Windows SharePoint Services 3.0 (protocolo interno) |
Sts2 |
Sites do Windows SharePoint Services 2.0 |
Sts2s |
Sites do Windows SharePoint Services 2.0 sobre SSL |
Sts3 |
Sites do Windows SharePoint Services 3.0 |
Sts3s |
Sites do Windows SharePoint Services 3.0 sobre SSL |
Planejar o gerenciamento do impacto de rastreamento
O rastreamento de conteúdo pode diminuir significativamente o desempenho dos servidores que hospedam o conteúdo. O impacto que isso tem em um determinado servidor varia de acordo com a carga atual do servidor host e se o servidor tem recursos suficientes (particularmente de CPU e RAM) para manter contratos de nível de serviço sob o uso normal ou de pico.
As regras de impacto do rastreador permitem que os administradores de farm gerenciem o impacto do seu rastreador sobre os servidores sendo rastreados. Para cada regra de impacto de rastreador, você pode especificar uma única URL ou usar caracteres curinga no caminho de URL para incluir um bloco de URLs às quais a regra se aplica. Em seguida, você pode especificar quantas solicitações simultâneas de páginas são feitas para a URL especificada ou optar por solicitar somente um documento de cada vez e esperar alguns segundos entre as solicitações.
As regras de impacto de rastreador reduzem ou aumentam a taxa na qual o rastreador solicita conteúdo de um determinado endereço de início ou intervalo de endereços de início (às vezes denominado nome de site), independentemente da fonte de conteúdo usada para rastrear esses endereços. A tabela a seguir mostra os caracteres curinga que podem ser utilizados no nome do site ao adicionar uma regra.
Caractere curinga a ser usado | Resultado |
---|---|
* como o nome do site |
Aplica a regra a todos os sites. |
*.* como o nome do site |
Aplica a regra a sites com pontos no nome. |
*.nome_do_site.com como o nome do site |
Aplica a regra a todos os sites no domínio nome_do_site.com (por exemplo, *.adventure-works.com). |
*.nome_de_domínio_de_nível_superior como o nome do site |
Aplica a regra a todos os sites que terminam com um nome de domínio de nível superior específico, por exemplo, *.com ou *.net. |
? |
Substitui um único caractere em uma regra. Por exemplo, *.adventure-works?.com se aplica a todos os sites nos domínios adventure-works1.com, adventure-works2.com e assim por diante. |
Você pode criar uma regra de impacto do rastreador que se aplique a todos os sites de um determinado domínio de nível superior. Por exemplo, *.com aplica-se a todos os sites da Internet com endereços que terminam com .com. Por exemplo, o administrador de um site de portal talvez queira adicionar uma fonte de conteúdo para exemplo.Microsoft.com. A regra de *.com aplica-se a esse site a menos que você adicione uma regra de impacto do rastreador especificamente para exemplo.Microsoft.com.
Para o conteúdo de sua empresa rastreado por outros administradores, é possível trabalhar coordenadamente com esses administradores de forma a criar regras de impacto do rastreador com base no desempenho e na capacidade dos servidores. Para a maioria dos sites externos, essa coordenação não é possível. A solicitação de muito conteúdo em servidores externos ou o excesso de novas solicitações podem fazer com que os administradores desses sites limitem o seu acesso futuro se os seus rastreamentos estiverem usando muitos recursos ou muita largura de banda. Assim, a prática recomendada é rastrear mais lentamente. Dessa forma, você pode atenuar o risco de perder o acesso para rastrear o conteúdo relevante.
Durante a implantação inicial, defina as regras de impacto do rastreador de forma a criar o menor impacto possível sobre outros servidores e, ao mesmo tempo, ainda rastrear o conteúdo com a frequência necessária para garantir que o conteúdo rastreado permaneça atualizado.
Durante a fase de operações, é possível ajustar regras de impacto do rastreador com base nas suas experiências e nos dados de logs de rastreamento.
Planejar regras de rastreamento
As regras de rastreamento se aplicam a uma determinada URL ou conjunto de URLs representado por caracteres curinga (também referenciado como o caminho afetado pela regra). Use as regras de rastreamento para executar as seguintes operações:
Evite rastrear conteúdo irrelevante excluindo uma ou mais URLs. Isso também ajuda a reduzir o uso de recursos de servidor e o tráfego na rede e a aumentar a relevância dos resultados da pesquisa.
Rastrear links da URL sem rastrear a própria URL. Essa opção é útil para sites com links de conteúdo relevante quando a página que contém os links não contém informações relevantes.
Permitir que URLs complexas sejam rastreadas. Essa opção rastreia URLs que contêm um parâmetro de consulta especificado com um ponto de interrogação. Dependendo do site, essas URLs podem ou não ter conteúdo relevante. Como as URLs complexas podem frequentemente fazer o redirecionamento para sites irrelevantes, convém habilitar essa opção apenas em sites nos quais o conteúdo disponível a partir de URLs complexas seja considerado relevante.
Permitir que o conteúdo de sites do SharePoint seja rastreado como páginas HTTP. Essa opção permite que o servidor de indexação rastreie sites do SharePoint que estejam atrás de um firewall ou em cenários nos quais o site sendo rastreado restrinja o acesso ao serviço Web usado pelo rastreador.
Especifique se você deseja usar a conta de acesso de conteúdo padrão, uma conta de acesso de conteúdo diferente ou um certificado cliente para rastrear a URL especificada.
Observação: |
---|
Regras de rastreamento aplicam-se simultaneamente a todas as fontes de conteúdo. |
Normalmente, a maioria do conteúdo de um endereço de site específico é relevante, mas não de um subsite ou de um intervalo de sites específico abaixo desse endereço. Selecionando uma determinada combinação de URLs para criar regras de rastreamento que excluam itens desnecessários, os administradores de serviços de pesquisa podem maximizar a relevância do conteúdo na indexação e, ao mesmo tempo, minimizar o impacto sobre o desempenho do rastreamento e o tamanho dos bancos de dados de pesquisa. Criar regras de rastreamento para excluir URLs é particularmente útil durante o planejamento de endereços iniciais para conteúdo externo, cujo impacto sobre o uso de recursos não está sob o controle de pessoas de sua organização.
Ao criar uma regra de rastreamento, você pode usar caracteres curinga padrão no caminho. Por exemplo:
http://server1/folder* contém todos os recursos da Web com uma URL que inicie com http://server1/folder.
*://*.txt inclui todos os documentos com a extensão de nome de arquivo .txt.
Como o rastreamento de conteúdo consome recursos e largura de banda, convém incluir uma quantidade menor de conteúdo relevante do que uma grande quantidade de conteúdo irrelevante. Após a implantação inicial, você poderá revisar os logs de consulta e rastreamento e ajustar as fontes de conteúdo e as regras de rastreamento de forma a serem mais relevantes e incluírem mais conteúdo.
Especificar uma conta de acesso de conteúdo diferente
Para regras de rastreamento que incluam conteúdo, os administradores têm a opção de alterar a conta de conteúdo de acesso para uma regra. A conta de acesso a conteúdo padrão apenas será usada se outra conta for especificada em uma regra de conteúdo. O principal motivo de usar uma conta de acesso de conteúdo diferente para uma regra de rastreamento é que a conta de acesso a conteúdo padrão não precisa acessar todos os endereços de início. Para esses endereços, é possível criar uma regra de rastreamento e especificar uma conta que tenha acesso.
Observação: |
---|
Verifique se a conta de domínio usada para a conta de acesso de conteúdo padrão ou qualquer outra conta de acesso de conteúdo não é a mesma conta de domínio usada por um pool de aplicativos associado a qualquer aplicativo Web rastreado. Isso poderá causar conteúdo não publicado em sites do SharePoint e versões secundárias de arquivos (histórico) em sites do SharePoint a serem rastreados e indexados. |
Planejar as configurações de pesquisa gerenciadas no nível do farm
Além das definições configuradas no nível da Administração da Pesquisa, várias definições gerenciadas no nível do farm afetam a forma de rastreamento do conteúdo. Considere as definições ao de pesquisa no nível do farm a seguir ao planejar o rastreamento:
Email do contato O rastreamento de conteúdo afeta os recursos dos servidores que estão sendo rastreados. Para poder rastrear conteúdo, você deve fornecer, nas definições de configuração, o email da pessoa de sua organização que os administradores podem contatar caso o rastreamento afete negativamente seus servidores. Esse email aparecerá nos logs dos administradores dos servidores que estão sendo rastreados para que eles possam contatar alguém, caso o rastreamento cause impacto no desempenho e a largura de banda fique grande demais ou caso ocorram outros problemas.
O email do contato deve ser de uma pessoa que tenha os conhecimentos necessários e disponibilidade para responder rapidamente às solicitações. Se desejar, use um alias de lista de distribuição monitorada como email do contato. Independentemente de o conteúdo rastreado ser ou não armazenado internamente na empresa, é essencial ter um tempo de resposta rápido.
Definições do servidor proxy Você pode optar por usar ou não um servidor proxy ao rastrear conteúdo. O servidor proxy a ser usado dependerá da topologia de sua implantação do Search Server 2008 e da arquitetura de outros servidores de sua organização.
Definições de tempo limite As definições de tempo limite são usadas para limitar o tempo que o servidor de pesquisa aguarda ao se conectar a outros serviços.
Definição de SSL A definição de SSL determina se o certificado SSL deve corresponder exatamente no rastreamento de conteúdo.
Indexando conteúdo em idiomas diferentes
Ao rastrear conteúdo, o rastreador determina cada palavra do conteúdo que localiza. Os idiomas que têm palavras separadas por espaços tornam relativamente fácil para o rastreador distinguir cada uma delas. Em outros idiomas, encontrar os limites entre palavras pode ser mais complexo.
O Search Server 2008 fornece separadores de palavras e lematizadores por padrão para ajudar a rastrear e indexar conteúdo em vários idiomas. Os separadores de palavras encontram os limites da palavra em dados indexados de texto completo, enquanto os lematizadores conjugam verbos.
Se você estiver rastreando qualquer um dos idiomas listados na tabela a seguir, o Search Server 2008 usará automaticamente o separador de palavra e o lematizador apropriados a esse idioma. Um asterisco (*) indica que o recurso de lematização está ativado por padrão.
Idioma aceito por padrão | Idioma aceito por padrão |
---|---|
Árabe |
Lituano* |
Bengalês |
Malaio |
Búlgaro* |
Malaiala* |
Catalão |
Marata |
Croata |
Norueguês - Bokmal |
Tcheco* |
Polonês* |
Dinamarquês |
Português |
Holandês |
Português - Brasil |
Inglês |
Punjabi |
Finlandês* |
Romeno* |
Francês* |
Russo* |
Alemão* |
Sérvio - Cirílico* |
Grego* |
Sérvio - Latim* |
Guzerate |
Eslovaco* |
Hebraico |
Esloveno* |
Hindi |
Espanhol* |
Húngaro* |
Sueco |
Islandês* |
Tâmil* |
Indonésio |
Telugu* |
Italiano |
Tailandês |
Japonês |
Turco* |
Kannada* |
Ucraniano* |
Coreano |
Urdu* |
Letão* |
Vietnamita |
Quando o rastreador indexa conteúdo para um idioma sem suporte, o separador neutro é usado. Se o separador neutro não der os resultados esperados, tente soluções de terceiros que funcionem com o Search Server 2008.