Compartilhar via


Manipuladores de protocolo de pesquisa da empresa

Protocolo recursos pesquisa estender manipuladores fazendo de conteúdo novo fontes disponível para Pesquisa da empresa no Microsoft Office do SharePoint Server 2007. Este tópico fornece uma visão geral de protocolo manipuladores e como eles cabe a arquitetura Pesquisar da empresa osssearchshort e discute usando as interfaces manipulador protocolo para implementar um manipulador protocolo para rastrear personalizado de conteúdo fontes.

Visão geral do sistema de indexação de pesquisa da empresa

O Pesquisar da empresa sistema de indexação é composto de vários componentes diferentes, conforme descrito na seguinte lista.

  • O índice mecanismo gerencia o de conteúdo rastreamento processo usando o de conteúdo fontes e rastrear regras configuradas para o serviço de pesquisa. O mecanismo Índice mantém uma fila URL rastrear, passando as URLs rastrear para o Filter Daemon durante o de conteúdo rastreamento processo. A fila URL rastrear inicialmente é preenchida com o de conteúdo origem iniciar endereços.

  • Fontes de conteúdo especifica qual de conteúdo para rastrear.

  • Rastrear regras especifica qual de conteúdo para excluir da rastrear, as well as as credenciais para a rastrear.

  • Filtrar daemon identificadores rastrear URL Solicitações do mecanismo de índice, determinando o apropriado manipulador protocolo para usar. Usando o protocolo manipulador, as buscas daemon de filtro o de conteúdo, extraindo e análise de texto e propriedades e em seguida, chama o apropriado IFilter, se necessário.

  • Protocolo manipuladores abre de conteúdo fontes em seus protocolos nativos e expõe documentos e outros itens a serem filtrados.

  • IFilters abre documentos e outro de conteúdo origem itens em seus formatos nativos e filtra essas em blocos de texto e propriedades. A implementação do IFilter pode ser parte do componente manipulador de protocolo, ou ele pode ser um separar componente.

Visão geral do identificador de protocolo

Identificadores de protocolo são livre-segmentadas COM objetos que implementar a interface 5c943aab-3ca5-452c-a0b2-ff8f55312376 ISearchProtocol.

Identificadores de protocolo são registrados no servidor de índice em HKLM\Software\Microsoft\OfficeServer\12.0\Search\Setup\ProtocolHandlers.

Esquema URL

The format for a protocol handler's URL schema is scheme://hostname/path.extension.

A esquema URL é usada pelo daemon de filtro para determinar qual manipulador protocolo a ser usado para rastrear uma determinada URL. Para obter mais informações, consulte rastrear processo .

Protocolo manipuladores tipos

Pesquisar da empresa fornece suporte para dois tipos de protocolo manipuladores:

  • Hierárquica Works com de conteúdo estruturado fontes, como compartilhamentos arquivo, que incluem estruturas, como diretórios ou pastas que devem ser atravessadas.

  • Link-com base em Works com de conteúdo fontes como sites da Web, onde links dentro de de conteúdo indicam como a origem é atravessada.

Inicializando os manipuladores de protocolo

O daemon de filtro inicializa todos os manipuladores de protocolo registrado com um chamar para o e0394178-7b54-4870-856b-01b7d43cb2a9 método de inicialização para implementação ISearchProtocol ISearchProtocol do manipulador de protocolo. O daemon de filtro utiliza os métodos ISearchProtocol ISearchProtocol para processo rastrear URLs do mecanismo de índice. Esse processo é descrito na seguinte seção.

O processo de rastreamento

O mecanismo Índice inicia rastreamentos de de conteúdo fontes. Existem dois tipos de rastreamentos:

  • Rastrear completo A rastrear de todos o de conteúdo. A fila URL rastrear é propagada com os endereços iniciar para o de conteúdo origem que está sendo rastreada. Entradas duplicadas são removidas da fila. Conforme o andamento rastrear, o mecanismo Índice adiciona URLs rastrear à fila à medida que elas são descobertas durante o processo de filtragem. Itens excluídos são removidos do de conteúdo índice. O processo rastrear continua até que a fila rastrear está vazio.

  • Rastrear A rastrear incremental de apenas modificado de conteúdo. A fila URL rastrear é propagada com endereço iniciar URLs e os URLs a partir de histórico rastrear para que de conteúdo origem. O mecanismo Índice passa a carimbo de data/hora para o daemon de filtro com a rastrear URL. Para de conteúdo SharePoint, o mecanismo do índice depende o recurso Log de alteração Change Log em Windows SharePoint Services 3.0, de modo que somente de conteúdo registrado no Change Log é rastreado.

Selecionando o identificador de protocolo

O daemon de filtro determina o apropriado manipulador protocolo para cada rastrear URL do mecanismo de índice, com base na rastrear URL e a esquema URL. De exemplo, para a rastrear URL https://www.microsoft.com/, o daemon de filtro seleciona o manipulador protocolo HTTP usar como padrão, que é um manipulador protocolo Link-Based.

O daemon de filtro para a rastrear URL \\CentralSales\Public\, seleciona o manipulador protocolo do arquivo usar como padrão, que é um hierárquico manipulador protocolo.

Retornando a Accessor URL

O método CreateAccessor da interface ISearchProtocol ISearchProtocol é chamado separadamente para cada rastrear URL.

Dica

Rastrear somente um URL é processado por CreateAccessor método chamar CreateAccessor, mas pode haver múltiplo chama para este método simultaneamente.Como resultado, múltiplo segmentos podem estar trabalhando em paralelo.

O CreateAccessor CreateAccessor método retorna um objeto URLAccessor que usa o Filter Daemon para processo de rastrear URL. O objeto URLAccessor é implementado na interface ddd10e99-6696-4648-b771-9fc4e07b078e IUrlAccessor.

A filtragem de conteúdo

A interface IUrlAccessor IUrlAccessor contém o método 3bea90b5-df43-4607-8d10-79c4b79574ea BindToFilter e o eee9764d-93bc-4fa0-893c-87aff3b74ddd método BindToStream; Você deve implementar at least um desses métodos para cada rastrear URL.

BindToFilter

Se a rastrear URL não estiver associado com um binário transmitir que é analisado por um do padrão filtros, você deve implementar o BindToFilter método BindToFilter. Neste cenário, o filtro também deve ser implementado como parte do objeto URLAccessor.

Você também pode implementar o BindToFilter BindToFilter método para extrair os metadados associado com de conteúdo itens. O manipulador protocolo envia blocos de dados que contém a propriedades e links para o mecanismo do índice.

Se a rastrear URL é uma pasta ou Diretório, você deve implementar o BindToFilter BindToFilter método para manipulador de protocolo para enumerar o conteúdo da pasta ou Diretório. Manipulador de protocolo, em seguida, deve emitir a propriedade PID_GTHR_DIRLINK_WITH_TIME PID_GTHR_DIRLINK_WITH_TIME para cada item. Esta propriedade contém do o item URL e carimbo de data/hora. Durante uma rastrear incremental, depois que o mecanismo Índice recebe o PID_GTHR_DIRLINK_WITH_TIME para um determinado item, ele verifica a carimbo de data/hora com o valor que é armazenado para esse item no histórico de rastrear. Se não tiver sido alterado a carimbo de data/hora, o item não é rastreado. Se não houver nenhuma alteração no Diretório, ou se um único item não alteração with respect to a carimbo de data/hora passada pelo pesquisador, o manipulador protocolo deve retornar PRTH_S_NOT_MODIFIED para o de conteúdo item e não mais processamento do item é exigido. Para obter mais informações sobre PRTH_S_NOT_MODIFIED, consulte Mensagens de Erro do identificador de protocolo.

Isso torna rastreamentos incrementais mais eficiente, pois o manipulador protocolo não precisa para BIND para cada item individualmente, somente a esses itens que foram alterados.

Dica

Se BindToFilter BindToFilter método do manipulador protocolo faz não implementar emissão PID_GTHR_DIRLINK_WITH_TIME e o CreateAccessor CreateAccessor método faz não suporte retorno PRTH_S_NOT_MODIFIED, incremental rastreia executar essencialmente a mesma rastreamentos completos.

BindToStream

Implementar o BindToStream BindToStream método se não houver um binário transmitir associado com a rastrear URL que deve ser analisado por um do padrão filtros, como o filtro de texto, HTML ou Microsoft Office. O BindToStream BindToStream método chama o apropriado filtro para extrair de conteúdo do item.

Para obter mais informações sobre como criar um filtro, consulte How to Write a Filter for Use by SharePoint Portal Server 2003 and Other Microsoft Search-Based Products.

O daemon de filtro chama tanto o BindToFilter e BindToStream métodos somente uma vez para cada rastrear URL. Um dos métodos deve ter êxito para o de conteúdo item associado com a rastrear URL a serem filtrados.

Segurança

O d4df1863-83b2-43dc-8e05-4b3678df0108 GetSecurityDescriptor método recupera as informações de segurança associado com o de conteúdo item, such as os tipos diferentes de acessar permitido para determinados usuários e grupos de usuários. Se você implementar este método, o daemon de filtro fornece o mecanismo de índice com informações de segurança sobre o de conteúdo item. O mecanismo Índice incorpora este informações para o full-text index com o de conteúdo documento.

O mecanismo de consulta usa as informações de segurança quando ele executa consultas em relação a full-text index para determinar se o usuário enviar um consulta de pesquisa tiver acessar itens nos resultados. Com base nisso, o mecanismo de consulta executa aparando de segurança de resultados da pesquisa, para que os usuários ver somente itens tiverem acessar, exibidos nos resultados de pesquisa. Portanto, se você não fizer isso implementar o GetSecurityDescriptor método GetSecurityDescriptor, todos os usuários conseguem para recuperar e exibição o conteúdo do item nos seus resultados consulta de pesquisa. Para obter mais informações sobre segurança aparando, consulte Modelo de segurança da empresa de pesquisa.

Esta seção

Referência do identificador de protocolo

Consulte também

Referência

How to Write a Filter for Use by SharePoint Portal Server 2003 and Other Microsoft Search-Based Products

Outros recursos

A arquitetura corporativa de pesquisa
Visão geral sobre fontes de conteúdo