Compartilhar via


A arquitetura corporativa de pesquisa

Pesquisa da empresa no Microsoft Office do SharePoint Server 2007 é que um Microsoft Office do SharePoint Server 2007 compartilhada serviço que fornece abrangente e extensível de conteúdo coleta, indexação e consultas. Esse serviço oferece suporte à pesquisa de texto completo usando uma SQL (Structured Query Language) (SQL) - com base em consulta sintaxe e fornece uma nova sintaxe palavra-chave para pesquisas palavra-chave suporte.

Pesquisar da empresa usa o mesmo subjacente Pesquisar serviço como Pesquisa em Windows SharePoint Services.

Este tópico fornece informações sobre a arquitetura interna de Pesquisar da empresa, as well as Pesquisar da empresa como um serviço compartilhado.

Arquitetura interna

O seguinte definir fornece uma exibição detalhada da arquitetura interna a serviço de pesquisa.

Search service internal architecture

A seguir é os componentes da arquitetura do serviço de pesquisa.

  • Processos mecanismo Índice de blocos de texto e propriedades filtrados de de conteúdo fontes, armazenando-os no de conteúdo armazenar índice e propriedade.

  • Consulta Engine executa palavra-chave e sintaxe SQL consultas contra o de conteúdo dados de configuração índice e pesquisa.

  • Protocolo manipuladores abre de conteúdo fontes em seus protocolos nativos e expõe documentos e outros itens a serem filtrados.

  • IFilters abre documentos e outro de conteúdo itens origem em seus formatos nativos e filtros em blocos de texto e propriedades.

  • Conteúdo do índice armazenamentos de informações sobre palavras e sua localidade em um de conteúdo item.

  • Propriedade armazenamento armazenamentos uma tabela de propriedades e associado valores.

  • Procure Configuration Data armazenamentos de informações usadas pelo serviço de pesquisa, inclusive rastrear configuração, esquema propriedade, escopos e SO on.

  • Wordbreakers usado pela consulta e índice mecanismos para interromper palavras compostas e frases em individual palavras ou tokens.

Conteúdo rastreamento

O mecanismo índice usa um pipe de memória Compartilhada para que o Filter Daemon começar a filtragem de de conteúdo solicitação origem. Para o processo rastrear seja bem-sucedida, o de conteúdo origem deve ter um associado manipulador protocolo que pode ler seu protocolo. O daemon de filtro chama o apropriado manipulador protocolo para o de conteúdo origem baseia o endereço iniciar fornecido pelo mecanismo de índice. O daemon de filtro usa manipuladores protocolo e iFilters para extrair e filtro individual itens a partir de de conteúdo origem. IFilters apropriados para cada documento são aplicadas, e o daemon de filtro passa o texto extraído e metadados para o mecanismo índice através de pipe.

Nesta apontar no de conteúdo rastreamento processo, o mecanismo índice evita o de conteúdo para separar armazenar uma propriedade propriedades documento índice. Armazenar a propriedade consiste de uma tabela de propriedades e seus valores. Propriedades neste armazenar podem ser recuperadas e classificadas. Além disso, são consultas simples contra propriedades com suporte pela armazenar. Cada linha na tabela corresponde a um separar documento na full-text index. O real texto de um de conteúdo item é armazenado em de conteúdo o índice, para que ele possa ser usado para de conteúdo consultas. Armazenar a propriedade também mantém e fiscaliza documento-nível segurança que é reunida quando um documento é rastreado.

Nesta apontar, o mecanismo índice usa wordbreakers e derivações ao processo ainda mais o texto e propriedades captadas durante a rastrear. O componente wordbreaker é usado para interromper o texto em palavras e frases. O componente stemming é usado para gerar formulários inflected de uma determinada palavra. O mecanismo índice também remove as palavras de ruído e cria um índice invertido para pesquisa Full-Text.

A execução da consulta de pesquisa

Quando uma consulta pesquisa for executado, o mecanismo consulta passa a consulta a um wordbreaker Language-specific. Se houver não wordbreaker de linguagem de consulta, o wordbreaker neutro é usado, que espaço em branco-wordbreaking estilo, o que significa que o wordbreaking ocorre onde há whitespaces nas palavras e frases. Após wordbreaking, as palavras resultantes passarem através um derivado para gerar formulários inflected específicos do idioma de uma determinada palavra. O uso de wordbreaker e derivações em processos de rastreamento e consulta aprimora a eficiência de pesquisa porque alternativas mais relevantes para consulta de um usuário phrasing são gerados. Quando o mecanismo consulta executa uma consulta valor da propriedade, o índice é verificada primeiro para get uma lista das possíveis correspondências. As propriedades para o compatível documentos são carregados de armazenar a propriedade, e as propriedades de consulta são verificadas novamente para garantir que houve uma correspondência. O resultado de consulta é uma lista de todos os compatível resultados, ordenados de acordo com sua relevância para palavras de consulta. Se o usuário não tem permissão para um compatível documento, o mecanismo consulta filtros desse documento out of a lista que é retornada.

Pesquisa como um serviço compartilhado

Um serviço compartilhado é uma alta-aplicativo valor que é consumida por outros aplicativos. A O Office SharePoint Server 2007 lógico arquitetura, um provedor de serviços compartilhados (SSP) é um agrupamento de serviços compartilhados e relacionado compartilhada recursos. Um SSP é criada e configurada para serviços hospedar compartilhado por um administrador farm servidor para que fiquem disponível para múltiplo sites de portal em um farm. O administrador farm em seguida, atribui um SSP para um site de portal. Um farm pode conter múltiplo SSPs, mas um site de portal só pode ser associado com um SSP. Um SSP só pode ter uma instância de um determinado serviço compartilhado.

Capacidade de gerenciamento de pesquisa da empresa

No SharePoint Portal Server 2003, você gerenciado rastrear índices configuração e de conteúdo separadamente para cada site de portal. Em Pesquisar da empresa, você gerenciar tudo isso no SSP nível, com de conteúdo um índice e armazenar uma propriedade por SSP. Isso impede que redundante indexação e centraliza a administração de recurso intensivo operações such as gerenciamento índice, melhorando o capacidade de gerenciamento de Pesquisar da empresa.

Dica

Algumas configurações pesquisa continuam configurável na coleção de site nível; Para obter mais informações, consulte a seção Site Level Search Manageability deste tópico.

O próximo seções fornecem um breve visão geral das diferentes partes do serviço Pesquisar da empresa compartilhada osssearchshort em O Office SharePoint Server 2007.

Fontes de conteúdo

Um de conteúdo origem é uma coleção de endereços iniciar representando de conteúdo que deve ser rastreado pelo componente índice de pesquisa. Um de conteúdo origem também especifica as configurações que definem o comportamento rastrear e a cronograma no qual o de conteúdo será rastreado.

Pesquisar da empresa fornece vários tipos de de conteúdo fontes Por padrão, portanto, é fácil configurar rastreamentos a diferentes tipos de dados, ambos interno e externo. A seguir estão o de conteúdo tipos origem incluídos em Pesquisar da empresa:

  • De conteúdo SharePoint

  • De conteúdo da Web

  • De conteúdo compartilhar arquivo

  • Pasta Exchange de conteúdo

  • De conteúdo dados comerciais

Se você precisar incluir outros tipos de de conteúdo, você poderá criar um personalizado de conteúdo origem e protocolo manipulador para Pesquisar da empresa.

Dica

Um de conteúdo Lotus Notes origem estiver disponível, no entanto, ele não é Por padrão configurado.

Para obter mais informações sobre de conteúdo fontes, consulte Visão geral sobre fontes de conteúdo.

Escopos compartilhados

Um escopo pesquisa fornece uma maneira para de conteúdo GRUPO juntos, itens baseados em um comum elemento entre os itens dentro desse escopo pesquisa. Isso ajuda os usuários tornar suas pesquisas mais relevantes, permitindo que eles para foco sua pesquisa em um subconjunto de de conteúdo no índice, instead of pesquisar o índice completo. Um escopo desempenha uma função importante na capacidade de Pesquisar da empresa suporte variado pesquisa experiências de de conteúdo um índice. Depois de criar um escopo pesquisa, você define o de conteúdo para incluir no escopo dessa pesquisa adicionando regras escopo, especificando se para incluir ou excluir de conteúdo que coincide com essa regra específica. Você pode definir regras escopo com base no seguinte:

  • Endereço

  • Propriedade consulta

  • Origem do conteúdo

Você pode criar e definir escopos pesquisa no SSP nível ou o individual coleção site nível. SSP nível são escopos pesquisa chamado compartilhada escopos, e é disponível para todos os sites configurados para usar um determinado SSP.

Para obter mais informações sobre escopos pesquisa, consulte Trabalhar com escopos de pesquisa.

Documento da propriedade mapeamentos

A esquema Pesquisar da empresa osssearchshort é composta de dois tipos de propriedades, as propriedades rastreadas e gerenciado propriedades, bem como os mapeamentos entre os dois conjuntos de propriedades.

O mecanismo índice extrai rastreadas propriedades de de conteúdo itens quando rastrear de conteúdo. Essas propriedades são agrupadas em categorias propriedade diferentes com base no manipulador de protocolo e IFilter usado. De exemplo, Propriedades rastreadas de de conteúdo no Catálogo de Dados Corporativos são agrupadas na categoria de Business Data; Rastreado propriedades de 2007 Microsoft Office de conteúdo sistema estão agrupados na categoria de Office.

Propriedades gerenciadas são o conjunto de propriedades que fazem parte da experiência a usuário pesquisa, portanto, para incluir um valor da propriedade rastreado na funcionalidade pesquisa, ele deve ser mapeado para um gerenciado propriedade em Mapeamentos de propriedade de documento. Propriedades gerenciadas são criadas e gerenciado no SSP nível. Para obter mais informações, consulte Gerenciamento de metadados.

Mapeamentos de servidor

Mapeamentos de nome de servidor são configurações rastrear você pode configurar para substituir como resultados da pesquisa são exibidos ou acessados após de conteúdo tem sido incluído no índice. De exemplo, você pode configurar um de conteúdo origem para rastrear um site via um caminho compartilhamento de arquivo e em seguida, crie uma entrada mapeamento nome servidor para mapa (n.); mapear (v.) o compartilhamento de arquivo para o site é URL.

Inclusions de relevância

As configurações de relevância afetam como classificações de relevância para os itens são calculadas, que afeta a ordem que resultados da pesquisa são exibidas em uma lista Resultados da pesquisa. Melhorar relevância para resultados da pesquisa é uma principal foco para essa versão. Pesquisar da empresa inclui um mecanismo classificação atualizado, especificamente ajustado para pesquisar de conteúdo corporação e linha - de - dados aplicativo empresa (LOB).

O seguinte é incluídos no cálculo de relevância atualizado:

  • Clique em distância

  • O texto do hiperlink âncora

  • Profundidade surfar URL

  • URL texto compatível

  • Extração metadados automatizada

  • Detecção automática de linguagem

  • Arquivo tipo relevância biasing

  • Análise de texto avançados

Para obter mais informações sobre relevância Pesquisar da empresa osssearchshort, consulte Melhorando Relevance.

Inclusions tipo de arquivo

A arquivo tipo inclusões lista especifica os tipos arquivo que o pesquisador deve incluir ou excluir do índice. Para obter mais informações consulte o seção em Defining CRAWL Rules Definindo regras de rastreamento e tipos de arquivo File Type.

O log

Log de consulta

As informações rastreadas no log de consulta incluem:

  • A consulta termos sendo usado.

  • Se foram retornados resultados da pesquisa para consultas pesquisa.

  • Páginas que foram exibidas dos resultados da pesquisa.

Dados de Uso Esta pesquisa é útil em Noções básicas sobre como pessoas estiverem usando pesquisa e quais informações elas estão procurando. Você pode usar esse dados para ajudar a determinar como melhorar a experiência pesquisa para os usuários.

Log de rastreamento

O log rastrear rastreia informações sobre o status de de conteúdo Rastreado e contém o atual status de cada item no de conteúdo índice. Você pode procurar e filtro as entradas no log de rastrear para ver os erros, avisos e SO ON para ajudá controlar se de conteúdo foi adicionado com êxito para o índice. Para obter mais informações, consulte Trabalhando com o log de rastreamento.

Capacidade de gerenciamento de pesquisa de nível de site

Enquanto a maioria dos experiência de pesquisa é gerenciado no SSP nível, há alguns itens que estão disponível no site de nível, como segue:

  • Escopos de pesquisa

  • Palavras-chave e bets melhores

As configurações no site de nível fornecer um administrador site a capacidade para configurar a experiência usuário pesquisa sem afetar negativamente a experiência pesquisa dos outros sites configurados para usar o mesmo SSP.

Pesquisar os escopos

Como descrito anteriormente, escopos pesquisa são uma coleção de itens agrupados juntos com base em um comum elemento entre os itens dentro desse escopo, que ajudam os usuários ampliar ou estreito o escopo de suas pesquisas. Pesquisar disponível escopos no SSP nível é chamado compartilhada escopos. Também são escopos de pesquisa disponível no site de nível. Pesquisar escopos criados no site de nível só estarão visíveis para o site que eles foram criados em subsites dentro de de alto nível e site.

Ao gerenciar escopos pesquisa no site de nível, você pode criar e configurar grupos exibir escopo. Grupos de exibição organizam Grupos de escopos pesquisa, como aparecem no site. De exemplo, se um administrador SSP tivesse criado um escopo compartilhado no SSP nível e você queria para exibir esse compartilhada escopo no drop-down list de escopos para a Web Part de Caixa de Pesquisa, você faria adicionar o novo escopo compartilhado para o GRUPO Search DropDown exibir para o site. Para obter mais informações sobre como fazer isso, consulte Como a: Exibir um escopo de pesquisa na Caixa de Pesquisa e Pesquisa Avançada Web Parts.

Palavras-chave e as Melhores Opções

Palavras-chave é palavras ou frases que os administradores site identificou como importantes. Eles fornecem uma maneira recomendados links e exibir informações adicionais sobre a página inicial resultados que pode não caso contrário apareçam nos resultados da pesquisa por uma determinada palavra ou frase. Para obter mais informações, consulte Gerenciando Palavras-chave.