Visão geral da arquitetura Relevance de pesquisa da empresa
Em Procurar, relevância é sobre resultados de pesquisa que são retornados para o usuário como aproximam que o usuário quiser localizar. Idealmente, os resultados que são retornados na primeira página são os mais relevantes, para que o usuário precise não aspecto através de várias páginas de resultados para localizar o melhor corresponda para sua pesquisa.
Pesquisa da empresa no Microsoft Office do SharePoint Server 2007 inclui um mecanismo revamped classificação desenvolvido em colaboração com Microsoft Research. Ele é especificamente ajustado para o exclusivo requisitos de pesquisa de conteúdo corporação.
Noções básicas sobre estático e dinâmico classificação
Existem dois tipos de classificação fórmula componentes usados no cálculo de relevância: estático e dinâmico. A diferença entre os componentes é relacionado a se a classificação calculada é afetada ou não por termos de consulta e o real de conteúdo e texto em vários propriedades de uma de conteúdo item.
Classificação dinâmica
consulta-dependenteClassificação dinâmica descreve a classificação que é afetada pelos valores de conteúdo ou propriedade para um de conteúdo item; Isso também é conhecido como classificação.
O seguinte seções fornecem um visão geral dos componentes usados para o dinâmico classificação algoritmo usado no cálculo de relevância Pesquisar da empresa osssearchshort.
Texto de âncora
Texto de âncoraé o texto que está incluído com um hiperlink para descrever o de conteúdo destino do hiperlink que. Quando Pesquisar da empresa rastreia o de conteúdo item, esse texto será incluído no índice para que de conteúdo. Ancorar classificação influências somente de texto, e não é o fator determinante para incluir um de conteúdo item na conjunto de resultados. De exemplo, se todos os termos consulta forem encontrados somente em texto de âncora e não no real de conteúdo do item, o link pode ser obsoleto, portanto, o de conteúdo item não está incluído nos resultados.
Pesquisa indexa o texto âncora os seguinte elementos:
Elementos âncora HTML
Listas link serviços SharePoint Microsoft Windows
Listagens Microsoft Office SharePoint Portal Server 2003
Hiperlinks 2007 Microsoft Office Word, Microsoft Office Excel 2007 e 2007 PowerPoint Microsoft Office (apenas para arquivos usando o novo Office abrir XML formatos)
Propriedade Weighting
Importante
Alterar propriedade pesos arbitrariamente pode ter um efeito adverso na relevância geral do sistema, portanto, não recomendamos que você faça isso sem corretamente avaliar as alterações e como eles afetam precisão dos resultados da pesquisa.
Algumas propriedades são mais importantes para calcular relevância que outras pessoas. Isso é chamado propriedade peso. Pesquisar da empresa fornece uma maneira para modificar por - peso propriedade identificar essas propriedades para que eles são ponderada mais intensamente no cálculo de relevância. Você deve usar o modelo objeto Search Administration para fazer isso. Para um amostra de código demonstrando como fazer isso, consulte Como: alterar a configuração importância para uma propriedade gerenciada.
Dica
A versão Microsoft Office SharePoint Portal Server 2003 de com suporte de SQL pesquisa sintaxe consulta tempo coluna Importância.A versão Pesquisa da empresa no Microsoft Office do SharePoint Server 2007 osssearch12 da sintaxe de pesquisa SQL não suporte coluna Importância.Se estiver presente na pesquisa consultas migradas para O Office SharePoint Server 2007 coluna Importância, consultas de pesquisa serão ainda trabalho, mas peso coluna valores serão ignorados.
Propriedade Length Normalization
Um de conteúdo item pode ter muitas propriedades diferentes de comprimento variável. Se os valores dessas propriedades são tratados igualmente regardless of seu tamanho durante o cálculo de relevância, ele pode ter um impacto negativo sobre a classificação calculada. Comprimento normalização ajusta a classificação de uma de conteúdo item, com base no comprimento da propriedade e a configuração de normalização comprimento. Você deve usar o modelo de objeto Search Administration para executar propriedade comprimento normalização.
Correspondência URL
URL compatível é o processo pelo qual Pesquisar da empresa verifica de conteúdo URLs item para um direcionar coincidirem com os termos pesquisa especificada.
Extração de título
Extração de título, ou usando o valor de título no cálculo de relevância, pode ajudar retornar altamente relevante de conteúdo, se o de conteúdo item está adequadamente nomeado. No entanto, há situações onde o valor na propriedade de título não reflete o de conteúdo com precisão. De exemplo, a seguinte títulos não fornecem informações importantes sobre seu de conteúdo:
Slide 1 (o nome usar como padrão do primeiro slide em um arquivo apresentação PowerPoint, que PowerPoint usa como nome de arquivo apresentação se ela não for alterada)
Document 1 (o nome usar como padrão de um arquivo de documento Word, que Word usa como o nome arquivo de documento se ele não for alterado)
Os exemplos anteriores de título não fornecem nenhuma informações valiosas sobre o de conteúdo desses arquivos, portanto, eles não são relevantes para a pesquisa. Para trabalho em torno este emitir, Pesquisar da empresa detecta outro candidato para título dentro de corpo do de conteúdo item e inclui esse valor com o real título ao calcular relevância.
Dica
Esse processo é executado somente em arquivos Microsoft Office.
Classificação estática
Classificação estáticaClassificação de consulta-independente Descreve a classificação que não é afetada pelos valores de conteúdo ou propriedade para um de conteúdo item; Isso também é conhecido como .
O seguinte seções fornecem um visão geral dos componentes usados para o algoritmo classificação estático usado no cálculo de relevância Pesquisar da empresa osssearchshort.
Clique de distância
Link você um documento, página da Web, lista ou outro item para outro de conteúdo itens, pois, more than provavelmente, o de conteúdo vinculado item contém informações que estão relacionado ao e aprimora o de conteúdo valor do original item que continha o link. Portanto, informações sobre esses hiperlinks para um de conteúdo específico item, such as o número de hiperlinks para ela ou onde esses hiperlinks podem ser localizados, são úteis na determinação de relevância.
Clique em distânciaRefere-se ao número de vínculos entre um de conteúdo item e uma página "especialista" vinculando o de conteúdo item. Para calcular relevância pesquisa, a raiz é uma página com autoridade, conforme descrito em Authoritative Pages and Demoted Sites. Os links mais que o pesquisador necessário viajar de uma página com autoridade para o de conteúdo item, o menor pontuação de relevância. Se não houver múltiplo caminhos para um de conteúdo item, relevância é calculada com base no caminho mais curto, aquele com a menor quantidade dos links a partir de página com autoridade para o de conteúdo item.
Profundidade URL
Importante ou relevante de conteúdo localizado perto para o parte superior da hierarquia de um site, em vez de em uma localidade vários níveis profundo costuma no site. Como resultado, o de conteúdo tem um URL menor, assim ela é mais facilmente lembrada e acessada pelo usuário. Pesquisar da empresa faz uso deste fato revisando Profundidade URL, que se refere a quantos níveis profundo em um site de de conteúdo item for encontrado. O nível é determinado pelo revisando o número de caracteres barra ("/") a URL; Quanto maior o número de barra caracteres no caminho de URL, o mais profundo de URL é para que de conteúdo item. Como um consequence, um grande número profundidade URL pode diminuir a relevância do que de conteúdo.
Detecção automática de idioma
Os usuários provavelmente ser procurando de conteúdo em sua própria linguagem que em outros idiomas. Pesquisar da empresa determina linguagem do usuário com base no cabeçalhos "Accept-Language" do navegador estiverem usando ? detecção automática de linguagem. Ao calcular relevância, de conteúdo que é recuperado na linguagem do usuário é considerado mais relevante que de conteúdo em outros idiomas, com a exceção de de conteúdo linguagem em inglês. De conteúdo linguagem em inglês é considerado como relevante como de conteúdo na linguagem do usuário.
Arquivo tipo Biasing
Na maioria das situações pesquisa, certos tipos arquivo são mais relevantes que outras pessoas. De exemplo, páginas HTML e Word documentos são geralmente mais relevantes para pesquisa de um usuário de uma planilha do Excel ou um arquivo de texto sem formatação.
Pesquisar da empresa do cálculo de relevância inclui um algoritmo de classificação que classifica alguns tipos arquivo maior do que outros tipos arquivo. Isso se aplica ao seguinte tipos arquivo, listados em usar como padrão classificação ordem no Pesquisar da empresa, iniciando com o mais alto:
Páginas da Web HTML
Apresentações PowerPoint
Documentos Word
Arquivos XML
Folhas de estilos do Excel
Arquivos de texto sem formatação
Itens de Lista
Consulte também
Referência
Microsoft.Office.Server.Search.Administration.Ranking
Microsoft.Office.Server.Search.Administration.Schema
Microsoft.Office.Server.Search.Administration.Keywords
Outros recursos
Melhorando Relevance
A arquitetura corporativa de pesquisa
Guia de Introdução com o modelo de objeto de administração de pesquisa da empresa
Administração de pesquisa da empresa por meio de programação