Compartilhar via


Como separadores de palavras, lematizadores e arquivos de palavras de ruído afetam os resultados da pesquisa (Search Server 2008)

Observação Observação:

Exceto quando especificado, as informações neste artigo aplicam-se tanto ao Microsoft Search Server 2008 como ao Microsoft Search Server 2008 Express.

Separadores de palavras, lematizadores e arquivos de palavras de ruído, também conhecidos como arquivos de palavra irrelevante, são todos os componentes que fazem parte dos processos de indexação e consulta.

Neste artigo:

  • Separadores de palavras

  • Lematizadores

  • Arquivos de palavras de ruído

Separadores de palavras

Um separador de palavras é um componente usado para separar as cadeias de caracteres do texto em palavras individuais, durante os processos de indexação e consulta. Nesses processos, o texto é extraído dos itens de conteúdo como uma cadeia de caracteres contínua. Os separadores de palavras restabelecem onde começa e termina cada palavra da cadeia de caracteres. Além disso, eles separam palavras compostas para que os usuários recebam um resultado de consulta sobre uma parte da palavra composta original e também sobre os termos individuais que compõem a palavra composta. Os separadores de palavras também convertem números e datas dos itens de conteúdo em uma forma padrão.

Cada idioma tem um separador de palavras diferente. O mecanismo de indexação decide qual separador de palavras será usado e, se for detectado mais de um idioma, o mecanismo poderá usar mais de um separador de palavras para o texto extraído de um único documento. Se não houver um separador de palavras para um determinado idioma, o separador de palavras neutro será utilizado.

Os separadores de palavras também são usados pelo mecanismo de consulta. Quando um usuário envia uma consulta, um separador de palavras é usado para desmembrar palavras compostas e frases. Isso aumenta as chances de que a consulta do usuário possa corresponder aos termos do índice de conteúdo. Durante uma consulta, o idioma do separador de palavras é determinado pelo idioma do navegador da Web do usuário.

Por padrão, o Search Server 2008 instala, em cada servidor de um farm do Servidor de Pesquisa, os separadores de palavras listados na seguinte tabela.

Árabe

Húngaro

Punjabi

Bengalês

Islandês

Romeno

Búlgaro

Indonésio

Russo

Catalão

Italiano

Sérvio - Cirílico

Croata

Japonês

Sérvio - Latim

Tcheco

Kannada

Eslovaco

Dinamarquês

Coreano

Esloveno

Holandês

Letão

Espanhol

Inglês

Lituano

Sueco

Finlandês

Malaio

Tâmil

Francês

Malaiala

Telugu

Alemão

Marati

Tailandês

Grego

Norueguês Bokmaal

Turco

Guzerate

Polonês

Ucraniano

Hebraico

Português

Urdu

Híndi

Português - Brasil

Vietnamita

Lematizadores

Um lematizador é um componente que localiza a palavra raiz de um termo e pode gerar variações desse termo. Por exemplo, em inglês, se uma consulta contém a palavra "bought", o lematizador pode adicionar o termo raiz "buy" à consulta e também pode gerar outras formas desse termo, como "buys" e "buying" para adicionar à consulta.

Os lematizadores são específicos do idioma e podem ter diferentes recursos, dependendo do idioma compatível. Alguns lematizadores localizam a palavra raiz, mas não geram formas adicionais de palavras. Por padrão, em muitos idiomas, a lematização é ativada durante consultas. É possível habilitar a lematização para consultas de pesquisas na Web Part Principais Resultados da Pesquisa.

Observação Observação:

Todo idioma com separador de palavras tem um lematizador, desde que o idioma ofereça suporte para lematização. Em alguns idiomas, os lematizadores são instalados, mas não habilitados. Para habilitar esses lematizadores, edite o Registro. Para obter instruções sobre como habilitar lematizadores para esses idiomas específicos, consulte o documento sobre como ativar separadores de palavras e lematizadores no SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x416).

Arquivos de palavras de ruído

Algumas palavras do idioma não são úteis à execução de pesquisas. Por exemplo, no idioma inglês, palavras como "the" e " an" proporcionam pouco valor de pesquisa, pois quase todos os documentos escritos em inglês contém essas palavras. Palavras com pouco valor de pesquisa são chamadas de palavras de ruído, sendo também conhecidas como palavras irrelevantes. Durante o processo de indexação, as palavras de ruído são removidas para reduzir os índices, o que pode melhorar o desempenho. Palavras de ruído estão presentes em arquivos de texto específicos do idioma, e você pode editá-las. A remoção ou adição a/de um arquivo de palavras de ruído exige o total rastreamento do conteúdo.

Os arquivos de palavras de ruído foram alterados significativamente desde versões anteriores dos produtos SharePoint. Muitas palavras de ruído que, anteriormente, eram incluídas nos arquivos de ruído foram removidas dos arquivos de palavras de ruído do Servidor de Pesquisa e foram incluídas em índices de contexto. Por padrão, os usuários podem executar consultas sobre palavras anteriormente excluídas como palavras de ruído. Essas consultas são chamadas de consultas de palavras de ruído. Você pode desabilitar essas pesquisas na Web Part Principais Resultados da Pesquisa. Além disso, se uma cadeia de caracteres mencionada na pesquisa incluir uma palavra de ruído, essa palavra poderá ser substituída por qualquer palavra nos resultados da consulta. Por exemplo, se uma consulta incluir "configure a server", os itens de conteúdo com "configure a server" e "configure every server" serão incluídos nos resultados da pesquisa.

Observação Observação:

Não remova todas as palavras de um arquivo de palavras de ruído. Esse arquivo deve ter pelo menos uma entrada, mesmo que a entrada seja meramente um ponto final (.).

Consulte também

Conceitos

Gerenciar definições para aprimorar resultados da pesquisa (Search Server 2008)
Configurar páginas autoritativas (Search Server 2008)
Adicionar termos de palavra-chave com Melhor Opção (Search Server 2008)