Compartilhar via


Criar um dicionário personalizado (Office SharePoint Server 2007)

Atualizado em: 2008-10-09

Um dicionário personalizado é um arquivo Unicode que pode ser usado para especificar palavras que o separador de palavras do mesmo idioma deve considerar como completas. Os dicionários personalizados não são fornecidos por padrão. Para modificar o comportamento do separador de palavras em mais de um idioma, crie um dicionário personalizado separado para cada idioma cujo comportamento do separador de palavras você deseja modificar. Não é possível criar um dicionário personalizado para o separador de palavras com neutralidade de idioma.

Dica

Os dicionários personalizados aplicam-se a todos os provedores de serviços compartilhados do farm de servidores.

A tabela a seguir lista os idiomas e dialetos para os quais o Microsoft Office SharePoint Server 2007 oferece suporte a dicionários personalizados. A tabela também inclui o identificador de código de idioma (LCID) e o código hexadecimal de cada idioma e dialeto compatível.

Observe que os dois primeiros números do código hexadecimal de cada idioma representam o dialeto e os dois últimos representam o idioma. Para os idiomas que não têm separadores de palavra diferentes para outros dialetos, os dois primeiros números do código hexadecimal são sempre zero.

Tabela 1 - Idiomas com suporte

Idioma/dialeto LCID Código hexadecimal do idioma

Árabe

1025

0001

Bengalês

1093

0045

Búlgaro

1026

0002

Catalão

1027

0003

Croata

1050

001a

Dinamarquês

1030

0006

Holandês

1043

0013

Inglês

1033

0009

Francês

1036

000c

Alemão

1031

0007

Guzerate

1095

0047

Hebraico

1037

000d

Híndi

1081

0039

Islandês

1039

000f

Indonésio

1057

0021

Italiano

1040

0010

Japonês

1041

0011

Kannada

1099

004b

Letão

1062

0026

Lituano

1063

0027

Malaio

1086

003e

Malaiala

1100

004c

Marati

1102

004e

Norueguês - Bokmal

1044

0414

Português

2070

0816

Português - Brasil

1046

0416

Punjabi

1094

0046

Romeno

1048

0018

Russo

1049

0019

Sérvio - Cirílico

3098

0c1a

Sérvio - Latim

2074

081a

Eslovaco

1051

001b

Esloveno

1060

0024

Espanhol

3082

000a

Sueco

1053

001d

Tâmil

1097

0049

Telugu

1098

004a

Ucraniano

1058

0022

Urdu

1056

0020

Vietnamita

1066

002a

Motivos para usar um dicionário personalizado

Os dicionários personalizados são usados para fazer com que o separador de palavras ignore (ou não separe) uma determinada palavra. Para saber se é necessário um dicionário personalizado e quais palavras ou entradas ele deve conter, o ideal é compreender o comportamento dos separadores de palavras.

Os separadores de palavras são usados pelo sistema de indexação para dividir as palavras em tokens quando o conteúdo é indexado. Os separadores de palavras também são usados pelo sistema de consulta para dividir as palavras de uma consulta em tokens. Em ambos os casos, se houver um dicionário personalizado que ofereça suporte ao idioma ou dialeto do separador que está sendo usado, o serviço do Office Server Search determinará se a palavra existe no dicionário personalizado antes de determinar o uso ou não do separador nessa palavra. Se a palavra não estiver no dicionário personalizado, o separador de palavras executará suas ações usuais, o que poderá resultar na separação da palavra em várias palavras ou tokens. Se a palavra estiver no dicionário, o separador de palavras não executará ação alguma relacionada a ela.

Os exemplos a seguir descrevem o comportamento típico do separador de palavras e como uma entrada no dicionário personalizado pode afetar esse comportamento.

Exemplo 1

Um separador de palavras que encontrasse uma palavra como IT&T, poderia dividi-la no símbolo do E comercial (&). O resultado seria a palavra IT e a letra T, que o separador de palavras da maioria dos idiomas descartaria como palavras de ruído. Mas, se a palavra IT&T estivesse no dicionário personalizado do mesmo idioma que o separador de palavras em uso, o separador de palavras ignoraria IT&T. Isso significa que, se um rastreamento completo estivesse sendo feito, a palavra seria indexada como IT&T. Quando o usuário digitasse uma pesquisa da palavra, IT&T, o separador de palavras não a dividiria. Especificamente, as consultas contendo “IT” ou “T” não retornariam resultados da pesquisa para documentos que não contivessem essas palavras, mas contivessem a palavra "IT&T".

Exemplo 2

Termos como números SCN (nomes químicos sistemáticos) ou CAS podem ser afetados pelos separadores de palavras. Por exemplo, os separadores de palavras geralmente separa dos demais os números sozinhos que aparecem antes ou depois de um hífen ou de outro caractere especial. Um exemplo é o número CAS 7782-44-7, que é o número do oxigênio no registro CAS. Após o processamento do separador de palavras, essa palavra é dividida em três partes separadas: os números 7782, 44 e 7. A adição de números SCN e CAS que aparecem em um corpo ao dicionário personalizado, para cada idioma ao qual se aplicam, permite ao sistema indexar os números SCN e CAS sem dividi-los em números separados. Como o separador de palavras apropriado e o dicionário personalizado do idioma do conteúdo são usados no momento da consulta, um usuário também pode incluir um número SCN ou CAS na consulta sem que ele seja dividido em partes separadas.

Normalizações e arquivos de sinônimos

As chamadas normalizações de entidade, como normalização de data, que são normalmente aplicadas pelos separadores de palavras, não são aplicadas aos termos da consulta que aparecem nos diretórios personalizados. Em vez disso, todos os termos da consulta que aparecem nos dicionários personalizados são tratados como correspondência exata. Isso é especialmente importante quando você tem palavras ou números (como os mencionados anteriormente) em um arquivo de sinônimos. Por exemplo, se o número CAS 7782-44-7 fizer parte de um conjunto de expansões do dicionário de sinônimos e o separador de palavras dividir esse número pelos hifens em três números separados, o conjunto de expansões do qual esse número faz parte talvez não funcione como esperado. Nesse caso, adicionar o número CAS 7782-44-7 ao dicionário personalizado do idioma apropriado resolverá o problema.

Antes de começar

Criar ou modificar um dicionário personalizado é simples. Um dicionário personalizado é simplesmente um arquivo em formato Unicode com entradas (as palavras especificadas) em linhas separadas por um retorno de carro (CR) ou uma alimentação de linha (LF). Ao adicionar entradas ao dicionário personalizado, tenha em mente as regras a seguir para evitar resultados inesperados:

  • As entradas não diferenciam maiúsculas de minúsculas.

  • O caractere de pipe (|) não pode ser usado em qualquer lugar de um dicionário personalizado.

  • O espaço em branco não pode ser usado em qualquer lugar de um dicionário personalizado.

  • O caractere sustenido (#) não pode ser usado no início de uma entrada, mas pode ser usado no meio ou no final dela.

  • Com exceção do pipe, do sustenido e do espaço em branco, mencionados anteriormente, qualquer caractere numérico, pontuação, símbolo e caractere de interrupção são válidos.

  • O comprimento máximo de uma entrada é 128 caracteres (Unicode).

A tabela a seguir mostra exemplos de entradas com e sem suporte.

Tabela 2 – Exemplos de entradas com e sem suporte

Com suporte Sem suporte

bomcachorro

bom cachorro

3#

#3

Para#venda

bom|garoto

ASP.NET

IT&T

(2-metoximetiletoxi)propanol

34590-97-8

C7H1603

Não há um limite fixo para o número de entradas em um dicionário personalizado, mas é recomendável que o tamanho total do arquivo de um dicionário personalizado não exceda 2 GB. Na prática, sugerimos que você limite o número de entradas para a alguns milhares.

Criando um dicionário personalizado

Antes de criar um dicionário personalizado, procure ler a seção Antes de começar, no início deste artigo, pois é importante compreender a diferença entre entradas com e sem suporte em um dicionário personalizado.

Dica

Para executar este procedimento, é necessário ser membro do grupo Administradores em cada servidor de indexação e servidor de consulta do farm de servidores.

Para criar um dicionário personalizado

  1. Faça logon no servidor de indexação como membro do grupo Administradores.

  2. Inicie o Bloco de Notas e digite as palavras que deseja incluir no dicionário personalizado. Evite as entradas inválidas, como descrito na seção Antes de começar.

    Observação

    Lembre-se de que cada palavra deve estar em uma linha separada por retorno de carro (CR) e alimentação de linha (LF).

  3. No menu Arquivo, clique emSalvar Como.

  4. Na lista Salvar como tipo, selecione Todos os arquivos.

  5. Na lista Codificação, selecione Unicode.

  6. Na caixa Nome do arquivo, digite o nome do arquivo no seguinte formato: CustomNNNN.lex, onde NNNN é o código hexadecimal do idioma para o qual você está criando o dicionário personalizado. Consulte a Tabela 1, anteriormente neste artigo, para ver uma lista de nomes de arquivo válidos para idiomas e dialetos com suporte.

  7. Na lista Salvar em, navegue até a pasta que contém os separadores de palavras. Por padrão, é unidade;\arquivos de programas\Microsoft Office Servers\12\bin, onde unidade é a letra da unidade na qual o Office SharePoint Server 2007 está instalado.

  8. Clique em Salvar.

    Execute o procedimento a seguir apenas se você tiver servidores de consulta separados do servidor de indexação. Caso contrário, vá para Parar e reiniciar o serviço do Office SharePoint Server Search.

Copiar o dicionário personalizado em outros servidores

  1. Faça logon no servidor de indexação como membro do grupo Administradores.

  2. Navegue até a pasta na qual salvou o arquivo de dicionário personalizado.

  3. Copie o arquivo de dicionário personalizado para a pasta que contém os separadores de palavras em seu primeiro servidor de consulta. Por padrão, é unidade;\arquivos de programas\Microsoft Office Servers\12\bin, onde unidade é a letra da unidade na qual o Office SharePoint Server 2007 está instalado.

  4. Execute um rastreamento completo do conteúdo afetado. Para obter mais informações sobre como executar um rastreamento completo, consulte Rastrear conteúdo (Office SharePoint Server 2007).

  5. Repita as etapas 1 a 3 em cada servidor de consulta do farm de servidores.

Você deve reiniciar o Serviço OSearch em todos os servidores de consulta e de indexação.

Importante

Não use a página Serviços no Servidor da Administração Central para interromper e iniciar esses serviços, pois isso removerá o serviço e excluirá o índice e a configuração associada. Em vez disso, execute as etapas a seguir.

  1. Faça logon no servidor de indexação como membro do grupo Administradores.

  2. No menu Iniciar, aponte para Todos os Programas e para Ferramentas Administrativas e clique em Serviços.

  3. Role a lista para baixo, clique com o botão direito do mouse no serviço Office SharePoint Server Search e clique em Propriedades. A página de propriedades é exibida.

  4. Clique em Parar. Quando o serviço parar, clique em Iniciar.

  5. Verifique se a opção Tipo de Inicialização não está definida como Desabilitada.

  6. Se o farm de servidores tiver servidores de consulta separados dos servidores de indexação, repita as etapas 1 a 5 em cada servidor de consulta.

Executar um rastreamento completo

Para aplicar o dicionário personalizado ao índice de conteúdo, execute um rastreamento completo de todas as fontes de conteúdo que contenham as palavras adicionadas ao dicionário personalizado. Para obter mais informações sobre como executar um rastreamento completo, consulte Rastrear conteúdo (Office SharePoint Server 2007).