Criar um dicionário personalizado (Office SharePoint Server 2007)
Atualizado em: 2008-10-09
Um dicionário personalizado é um arquivo Unicode que pode ser usado para especificar palavras que o separador de palavras do mesmo idioma deve considerar como completas. Os dicionários personalizados não são fornecidos por padrão. Para modificar o comportamento do separador de palavras em mais de um idioma, crie um dicionário personalizado separado para cada idioma cujo comportamento do separador de palavras você deseja modificar. Não é possível criar um dicionário personalizado para o separador de palavras com neutralidade de idioma.
Dica
Os dicionários personalizados aplicam-se a todos os provedores de serviços compartilhados do farm de servidores.
A tabela a seguir lista os idiomas e dialetos para os quais o Microsoft Office SharePoint Server 2007 oferece suporte a dicionários personalizados. A tabela também inclui o identificador de código de idioma (LCID) e o código hexadecimal de cada idioma e dialeto compatível.
Observe que os dois primeiros números do código hexadecimal de cada idioma representam o dialeto e os dois últimos representam o idioma. Para os idiomas que não têm separadores de palavra diferentes para outros dialetos, os dois primeiros números do código hexadecimal são sempre zero.
Tabela 1 - Idiomas com suporte
Idioma/dialeto | LCID | Código hexadecimal do idioma |
---|---|---|
Árabe |
1025 |
0001 |
Bengalês |
1093 |
0045 |
Búlgaro |
1026 |
0002 |
Catalão |
1027 |
0003 |
Croata |
1050 |
001a |
Dinamarquês |
1030 |
0006 |
Holandês |
1043 |
0013 |
Inglês |
1033 |
0009 |
Francês |
1036 |
000c |
Alemão |
1031 |
0007 |
Guzerate |
1095 |
0047 |
Hebraico |
1037 |
000d |
Híndi |
1081 |
0039 |
Islandês |
1039 |
000f |
Indonésio |
1057 |
0021 |
Italiano |
1040 |
0010 |
Japonês |
1041 |
0011 |
Kannada |
1099 |
004b |
Letão |
1062 |
0026 |
Lituano |
1063 |
0027 |
Malaio |
1086 |
003e |
Malaiala |
1100 |
004c |
Marati |
1102 |
004e |
Norueguês - Bokmal |
1044 |
0414 |
Português |
2070 |
0816 |
Português - Brasil |
1046 |
0416 |
Punjabi |
1094 |
0046 |
Romeno |
1048 |
0018 |
Russo |
1049 |
0019 |
Sérvio - Cirílico |
3098 |
0c1a |
Sérvio - Latim |
2074 |
081a |
Eslovaco |
1051 |
001b |
Esloveno |
1060 |
0024 |
Espanhol |
3082 |
000a |
Sueco |
1053 |
001d |
Tâmil |
1097 |
0049 |
Telugu |
1098 |
004a |
Ucraniano |
1058 |
0022 |
Urdu |
1056 |
0020 |
Vietnamita |
1066 |
002a |
Motivos para usar um dicionário personalizado
Os dicionários personalizados são usados para fazer com que o separador de palavras ignore (ou não separe) uma determinada palavra. Para saber se é necessário um dicionário personalizado e quais palavras ou entradas ele deve conter, o ideal é compreender o comportamento dos separadores de palavras.
Os separadores de palavras são usados pelo sistema de indexação para dividir as palavras em tokens quando o conteúdo é indexado. Os separadores de palavras também são usados pelo sistema de consulta para dividir as palavras de uma consulta em tokens. Em ambos os casos, se houver um dicionário personalizado que ofereça suporte ao idioma ou dialeto do separador que está sendo usado, o serviço do Office Server Search determinará se a palavra existe no dicionário personalizado antes de determinar o uso ou não do separador nessa palavra. Se a palavra não estiver no dicionário personalizado, o separador de palavras executará suas ações usuais, o que poderá resultar na separação da palavra em várias palavras ou tokens. Se a palavra estiver no dicionário, o separador de palavras não executará ação alguma relacionada a ela.
Os exemplos a seguir descrevem o comportamento típico do separador de palavras e como uma entrada no dicionário personalizado pode afetar esse comportamento.
Exemplo 1
Um separador de palavras que encontrasse uma palavra como IT&T, poderia dividi-la no símbolo do E comercial (&). O resultado seria a palavra IT e a letra T, que o separador de palavras da maioria dos idiomas descartaria como palavras de ruído. Mas, se a palavra IT&T estivesse no dicionário personalizado do mesmo idioma que o separador de palavras em uso, o separador de palavras ignoraria IT&T. Isso significa que, se um rastreamento completo estivesse sendo feito, a palavra seria indexada como IT&T. Quando o usuário digitasse uma pesquisa da palavra, IT&T, o separador de palavras não a dividiria. Especificamente, as consultas contendo “IT” ou “T” não retornariam resultados da pesquisa para documentos que não contivessem essas palavras, mas contivessem a palavra "IT&T".
Exemplo 2
Termos como números SCN (nomes químicos sistemáticos) ou CAS podem ser afetados pelos separadores de palavras. Por exemplo, os separadores de palavras geralmente separa dos demais os números sozinhos que aparecem antes ou depois de um hífen ou de outro caractere especial. Um exemplo é o número CAS 7782-44-7, que é o número do oxigênio no registro CAS. Após o processamento do separador de palavras, essa palavra é dividida em três partes separadas: os números 7782, 44 e 7. A adição de números SCN e CAS que aparecem em um corpo ao dicionário personalizado, para cada idioma ao qual se aplicam, permite ao sistema indexar os números SCN e CAS sem dividi-los em números separados. Como o separador de palavras apropriado e o dicionário personalizado do idioma do conteúdo são usados no momento da consulta, um usuário também pode incluir um número SCN ou CAS na consulta sem que ele seja dividido em partes separadas.
Normalizações e arquivos de sinônimos
As chamadas normalizações de entidade, como normalização de data, que são normalmente aplicadas pelos separadores de palavras, não são aplicadas aos termos da consulta que aparecem nos diretórios personalizados. Em vez disso, todos os termos da consulta que aparecem nos dicionários personalizados são tratados como correspondência exata. Isso é especialmente importante quando você tem palavras ou números (como os mencionados anteriormente) em um arquivo de sinônimos. Por exemplo, se o número CAS 7782-44-7 fizer parte de um conjunto de expansões do dicionário de sinônimos e o separador de palavras dividir esse número pelos hifens em três números separados, o conjunto de expansões do qual esse número faz parte talvez não funcione como esperado. Nesse caso, adicionar o número CAS 7782-44-7 ao dicionário personalizado do idioma apropriado resolverá o problema.
Antes de começar
Criar ou modificar um dicionário personalizado é simples. Um dicionário personalizado é simplesmente um arquivo em formato Unicode com entradas (as palavras especificadas) em linhas separadas por um retorno de carro (CR) ou uma alimentação de linha (LF). Ao adicionar entradas ao dicionário personalizado, tenha em mente as regras a seguir para evitar resultados inesperados:
As entradas não diferenciam maiúsculas de minúsculas.
O caractere de pipe (|) não pode ser usado em qualquer lugar de um dicionário personalizado.
O espaço em branco não pode ser usado em qualquer lugar de um dicionário personalizado.
O caractere sustenido (#) não pode ser usado no início de uma entrada, mas pode ser usado no meio ou no final dela.
Com exceção do pipe, do sustenido e do espaço em branco, mencionados anteriormente, qualquer caractere numérico, pontuação, símbolo e caractere de interrupção são válidos.
O comprimento máximo de uma entrada é 128 caracteres (Unicode).
A tabela a seguir mostra exemplos de entradas com e sem suporte.
Tabela 2 – Exemplos de entradas com e sem suporte
Com suporte | Sem suporte |
---|---|
bomcachorro |
bom cachorro |
3# |
#3 |
Para#venda |
bom|garoto |
ASP.NET |
|
IT&T |
|
(2-metoximetiletoxi)propanol |
|
34590-97-8 |
|
C7H1603 |
Não há um limite fixo para o número de entradas em um dicionário personalizado, mas é recomendável que o tamanho total do arquivo de um dicionário personalizado não exceda 2 GB. Na prática, sugerimos que você limite o número de entradas para a alguns milhares.
Criando um dicionário personalizado
Antes de criar um dicionário personalizado, procure ler a seção Antes de começar, no início deste artigo, pois é importante compreender a diferença entre entradas com e sem suporte em um dicionário personalizado.
Dica
Para executar este procedimento, é necessário ser membro do grupo Administradores em cada servidor de indexação e servidor de consulta do farm de servidores.
Para criar um dicionário personalizado
Faça logon no servidor de indexação como membro do grupo Administradores.
Inicie o Bloco de Notas e digite as palavras que deseja incluir no dicionário personalizado. Evite as entradas inválidas, como descrito na seção Antes de começar.
Observação
Lembre-se de que cada palavra deve estar em uma linha separada por retorno de carro (CR) e alimentação de linha (LF).
No menu Arquivo, clique emSalvar Como.
Na lista Salvar como tipo, selecione Todos os arquivos.
Na lista Codificação, selecione Unicode.
Na caixa Nome do arquivo, digite o nome do arquivo no seguinte formato: CustomNNNN.lex, onde NNNN é o código hexadecimal do idioma para o qual você está criando o dicionário personalizado. Consulte a Tabela 1, anteriormente neste artigo, para ver uma lista de nomes de arquivo válidos para idiomas e dialetos com suporte.
Na lista Salvar em, navegue até a pasta que contém os separadores de palavras. Por padrão, é unidade;\arquivos de programas\Microsoft Office Servers\12\bin, onde unidade é a letra da unidade na qual o Office SharePoint Server 2007 está instalado.
Clique em Salvar.
Execute o procedimento a seguir apenas se você tiver servidores de consulta separados do servidor de indexação. Caso contrário, vá para Parar e reiniciar o serviço do Office SharePoint Server Search.
Copiar o dicionário personalizado em outros servidores
Faça logon no servidor de indexação como membro do grupo Administradores.
Navegue até a pasta na qual salvou o arquivo de dicionário personalizado.
Copie o arquivo de dicionário personalizado para a pasta que contém os separadores de palavras em seu primeiro servidor de consulta. Por padrão, é unidade;\arquivos de programas\Microsoft Office Servers\12\bin, onde unidade é a letra da unidade na qual o Office SharePoint Server 2007 está instalado.
Execute um rastreamento completo do conteúdo afetado. Para obter mais informações sobre como executar um rastreamento completo, consulte Rastrear conteúdo (Office SharePoint Server 2007).
Repita as etapas 1 a 3 em cada servidor de consulta do farm de servidores.
Parar e reiniciar o serviço do Office SharePoint Server Search
Você deve reiniciar o Serviço OSearch em todos os servidores de consulta e de indexação.
Importante
Não use a página Serviços no Servidor da Administração Central para interromper e iniciar esses serviços, pois isso removerá o serviço e excluirá o índice e a configuração associada. Em vez disso, execute as etapas a seguir.
Para parar e reiniciar o serviço Office SharePoint Server Search
Faça logon no servidor de indexação como membro do grupo Administradores.
No menu Iniciar, aponte para Todos os Programas e para Ferramentas Administrativas e clique em Serviços.
Role a lista para baixo, clique com o botão direito do mouse no serviço Office SharePoint Server Search e clique em Propriedades. A página de propriedades é exibida.
Clique em Parar. Quando o serviço parar, clique em Iniciar.
Verifique se a opção Tipo de Inicialização não está definida como Desabilitada.
Se o farm de servidores tiver servidores de consulta separados dos servidores de indexação, repita as etapas 1 a 5 em cada servidor de consulta.
Executar um rastreamento completo
Para aplicar o dicionário personalizado ao índice de conteúdo, execute um rastreamento completo de todas as fontes de conteúdo que contenham as palavras adicionadas ao dicionário personalizado. Para obter mais informações sobre como executar um rastreamento completo, consulte Rastrear conteúdo (Office SharePoint Server 2007).