Compartir a través de


Creación de un diccionario personalizado (Office SharePoint Server 2007)

Un diccionario personalizado es un archivo codificado en Unicode que sirve para especificar las palabras que desea que el separador de palabras del mismo idioma considere como palabras completas. Los diccionarios personalizados no se proporcionan de manera predeterminada. Para modificar el comportamiento del separador de palabras para más de un idioma, es necesario crear un diccionario personalizado independiente para cada uno de los idiomas. No se puede crear un diccionario personalizado para el separador de palabras independiente del idioma.

Nota

Los diccionarios personalizados se aplican a todos los proveedores de servicios compartidos de la granja de servidores.

En la siguiente tabla se enumeran los idiomas y dialectos para los que Microsoft Office SharePoint Server 2007 admite diccionarios personalizados. En esta tabla también se incluye el identificador de código de idioma (LCID) y el código hexadecimal de idioma para cada idioma y dialecto compatibles.

Tenga en cuenta que los dos primeros números del código hexadecimal de cada idioma representan el dialecto y los dos últimos números representan el idioma. Para los idiomas que no tienen separadores de palabras para distintos dialectos, los dos primeros números del código hexadecimal de idioma son siempre cero.

Tabla 1 - Idiomas admitidos

Idioma/Dialecto LCID Código hexadecimal de idioma

Árabe

1025

0001

Bengalí

1093

0045

Búlgaro

1026

0002

Catalán

1027

0003

Croata

1050

001a

Danés

1030

0006

Neerlandés

1043

0013

Inglés

1033

0009

Francés

1036

000c

Alemán

1031

0007

Gujarati

1095

0047

Hebreo

1037

000d

Hindi

1081

0039

Islandés

1039

000f

Indonesio

1057

0021

Italiano

1040

0010

Japonés

1041

0011

Canarés

1099

004b

Letón

1062

0026

Lituano

1063

0027

Malayo

1086

003e

Malayalam

1100

004c

Marathi

1102

004e

Noruego (Bokmaal)

1044

0414

Portugués

2070

0816

Portugués (Brasil)

1046

0416

Punyabí

1094

0046

Rumano

1048

0018

Ruso

1049

0019

Serbio (cirílico)

3098

0c1a

Serbio (latino)

2074

081a

Eslovaco

1051

001b

Esloveno

1060

0024

Español

3082

000a

Sueco

1053

001d

Tamil

1097

0049

Telugu

1098

004a

Ucraniano

1058

0022

Urdú

1056

0020

Vietnamita

1066

002a

Motivos para usar un diccionario personalizado

Los diccionarios personalizados sirven para determinar que el separador de palabras de un idioma concreto omita (o no separe) una palabra determinada. Para saber si necesita un diccionario personalizado y qué palabras o entradas debe contener, resulta útil comprender el comportamiento de los separadores de palabras.

Los separadores de palabras se usan en el sistema de indización para separar las palabras en tokens cuando el contenido está indizado. También se usan en el sistema de consultas para separar las palabras de una consulta en tokens. En ambos casos, si se ha creado un diccionario personalizado existente que es compatible con el idioma y el dialecto del separador de palabras que se está usando, el servicio Office Server Search determina si la palabra existe en el diccionario personalizado antes de determinar si usará el separador de palabras para esa palabra. Si la palabra no existe en el diccionario personalizado, el separador de palabras realizará sus acciones habituales, lo que podría provocar la separación de la palabra en varias palabras o tokens. Si la palabra no existe en el diccionario personalizado, el separador de palabras no realizará ninguna acción en esa palabra.

En los siguientes ejemplos se describe el comportamiento típico del separador de palabras y el modo en que una entrada del diccionario personalizado puede afectar a ese comportamiento.

Ejemplo 1

Es posible que un determinado separador de palabras que encuentra una palabra como TI&T separe la palabra en el símbolo de Y comercial (&). Como resultado, se obtienen la palabra TI y la letra T, que el separador de palabras de la mayoría de los idiomas descartaría por tratarse de palabras irrelevantes. Sin embargo, si la palabra TI&T existe en el diccionario personalizado del mismo idioma que el separador de palabras que se está usando, éste omitirá la palabra TI&T. Esto supone que, en el caso de que se realizara un rastreo completo, la palabra se indizaría como TI&T. Cuando un usuario escriba una consulta para la palabra TI&T, el separador de palabras no separará la palabra. Concretamente, las consultas que contengan “TI” o “T” no devolverán resultados de búsqueda de documentos que no contienen estas palabras, sino documentos que contienen la palabra "TI&T”.

Ejemplo 2

Algunos términos, como los nombres sistémicos y los números CAS pueden verse afectados por los separadores de palabras. Por ejemplo, los separadores de palabras suelen separar del resto del número aquellos números sueltos que aparecen antes o después de un guión u otro carácter especial. Un ejemplo de un número CAS es 7782-44-7, que es el número de registro CAS para el oxígeno. Tras el procesamiento del separador de palabras, esta palabra se divide en tres partes distintas: los números 7782, 44 y 7. Si se agregan los nombres sistémicos y números CAS que aparecen en un corpus al diccionario personalizado, para cada idioma a los que se aplique, el sistema será capaz de indizar los números CAS y nombres sistémicos sin dividirlos en números distintos. Puesto que en el momento de la consulta se usan el separador de palabras y el diccionario personalizado para el idioma del contenido, el usuario puede además incluir un número CAS o nombre sistémico en su consulta sin que éste se divida en distintas partes.

Normalizaciones y archivos del diccionario de sinónimos

Las llamadas normalizaciones de entidades, como la normalización de la fecha, que normalmente aplican los separadores de palabras, no se aplican a los términos de consulta que aparecen en los diccionarios personalizados. Al contrario, todos los términos de consulta que aparecen en los diccionarios personalizados se tratan como coincidencias exactas. Esto resulta especialmente importante si tiene palabras o números (como los mencionados anteriormente) en un archivo de sinónimos. Por ejemplo, si el número CAS 7782-44-7 forma parte de un conjunto de expansión del diccionario de sinónimos y el separador de palabras divide ese número por los guiones para convertirlo en tres números distintos, el conjunto de expansión del que forma parte ese número podría no funcionar del modo esperado. En este caso, si se añade el número CAS 7782-44-7 al diccionario personalizado del idioma adecuado, se resolverá el problema.

Antes de comenzar

El proceso de creación o modificación de un diccionario personalizado es muy simple. Un diccionario personalizado es simplemente un archivo con formato Unicode con entradas (las palabras que especifique) en líneas independientes separadas por un retorno de carro y un avance de línea. Cuando se agregan entradas a un diccionario personalizado, deben tenerse en cuenta las siguientes reglas para evitar resultados inesperados:

  • Las entradas no distinguen entre mayúsculas y minúsculas.

  • El carácter de barra vertical (|) no se puede usar en ninguna parte del diccionario personalizado.

  • El espacio en blanco no se puede usar en ninguna parte del diccionario personalizado.

  • El carácter de almohadilla (#) no se puede usar al principio de una entrada pero se puede usar dentro o al final de una entrada.

  • Excepto para los caracteres de barra vertical, el signo de libra y el espacio en blanco mencionado anteriormente, todos los caracteres alfanuméricos, signos de puntuación, símbolos y caracteres de separación de palabras y salto de línea son válidos.

  • La longitud máxima de una entrada es 128 caracteres (Unicode).

En la tabla siguiente se muestran ejemplos de entradas admitidas y no admitidas.

Tabla 2 – Ejemplos de entradas admitidas y no admitidas

Compatible Incompatible

preventa

pre venta

3#

#3

Número#fax

número|fax

ASP.NET

IT&T

(2-Metoximetiletoxi)propanol

34590-97-8

C7H1603

No hay ningún límite fijo para el número de entradas de un diccionario personalizado pero se recomienda que el tamaño de archivo total de un diccionario personalizado no supere los 2 GB. En la práctica, se recomienda limitar el número de entradas a unos pocos millares.

Creación de un diccionario personalizado

Antes de crear un diccionario personalizado, asegúrese de que ha leído la sección Antes de comenzar incluida anteriormente en este artículo, ya que es importante comprender la diferencia entre las entradas admitidas y las no admitidas en un diccionario personalizado.

Nota

Para realizar este procedimiento, debe pertenecer al grupo Administradores en cada servidor de índices o indexación y en el servidor de consultas de la granja de servidores.

Para crear un diccionario personalizado

  1. Inicie sesión en el servidor de índices o servidor de indexación como un miembro del grupo de administradores.

  2. Inicie el Bloc de notas y escriba las palabras que desee incluir en el diccionario personalizado. Asegúrese de evitar las entradas no válidas como se describe en la sección Antes de comenzar.

    Sugerencia

    Recuerde que cada palabra debe encontrarse en una línea independiente y separada por un retorno de carro y un avance de línea.

  3. En el menú Archivo, haga clic en Guardar como.

  4. En la lista Guardar como tipo, seleccione Todos los archivos.

  5. En la lista Codificación, seleccione Unicode.

  6. En el cuadro Nombre de archivo, escriba el nombre de archivo en el siguiente formato: PersonalizadoNNNN. lex, donde NNNN es el código hexadecimal de idioma para el que va a crear el diccionario personalizado. Vea la tabla 1, que se muestra anteriormente en este artículo, para obtener una lista de nombres de archivo válidos para idiomas y dialectos admitidos.

  7. En la lista Guardar en, navegue a la carpeta que contiene los separadores de palabras. De manera predeterminada, es unidad:\Archivos de programa\Microsoft Office Servers\12\bin, donde unidad es la letra de la unidad en la que está instalado Office SharePoint Server 2007.

  8. Haga clic en Guardar.

    Realice el siguiente procedimiento sólo si tiene servidores de consultas independientes del servidor de índices o servidor de indexación. Si no es así, vaya a la sección Procedimiento para detener y reiniciar el servicio Office SharePoint Server Search.

Copia del diccionario personalizado en otros servidores

  1. Inicie sesión en el servidor de índices o servidor de indexación como un miembro del grupo de administradores.

  2. Navegue a la carpeta en la que ha guardado el archivo de diccionario personalizado.

  3. Copie el archivo de diccionario personalizado en la carpeta que contiene los separadores de palabras en el primer servidor de consultas. De manera predeterminada, es unidad:\Archivos de programa\Microsoft Office Servers\12\bin, donde unidad es la letra de la unidad en la que está instalado Office SharePoint Server 2007.

  4. Realice un rastreo completo del contenido afectado. Para obtener información sobre el procedimiento para realizar un rastreo completo, vea Rastreo de contenido (Office SharePoint Server 2007).

  5. Repita los pasos del 1 al 3 en cada servidor de consultas de la granja de servidores.

Debe reiniciar el servicio Office SharePoint Server Search en todos los servidores de índices o indexación y de consultas.

Importante

No use la página Servicios del servidor de Administración central para detener e iniciar estos servicios porque, al hacerlo, se quitará el servicio y se eliminará el índice y la configuración asociada. En su lugar, siga los pasos que se indican a continuación.

  1. Inicie sesión en el servidor de índices o indexación como miembro del grupo Administradores.

  2. En el menú Inicio, señale Todos los programas, elija Herramientas administrativas y haga clic en Servicios.

  3. Desplácese hacia abajo por la lista, haga clic con el botón secundario en el servicio Office SharePoint Server Search y, a continuación, haga clic en Propiedades. Aparecerá la página Propiedades.

  4. Haga clic en Detener. Cuando el servicio esté detenido, haga clic en Iniciar.

  5. Asegúrese de que el Tipo de inicio no esté establecido en Deshabilitado.

  6. Si la granja de servidores tiene servidores de consultas independientes del servidor de índices o indexación, repita los pasos del 1 al 5 en cada servidor de consultas.

Rastreo completo

Para aplicar el diccionario personalizado al índice de contenido, debe realizar un rastreo completo de todos los orígenes de contenido que contienen las palabras que ha agregado al diccionario personalizado. Para obtener información sobre el procedimiento para realizar un rastreo completo, vea Rastreo de contenido (Office SharePoint Server 2007).