Partager via


Comment les analyseurs lexicaux, les générateurs de formes dérivées et les fichiers de mots parasites affectent les résultats de la recherche (Search Server 2008)

Note Remarque :

Sauf indication contraire, les informations de cet article s'appliquent à Microsoft Search Server 2008 et à Microsoft Search Server 2008 Express.

Les analyseurs lexicaux, les générateurs de formes dérivées et les fichiers de mots parasites, appelés aussi fichiers de mots vides, sont des composants qui font tous partie de l’indexation et des requêtes.

Dans cet article :

  • Analyseurs lexicaux

  • Générateurs de formes dérivées

  • Fichiers de mots parasites

Analyseurs lexicaux

Un analyseur lexical est un composant qui permet de décomposer des chaînes de texte en mots individuels pendant l’indexation et les requêtes. Pendant l’indexation, le texte est extrait des éléments de contenu sous la forme d’une chaîne de caractères. Les analyseurs lexicaux rétablissent le début et la fin de chaque mot dans cette chaîne de caractères. Ils séparent également les mots composés afin que les utilisateurs reçoivent les résultats d’une requête sur une portion du mot composé original et aussi sur les termes qui le composent. Les analyseurs lexicaux convertissent aussi les nombres et les dates du contenu dans une forme standard.

Chaque langue possède son propre analyseur lexical. Le moteur d’indexation décide lequel utiliser et, si plusieurs langues sont détectées, il peut utiliser plus d’un analyseur lexical pour le texte d’un même document. S’il n’existe pas d’analyseur lexical pour une langue particulière, c’est l’analyseur lexical neutre qui est utilisé.

Les analyseurs lexicaux sont également utilisés par le moteur de requête. Quand un utilisateur envoie une requête, un analyseur lexical décompose les mots composés et les expressions. Cela augmente les chances que cette requête trouve des résultats dans l’index du contenu. Au cours d’une requête, la langue de l’analyseur lexical est déterminée par la langue du navigateur Web de l’utilisateur.

Par défaut, Search Server 2008 installe les analyseurs lexicaux présentés dans le tableau suivant sur chaque serveur d’une batterie Serveur de recherche.

Arabe

Hongrois

Pendjabi

Bengali

Islandais

Roumain

Bulgare

Indonésien

Russe

Catalan

Italien

Serbe (Cyrillique)

Croate

Japonais

Serbe (Latin)

Tchèque

Kannada

Slovaque

Danois

Coréen

Slovène

Néerlandais

Letton

Espagnol

Anglais

Lituanien

Suédois

Finnois

Malais

Tamoul

Français

Malayalam

Télougou

Allemand

Marathi

Thaï

Grec

Norvégien (Bokmål)

Turc

Gujarati

Polonais

Ukrainien

Hébreu

Portugais

Ourdou

Hindi

Portugais (Brésil)

Vietnamien

Générateurs de formes dérivées

Un générateur de formes dérivées est un composant qui trouve la racine d’un terme et qui peut aussi produire des formes dérivées de ce terme. Par exemple, si une requête en français contient le mot « acheté », le générateur de formes dérivées peut ajouter la racine « acheter » à la requête et produire d’autres formes telles que « achète » et « achat » à ajouter à la requête.

Les générateurs de formes dérivées sont propres à chaque langue et ils peuvent avoir plusieurs fonctions selon la langue. Certains trouvent la racine du mot, mais ne produisent pas de formes dérivées. Par défaut, le générateur de formes dérivées est désactivé pendant les requêtes pour de nombreuses langues. Vous pouvez l’activer pour les requêtes de recherche dans le composant WebPart Résultats principaux de recherche.

Note Remarque :

Chaque langue qui possède un analyseur lexical comporte aussi un générateur de formes dérivées, si la langue peut le prendre en charge. Pour certaines langues, les générateurs de formes dérivées sont installés, mais pas activés. Pour les activer, vous devez modifier le Registre. Vous trouverez des instructions sur l’activation des générateurs de formes dérivées pour ces langues dans Comment activer les analyseurs lexicaux et les générateurs de formes dérivées dans SharePoint Server 2007 (https://go.microsoft.com/fwlink/?linkid=141180&clcid=0x40C).

Fichiers de mots parasites

Dans une langue, certains mots ne sont pas utiles pour les recherches. Par exemple, en français des mots tels que « le » ou « la » et « un » ou « une » n’apportent rien à la recherche, parce que tous les documents écrits en français les contiennent. C’est ce qu’on appelle les mots parasites, ou mots vides. Pendant l’indexation, les mots parasites sont retirés afin de réduire les index, ce qui peut améliorer les performances. Les mots parasites sont stockés dans des fichiers texte que vous pouvez modifier pour chaque langue. La suppression ou l’ajout de mots parasites dans un fichier nécessite une analyse complète du contenu.

Les fichiers de mots parasites ont considérablement changé depuis les précédentes versions des produits SharePoint. De nombreux mots parasites qui y figuraient avant ne sont plus dans ceux de Serveur de recherche et sont inclus dans les index de contenu. Par défaut, les utilisateurs peuvent exécuter des requêtes sur des mots qui étaient auparavant exclus (mots parasites). Ces requêtes sont dites requêtes de mots parasites. Vous pouvez exclure ce type de recherche du composant WebPart Résultats principaux de recherche. De plus, si une requête comporte une chaîne entre guillemets où figure un mot parasite, ce dernier peut être remplacé par n’importe quel mot dans les résultats de la requête. Par exemple, si une requête inclut « configurer un serveur », les éléments qui contiennent « configurer le serveur » et « configurer tous les serveurs » sont inclus dans les résultats de la requête.

Note Remarque :

Ne supprimez pas tous les mots d’un fichier de mots parasites. Ce type de fichier doit contenir au moins une entrée, même s’il s’agit simplement d’un point (.).

Voir aussi

Concepts

Gérer les paramètres pour améliorer les résultats de la recherche (Search Server 2008)
Configurer des pages faisant autorité (Search Server 2008)
Ajouter des termes mots-clés avec les meilleurs résultats (Search Server 2008)