Présentation des composants de ressources de langage
Les ressources linguistiques se composent d’analyseurs de mots et de stemmers qui étendent les fonctionnalités de création et d’interrogation d’index à de nouveaux langages et paramètres régionaux. Word casseurs sont utilisés lors de la création et de l’interrogation d’index. Les stemmers sont utilisés uniquement pour l’interrogation. Windows Search utilise des DLL de ressources de langage pour établir une liaison avec des implémentations IWordBreaker et IStemmer pour un paramètre régional de langue spécifique.
Cette rubrique est organisée comme suit :
- À propos des ressources linguistiques
- Analyse lexicale
- Recherche de radical
- Normalisation
- Mots sonores
- Rubriques connexes
À propos des ressources linguistiques
Windows Search utilise un filtre (implémentation de l’interface IFilter ) et ILoadFilter pour accéder à un document dans son format natif. Le composant IFilter extrait le contenu du texte, les propriétés et la mise en forme du document. IFilter identifie les paramètres régionaux du document qu’il filtre. Le composant d’indexation appelle le disjoncteur approprié pour ces paramètres régionaux. Si aucun n’est disponible, le composant d’indexation appelle le disjoncteur neutre. Le disjoncteur reçoit, à partir d’un IFilter, un flux d’entrée de caractères Unicode que le disjoncteur analyse pour produire des mots et des expressions individuels. Le disjoncteur normalise également les formats de date et d’heure. L’indexeur normalise les mots produits par le disjoncteur en convertissant les mots en lettres majuscules. L’indexeur enregistre les mots majuscules dans l’index de texte intégral, à l’exception des mots sonores identifiés pour ces paramètres régionaux.
Le tableau suivant répertorie les actions et les résultats correspondants pour la phrase « La figure 1 illustre le rôle des ressources linguistiques pour Windows Search pendant le processus de création d’index ».
Action | Texte résultant |
---|---|
Texte d’origine | La figure 1 illustre le rôle des ressources linguistiques pour Recherche Windows pendant le processus de création d’index. |
Filtrage | La figure 1 illustre le rôle des ressources linguistiques pour Recherche Windows pendant le processus de création d’index. |
Césure de mots | Figure, 1, illustre, le, rôle, de, langue, ressources, pour, Windows, Recherche, pendant, le, index, création, processus, EOS |
Normalisation | FIGURE, 1, ILLUSTRE, LE, RÔLE, DE, LANGUE, RESSOURCES, WINDOWS, RECHERCHE, PENDANT, LE, INDEX, CRÉATION, PROCESSUS |
Suppression de mots sonores | FIGURE, ILLUSTRATIONS, RÔLE, LANGUE, RESSOURCES, WINDOWS, RECHERCHE, PENDANT, INDEX, CRÉATION, PROCESSUS |
Enregistrer dans l’index de texte intégral | FIGURE, ILLUSTRATIONS, RÔLE, LANGUE, RESSOURCES, WINDOWS, RECHERCHE, PENDANT, INDEX, CRÉATION, PROCESSUS |
Word les disjoncteurs et les stemmers sont utilisés pour développer les requêtes FREETEXT au moment de la requête. Les paramètres régionaux de la requête sont les paramètres régionaux par défaut, sauf si un identificateur de code de langue (LCID) est passé en tant que paramètre de requête. Le composant de requête appelle l’analyseur de mots approprié sur les termes de requête répertoriés dans la clause WHERE de la requête. Par exemple, si la clause WHERE de la requête contient « FREETEXT (pommes, oranges et poires) », le disjoncteur reçoit le texte « pommes, oranges et poires ». Si la clause WHERE de requête utilise le prédicat de texte intégral CONTAINS , la sortie de texte du disjoncteur de mots est normalisée. Sinon, le composant de requête transmet chaque mot identifié par le disjoncteur au stemmer approprié pour cette langue et ces paramètres régionaux. Le stemmer génère une liste de formes alternatives, ou inflédées, pour ce mot. Le composant de requête normalise la liste développée des termes de requête et supprime les mots parasites.
Le tableau suivant répertorie les actions et les résultats correspondants pour la requête « pommes, oranges et poires ».
Action | Texte résultant |
---|---|
Texte d’origine | pommes, oranges et poires |
Césure de mots | pommes, oranges et poires, EOS |
Recherche de radical | pomme, pomme, orange, orange, orange, oranges, oranges, et, poire, poires, poires |
Normalisation | POMME, POMME, ORANGE, ORANGEY, ORANGES, ORANGES, ET, POIRE, POIRES, POIRES |
Suppression de mots sonores | POMME, POMME, ORANGE, ORANGEY, ORANGES, ORANGES, POIRES, POIRES |
Liste étendue des termes de requête | POMME, POMME, ORANGE, ORANGEY, ORANGES, ORANGES, POIRES, POIRES |
Les termes de requête développés augmentent la probabilité que la requête trouve des documents qui correspondent à l’intention de la requête d’origine. Le texte généré par le disjoncteur ou le stemmer au moment de la requête n’est pas stocké sur le disque.
Analyse lexicale
Word cassage est la séparation du texte en jetons de texte individuels, ou mots. De nombreuses langues, en particulier celles avec l’alphabet romain, ont un tableau de séparateurs de mots (tels que les espaces blancs) et de ponctuation qui sont utilisés pour discerner des mots, des expressions et des phrases. Word casseurs doivent s’appuyer sur des heuristiques de langage précises pour fournir des résultats fiables et précis. Word cassure est plus complexe pour les systèmes d’écriture basés sur des caractères ou des alphabets basés sur un script, où la signification des caractères individuels est déterminée à partir du contexte. Pour plus d’informations sur les considérations linguistiques susceptibles d’affecter votre implémentation de disjoncteur, consultez Considérations linguistiques et Unicode.
Recherche de radical
Recherche Windows applique exclusivement les stemmers au moment de la requête pour générer des formulaires word supplémentaires pour les termes dans les requêtes FREETEXT et de propriété. Les stemmers effectuent une analyse morphologique et appliquent des règles grammaticales pour générer une liste de formes alternatives, ou inflédées, pour les mots. Les formes alternatives ont souvent la même forme de tige ou de base. En générant les formulaires inflexés pour un mot, le service d’indexation renvoie des résultats de requête qui sont statistiquement plus pertinents pour une requête. Par exemple, une requête de texte intégral pour « swim meet » correspond aux documents qui contiennent « swim, swim’s, swims, swims' , swimming, swam, swum » ou « meet, meet’s, meets', meeting' , meeting, met » et des combinaisons de ces termes.
Certains langages exigent que les termes inflexés soient générés à la fois au moment de l’index et au moment de la requête pour les inlections standard et variant. Dans ce cas, l’égrappage se produit dans le composant de disjoncteur de mots, avec un travail de dégringlage minimal dans le dégringlage réel. Par exemple, le disjoncteur japonais effectue des opérations de création et d’interrogation d’index pour permettre à une requête de rechercher différentes formes inflétées des termes de recherche.
Normalisation
Les documents de toutes les langues sont stockés dans un index unique. Bien que les mots et les règles linguistiques diffèrent considérablement, certaines considérations, telles que les nombres, les dates et les heures, sont gérées de manière cohérente entre tous les analyseurs de mots. Pour plus d’informations sur les considérations relatives à la normalisation susceptibles d’affecter votre implémentation de disjoncteur, consultez Normalisation des formulaires Surface.
Mots sonores
Les mots sonores, également appelés mots vides, sont des mots qui ne sont pas des indicateurs significatifs pour le contenu. Le service d’indexation supprime les mots parasites des termes de requête et du contenu inclus dans l’index de texte intégral. Un décalage est l’occurrence d’un mot dans un document ou dans une liste de termes de requête. Le décalage des mots sonores dans un document ou une requête est enregistré comme vide. La suppression des mots parasites améliore les performances des requêtes en évitant une croissance inutile de l’index. Il améliore également la pertinence des résultats de la requête. Vous pouvez configurer Recherche Windows pour utiliser des listes de mots de bruit pour des langues spécifiques. Ces listes sont utilisées lorsqu’un analyseur de mots est appelé pour cette langue. Par exemple, « le » en anglais se produit si souvent qu’il a peu de valeur en tant que clé unique. « the » se trouve dans la liste de mots de bruit, n’est pas écrit dans l’index de contenu et, s’il est interrogé pour, ne retourne aucun résultat.
Les mots sonores agissent en tant qu’espaces réservés dans les requêtes d’expressions. Un document qui contient le texte « wag the dog » est stocké dans l’index avec « wag » à l’occurrence 1 et « dog » à l’occurrence 3. La requête d’expression « wag dog » ne correspond pas, mais la requête d’expression « wag a dog » le fait, car les informations d’occurrence correspondent. L’expression « wag purple dog » ne correspond pas, car « purple » est introuvable dans l’index à l’occurrence 2. Toutefois, une requête pour « wag the dog » renvoie des documents qui contiennent « wag purple dog » car il n’existe aucun moyen de déterminer efficacement si le document avait un mot non sonore entre « wag » et « dog ».
Rubriques connexes
-
Implémentation d’un disjoncteur Word et d’un générateur de formes dérivées
-
Résolution des problèmes liés aux ressources linguistiques et aux meilleures pratiques