Analyser du contenu (Search Server 2008)
Mise à jour : 2008-09-11
Remarque : |
---|
Sauf indication contraire, les informations de cet article s'appliquent à Microsoft Search Server 2008 et à Microsoft Search Server 2008 Express. |
L’analyse du contenu est le processus par lequel le système accède au contenu et analyse ce contenu ainsi que ses propriétés, parfois appelées métadonnées, pour créer un index de contenu qui permettra de traiter les requêtes de recherche.
Le résultat d’une analyse correcte de contenu est que les fichiers ou les éléments de contenu individuels que vous voulez rendre disponibles aux requêtes de recherche sont accessibles et lus par l’analyseur. Les mots clés et les métadonnées pour ces fichiers sont stockés dans l’index de contenu, parfois appelé simplement « index ». L’index est constitué des mots clés qui sont stockés dans le système de fichiers du serveur d’index, et des métadonnées qui sont stockées dans la base de données de recherche. Le système gère un mappage entre les mots clés, les métadonnées associées aux éléments individuels du contenu et l’URL de la source à partir de laquelle le contenu a été analysé.
Remarque : |
---|
L’analyseur ne modifie pas les fichiers sur les serveurs hôtes. Au lieu de cela, ces fichiers font l’objet d’un accès et d’une lecture, et le texte et les métadonnées de ces fichiers sont envoyés sur le serveur d’index pour y être indexés. Cependant, étant donné que l’analyseur lit le contenu sur le serveur hôte, des serveurs hébergeant certaines sources de contenu sont susceptibles de mettre à jour la date du dernier accès sur les fichiers qui ont été analysés. |
Détermination du moment propice à l’analyse du contenu
Une fois qu’une batterie de serveurs a été déployée et s’exécute depuis un certain temps, un administrateur de services de recherche doit généralement modifier la planification d’analyse. Cette opération peut être effectuée pour différentes raisons :
Tenir compte des changements dans les périodes d’indisponibilité et les périodes d’utilisation maximale.
Tenir compte des changements de la fréquence à laquelle le contenu est mis à jour sur les serveurs qui l’hébergent.
Planifier les analyses pour que :
le contenu hébergé sur des serveurs hôtes plus lents soit analysé séparément du contenu hébergé sur des serveurs hôtes plus rapides ;
les nouvelles sources de contenu soient analysées ;
les analyses se produisent dès lors que le contenu ciblé est mis à jour. Par exemple, vous pouvez effectuer des analyses quotidiennes sur les référentiels qui sont mis à jour chaque jour et analyser les référentiels qui sont rarement mis à jour un peu moins souvent.
Exécution des analyses
La plupart du temps, il est souhaitable d’automatiser les analyses en les planifiant. Cependant, il est parfois utile de démarrer manuellement une analyse. Par exemple, vous pouvez lancer une analyse pour appliquer des modifications d’ordre administratif, telles que des règles d’analyse sur le contenu que vous analysez et indexez, ou pour déterminer si une erreur dans le journal d’analyse a été résolue.
En outre, qu’une analyse soit démarrée manuellement ou par un programme, vous devrez éventuellement arrêter ou suspendre une ou plusieurs analyses. Par exemple, un administrateur dont le serveur héberge le contenu que vous analysez peut vous notifier que l’analyse place trop de charge sur le serveur ou vous pouvez être averti que le serveur que vous analysez est actuellement en mode hors connexion. Dans ces deux cas, vous souhaiterez éventuellement arrêter ou suspendre l’analyse.
Sachez qu’une analyse complète nécessite plus de temps et plus de ressources de serveur qu’une analyse incrémentielle. Les analyses complètes :
Consomment plus de mémoire et de cycles microprocesseur sur le serveur d’index que des analyses incrémentielles.
Consomment plus de mémoire et de cycles microprocesseur sur les serveurs Web frontaux lors de l’analyse de contenu dans votre batterie de serveurs. Cela ne s’applique pas au contenu qui est externe à votre batterie de serveurs.
Utilisent plus de bande passante réseau que les analyses incrémentielles.
Important : |
---|
Lorsque vous arrêtez une analyse d’une source de contenu, la prochaine fois que vous analysez cette source de contenu, Microsoft Search Server 2008 en effectue automatiquement une analyse complète. Cela est vrai même si vous essayez d’effectuer une analyse incrémentielle. Par conséquent, il convient de bien tenir compte de cet aspect pour décider s’il convient de suspendre l’analyse au lieu de l’arrêter. |
Vous devez aussi veiller à ne pas suspendre les analyses d’un trop grand nombre de sources de contenu en même temps, car chaque source de contenu suspendue consomme de la mémoire et des ressources de microprocesseur sur le serveur d’index.
Pour démarrer une analyse complète ou incrémentielle, arrêter, suspendre ou reprendre une analyse, effectuez l’une des procédures suivantes :
Planification des analyses
Les sections suivantes fournissent des informations plus détaillées sur les informations à prendre en compte pour l’analyse du contenu à partir d’une planification.
Périodes d’indisponibilité et périodes d’utilisation maximale
Tenez compte des périodes d’indisponibilité et des périodes d’utilisation maximale des serveurs qui hébergent le contenu que vous souhaitez analyser. Par exemple, si vous analysez du contenu hébergé sur plusieurs serveurs situés en dehors de votre batterie de serveurs, il est probable que ces serveurs sont sauvegardés selon des planifications distinctes et ont des périodes d’utilisation maximale différentes. L’administration des serveurs situés en dehors de votre batterie de serveurs est généralement hors de votre contrôle. Par conséquent, il est recommandé de coordonner vos analyses avec les administrateurs des serveurs hébergeant le contenu à analyser, de façon à ne pas essayer d’analyser le contenu sur leurs serveurs au cours d’une période d’indisponibilité ou d’utilisation maximale.
Remarque : |
---|
Dans la mesure où les périodes d’indisponibilité et les périodes d’utilisation maximale des serveurs hôtes peuvent changer, il est recommandé de réévaluer régulièrement les planifications d’analyse pour toutes les sources de contenu, et non pas seulement celles qui sont créées. |
Un scénario courant implique qu’il y ait du contenu échappant au contrôle de votre organisation et qui est lié au contenu de vos sites SharePoint. Vous pouvez ajouter les adresses de démarrage pour ce contenu à une source de contenu existante ou bien créer une nouvelle source de contenu pour le contenu externe. Étant donné que la disponibilité des sites externes peut varier considérablement, il est utile d’ajouter des sources de contenu distinctes pour les différents contenus externes. De cette manière, les sources de contenu pour le contenu externe peuvent être analysées à des moments différents de ceux des autres sources de contenu. Vous pouvez ensuite mettre à jour le contenu externe selon une planification d’analyse qui prend en compte la disponibilité de chaque site.
Contenu fréquemment mis à jour
Lorsque vous planifiez les analyses, tenez compte du fait que certaines sources de contenu sont mises à jour plus fréquemment que d’autres. Par exemple, si vous savez que le contenu de certaines collections de sites ou sources externes est mis à jour uniquement le vendredi, analysez-le une fois par semaine, car une fréquence plus soutenue gaspillerait inutilement les ressources. Votre batterie de serveurs peut cependant contenir d’autres collections de sites qui sont mises à jour régulièrement du lundi au vendredi, mais généralement pas le samedi et le dimanche. Dans ce cas, il vous faudra analyser ces sites plusieurs fois au cours de la semaine et pas du tout en fin de semaine.
La façon dont le contenu est stocké dans les collections de sites de votre environnement peut vous guider dans la création de sources de contenu supplémentaires pour chacune de vos collections de sites dans chacune de vos applications Web. Ainsi, si une collection de sites stocke uniquement les informations archivées, vous n’analyserez pas ce contenu aussi souvent que vous analysez une collection de sites qui stocke du contenu fréquemment mis à jour. Dans ce cas, vous souhaiterez analyser ces deux collections de sites à l’aide de sources de contenu différentes afin que l’analyse s’effectue en fonction de plusieurs planifications.
Planifications d’analyse complète et incrémentielle
En tant qu’administrateur de services de recherche, vous pouvez configurer les planifications d’analyse de façon indépendante pour chaque source de contenu. Vous pouvez en effet définir un moment pour effectuer des analyses complètes et un autre pour effectuer des analyses incrémentielles.
Remarque : |
---|
Vous devez exécuter une analyse complète pour une source de contenu particulière avant de pouvoir exécuter une analyse incrémentielle. |
Il est recommandé de prévoir des planifications d’analyse en considérant la disponibilité, les performances et la bande passante des serveurs qui exécutent le service de recherche et des serveurs hébergeant le contenu analysé.
Lorsque vous planifiez des analyses, tenez compte des recommandations suivantes :
Regroupez les adresses de départ des sources de contenu sur la base d’une disponibilité similaire, avec une utilisation globale des ressources acceptable sur les serveurs hébergeant le contenu.
Planifiez des analyses incrémentielles pour chaque source de contenu à des moments où les serveurs qui hébergent le contenu sont disponibles et lorsque la demande de ressources sur le serveur est faible. Vous pouvez également ajouter ou modifier une ou plusieurs règles d’impact du robot afin de réduire la charge sur les serveurs qui sont en cours d’analyse. Pour plus d’informations sur les règles d’impact du robot, voir Gérer l’impact du robot (Search Server 2008).
Étalez les analyses dans le temps afin de répartir la charge sur les serveurs de la batterie.
Planifiez des analyses complètes seulement lorsque c’est nécessaire pour les raisons indiquées dans la section suivante. Il est recommandé d’effectuer des analyses complètes moins fréquemment que des analyses incrémentielles.
Planifiez les modifications liées à l’administration et requérant une analyse complète un peu avant les moments prévus pour les analyses complètes. Par exemple, il est recommandé de planifier la création de la règle d’analyse avant l’analyse complète planifiée suivante, de sorte qu’une analyse complète supplémentaire ne soit pas nécessaire.
Basez les analyses simultanées sur la capacité du serveur d’index en la matière. Nous vous recommandons d’étaler les planifications d’analyse pour que le serveur d’index n’effectue pas l’analyse en utilisant plusieurs sources de contenu en même temps. Les performances du serveur d’index et celles des serveurs qui hébergent le contenu déterminent les limites du chevauchement des analyses. Une stratégie de planification des analyses peut être développée dans le temps à mesure que vous vous familiarisez avec les durées d’analyse par défaut pour chaque source de contenu. Il est recommandé d’enregistrer des données de tendance sur la durée des analyses dans votre environnement.
Raisons pour effectuer une analyse complète
Les raisons pour qu’un administrateur de fournisseurs de services partagés effectue une analyse complète sont les suivantes :
Un ou plusieurs correctifs logiciels ou Service Packs ont été installés sur des serveurs de la batterie. Pour plus d’informations, voir les instructions pour le correctif logiciel ou pour le Service Pack.
Un administrateur de fournisseurs de services de recherche a ajouté une nouvelle propriété gérée.
Pour réindexer des pages ASPX sur des sites Windows SharePoint Services 3.0.
Remarque : Le robot ne peut pas détecter si des pages ASPX sur des sites Windows SharePoint Services 3.0 ont été modifiées. De ce fait, les analyses incrémentielles ne réindexent pas les vues ou les pages d’accueil lorsque des éléments de liste individuels sont supprimés. Il est recommandé d’effectuer régulièrement des analyses complètes des sites contenant des fichiers ASPX pour que ces pages soient réindexées.
Pour détecter des changements de sécurité apportés à un partage de fichiers après la dernière analyse complète du partage de fichiers.
Pour résoudre les échecs consécutifs des analyses incrémentielles. Dans de rares cas, si une analyse incrémentielle échoue cent fois de suite à n’importe quel niveau d’un référentiel, le serveur d’index supprime le contenu affecté de l’index.
Des règles d’analyse ont été ajoutées, supprimées ou modifiées.
Pour réparer un index endommagé
L’administrateur des services de recherche a créé un ou plusieurs mappages des noms du serveur.
Le compte affecté au compte d’accès au contenu par défaut ou à la règle d’analyse a changé.
Le système effectue une analyse complète, même si une analyse incrémentielle est demandée, dans les circonstances suivantes :
Un administrateur des services de recherche a arrêté l’analyse précédente.
Une base de données de contenu a été restaurée.
Remarque : Si vous exécutez la Mise à jour d’infrastructure pour les produits serveur de Microsoft Office, vous pouvez utiliser l’opération de restauration de l’outil de ligne de commande stsadm pour déterminer si une restauration de la base de données de contenu provoque une analyse complète.
Un administrateur de batterie de serveurs a détaché et rattaché une base de données de contenu.
Une analyse complète du site n’a jamais été effectuée.
Le journal des modifications ne contient pas d’entrées pour les adresses en cours d’analyse. Sans entrées dans le journal des modifications des éléments en cours d’analyse, les analyses incrémentielles ne peuvent pas avoir lieu.
Le compte affecté au compte d’accès au contenu par défaut ou à la règle d’analyse a changé.
Pour réparer un index endommagé
Selon la gravité du dommage, le système peut tenter d’effectuer une analyse complète si le dommage est détecté dans l’index.
Vous pouvez adapter les planifications après le déploiement initial, selon les performances et la capacité des serveurs de la batterie et des serveurs hébergeant le contenu.
Voir aussi
Comment analyser du contenu (Search Server 2008)
Planifier une analyse complète (Search Server 2008)
Planifier une analyse incrémentielle (Search Server 2008)