Planification de l'analyse de contenu (Search Server 2008)
Mise à jour : 2008-09-19
Dans cet article :
À propos de l'analyse et de l'indexation du contenu
Identification des sources de contenu à analyser
Planification des sources de contenu
Planification de l'authentification
Planification des gestionnaires de protocole
Planification de l'impact de l'analyse
Planification des règles d'analyse
Planification des paramètres de recherche gérés au niveau de la batterie de serveurs
Indexation de contenu dans différentes langues
Remarque : |
---|
Sauf indication contraire, les informations de cet article s'appliquent à Microsoft Search Server 2008 et à Microsoft Search Server 2008 Express. |
L'objectif de cet article est d'aider les administrateurs de services de recherche à planifier l'analyse de contenu en leur permettant de comprendre comment Microsoft Search Server 2008 analyse et indexe le contenu. Pour plus d'informations, reportez-vous à la section Ajout ou suppression d'un administrateur de services de recherche (Search Server 2008).
Avant que les utilisateurs finaux puissent tirer parti des fonctionnalités de recherche de contenu d'entreprise dans Search Server 2008, le contenu sur lequel ils vont exécuter des requêtes doit d'abord être analysé.
Dans cet article, un contenu peut être défini comme un élément qui peut être analysé, tel qu'une page Web, un document Microsoft Office Word ou un fichier de message électronique.
Lors de la planification de l'analyse de contenu, posez-vous les questions suivantes :
Où se trouve le contenu physique ?
Le contenu est-il stocké dans différentes sources, comme des partages de fichiers, des sites SharePoint, des sites Web ou d'autres endroits ?
Souhaitez-vous analyser tout le contenu stocké dans une source ou une partie du contenu ?
Quels types de fichiers souhaitez-vous analyser ?
À quel moment et à quelle fréquence allez-vous analyser le contenu ?
Comment le contenu est-il sécurisé ?
Utilisez les informations de cet article pour trouver plus facilement les réponses à ces questions et pour prendre les décisions de planification nécessaires quant au contenu que vous souhaitez analyser, et comment et quand vous voulez l'analyser.
À propos de l'analyse et de l'indexation du contenu
L'analyse et l'indexation du contenu sont le processus par lequel le système accède au contenu et analyse ce contenu ainsi que ses propriétés, parfois appelées métadonnées, pour créer un index du contenu qui servira à fournir des réponses aux requêtes de recherche.
Le résultat d'un contenu bien analysé est que les fichiers individuels ou les parties de contenu sont accessibles et lus par le robot. Les mots clés et les métadonnées pour ces fichiers sont stockés dans l'index de contenu, parfois appelé simplement « index ». L'index est constitué des mots clés, qui sont stockés dans le système de fichiers du serveur d'index, et des métadonnées, qui sont stockées dans la base de données de recherche. Le système conserve un mappage entre les mots clés, les métadonnées et l'URL de la source à partir de laquelle le contenu a été analysé.
Le service de recherche est associé au fournisseur de services partagés (SSP) et un serveur spécifique lui est attribué pour indexer le contenu. Contrairement à les produits serveur de la version Office 2007, qui peut comporter plusieurs fournisseurs de services partagés (SSP), et par conséquent plusieurs index de contenu, Search Server 2008 est limité à un seul fournisseur de services partagés et donc à un seul index de contenu.
Remarque : |
---|
Le robot ne modifie pas les fichiers sur les serveurs hôtes. Au lieu de cela, il accède aux fichiers et les lit, puis il envoie le texte et les métadonnées au serveur d'index. Certains serveurs hôtes modifient la date des fichiers une fois que le robot y a accédé. Le robot ne modifie pas la date. |
Identification des sources de contenu à analyser
Le plus souvent, les besoins de votre organisation peuvent nécessiter seulement une analyse de tout le contenu des sites SharePoint de la batterie de serveurs. Dans ce cas, il peut être inutile d'identifier les sources de contenu que vous voulez analyser, car toutes les collections de sites d'une batterie de serveurs peuvent être analysées avec la source de contenu par défaut. Pour plus d'informations sur la source de contenu par défaut, reportez-vous à la section Planification des sources de contenu dans la suite de cet article.
De nombreuses organisations doivent également analyser du contenu qui est externe à la batterie de serveurs, tel que des partages de fichiers ou des sites Web sur Internet. Search Server 2008 peut analyser et indexer du contenu qui est hébergé sur d'autres batteries de serveurs Windows SharePoint Services, sur des sites Web, sur des partages de fichiers, sur des dossiers publics Microsoft Exchange et sur des serveurs IBM Lotus Notes. Ceci augmente considérablement la quantité de contenu disponible pour les requêtes de recherche.
Cependant, dans de nombreux cas, vous ne souhaiterez pas analyser chaque collection de sites de votre batterie de serveurs car le contenu stocké dans certaines collections de sites peut ne pas être pertinent dans les résultats de la recherche. Dans ce cas, vous devez effectuer l'une des opérations suivantes, ou les deux :
Notez les URL des collections de sites que vous ne voulez pas analyser. Si vous décidez d'utiliser la source de contenu par défaut, vous devez vous assurer que les adresses de démarrage pour les collections de sites que vous ne souhaitez pas analyser ne figurent pas dans la source de contenu par défaut.
Notez les adresses de démarrage des collections de sites que vous voulez analyser. Si vous décidez de créer des sources de contenu supplémentaires à utiliser pour analyser ce contenu, vous devez connaître ces adresses de démarrage. Des informations sur les cas d'utilisation d'une ou de plusieurs sources de contenu sont fournies dans la section Planification des sources de contenu de cet article.
Conseil : |
---|
Avec Search Server, il y a deux manières de traiter les requêtes de recherche pour renvoyer des résultats de recherche aux utilisateurs. Vous pouvez effectuer une requête dans l'index de contenu Search Server ou utiliser la recherche fédérée. Chaque approche a ses avantages. Pour obtenir une comparaison de ces deux approches du traitement des requêtes de recherche, reportez-vous à la section Présentation de la recherche fédérée (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x40C) . Pour obtenir une liste et une description rapide des articles Serveur de recherche sur la présentation et l'utilisation de la fédération, reportez-vous à la section Utilisation de la fédération (Search Server 2008). |
Planification des sources de contenu
Avant de pouvoir analyser le contenu, vous devez déterminer l'emplacement où se trouve le contenu et les types de serveur hébergeant le contenu. Une fois que ces informations sont recueillies, un administrateur de services de recherche peut créer une ou plusieurs sources de contenu. Ces sources de contenu fournissent au robot les informations ci-dessous :
Type de contenu à analyser : par exemple, un site SharePoint ou un partage de fichiers
Adresse de démarrage à laquelle l’analyse doit commencer
Type de comportement à utiliser lors de l’analyse : par exemple, profondeur de l’analyse à partir de l’adresse de démarrage ou nombre de tronçons de serveur autorisés
Fréquence de l'analyse
Remarque : |
---|
L’analyse de contenu à l’aide d’une source de contenu particulière est parfois appelée « analyse de la source de contenu ». |
Cette section vous aide à planifier les sources de contenu nécessaires à votre organisation.
La source de contenu par défaut est appelée Sites Office SharePoint Server locaux. Les administrateurs de services de recherche peuvent utiliser cette source de contenu pour analyser et indexer tous les contenus de la batterie de serveurs. Par défaut, Search Server 2008 ajoute l'adresse de démarrage (dans ce cas, une URL) du site de plus haut niveau de chaque collection de sites de la batterie à la source de contenu par défaut.
Pour certaines organisations, la simple utilisation de la source de contenu par défaut pour analyser tous les sites dans leurs collections de sites satisfait leurs besoins en matière de recherche. Toutefois, de nombreuses organisations ont besoin de sources de contenu supplémentaires.
Les raisons pour créer des sources de contenu supplémentaires peuvent correspondre aux nécessités suivantes :
Analyse de différents types de contenu
Analyse de certains contenus selon des planifications différentes de celles appliquées à d'autres contenus
Limitation ou augmentation de la quantité de contenu analysé
Les administrateurs de services de recherche peuvent créer jusqu'à 500 sources de contenu et chaque source de contenu peut contenir jusqu'à 500 adresses de démarrage. Pour conserver l'administration aussi simple que possible, vous devez créer seulement les sources de contenu dont vous avez réellement besoin.
Analyse de différents types de contenu
Vous pouvez analyser un seul type de contenu par source de contenu. Autrement dit, vous pouvez créer une source de contenu qui contient des URL pour des sites SharePoint et une autre source qui contient des URL pour des partages de fichiers, mais vous ne pouvez pas créer une source de contenu contenant des URL à la fois vers des sites SharePoint et vers des partages de fichiers. Le tableau suivant répertorie les types de sources de contenu qui peuvent être configurés.
Ce type de source de contenu | Inclut ce type de contenu |
---|---|
Sites SharePoint |
Sites SharePoint de la même batterie de serveurs ou de différentes batteries Office SharePoint Server 2007, Windows SharePoint Services 3.0 ou Search Server 2008
|
Sites Web |
|
Partages de fichiers |
Contenu sur des partages de fichiers au sein de votre organisation |
Lotus Notes |
Messages électroniques stockés dans des bases de données Lotus Notes
Remarque :
Contrairement à tous les autres types de sources de contenu, l'option de sources de contenu Lotus Notes n'apparaît pas dans l'interface utilisateur tant que vous n'avez pas installé et configuré les logiciels prérequis appropriés. Pour plus d'informations, reportez-vous à la section Configurer Search Server pour analyser Lotus Notes (Search Server 2008).
|
Dossiers publics Exchange |
Contenu Exchange Server |
Analyse de contenu selon différentes planifications
Les administrateurs de services de recherche doivent souvent décider si certains contenus sont analysés plus fréquemment que d'autres. Plus le volume de contenu que vous analysez est grand, plus il est probable que vous analysez des contenus provenant de différentes sources. Ces différentes sources peuvent ou non être du même type et être hébergées sur des serveurs plus ou moins rapides.
Ces facteurs rendent plus probable la nécessité de sources de contenu supplémentaires pour analyser ces différentes sources de contenu à des moments différents.
Les principales raisons pour lesquelles des contenus sont analysés selon différentes planifications sont les suivantes :
Pour tenir compte des périodes d'indisponibilité et des périodes d'utilisation maximale.
Pour analyser plus fréquemment le contenu qui est mis à jour le plus souvent.
Pour analyser séparément le contenu hébergé sur des serveurs plus lents et sur des serveurs plus rapides.
Dans de nombreux cas, il n'est pas possible de connaître toutes ces informations tant que Search Server 2008 n'est pas déployé et qu'il n'a pas fonctionné pendant quelque temps. Certaines de ces décisions seront donc prises pendant la phase de fonctionnement. Il est cependant judicieux de prendre en compte ces facteurs lors de la planification, afin de déterminer les planifications des analyses sur la base des informations disponibles.
Les deux sections ci-dessous fournissent davantage d'informations sur l'analyse de contenu selon différentes planifications.
Périodes d’indisponibilité et périodes d’utilisation maximale
Tenez compte des périodes d'indisponibilité et des périodes d'utilisation maximale des serveurs qui hébergent le contenu que vous voulez analyser. Par exemple, si vous analysez du contenu hébergé par plusieurs serveurs différents en dehors de votre batterie de serveurs, il est probable que ces serveurs seraient sauvegardés à des moments différents et que leurs périodes d'utilisation maximale soient différentes. L'administration des serveurs situés en dehors de votre batterie de serveurs échappe généralement à de votre contrôle. Par conséquent, il est recommandé de coordonner vos analyses avec les administrateurs des serveurs qui hébergent le contenu à analyser, de façon à ne pas essayer d'analyser le contenu sur leurs serveurs au cours d'une période d'indisponibilité ou d'une période d'utilisation maximale.
Un scénario courant implique qu’il y ait du contenu échappant au contrôle de votre organisation et qui est lié au contenu de vos sites SharePoint. Vous pouvez ajouter les adresses de démarrage pour ce contenu à une source de contenu existante ou bien créer une nouvelle source de contenu pour le contenu externe. Étant donné que la disponibilité des sites externes peut varier considérablement, il est utile d’ajouter des sources de contenu distinctes pour les différents contenus externes. De cette manière, les sources de contenu pour le contenu externe peuvent être analysées à des moments différents de ceux des autres sources de contenu. Vous pouvez ensuite mettre à jour le contenu externe selon une planification d’analyse qui prend en compte la disponibilité de chaque site.
Contenu fréquemment mis à jour
Lors de la planification des analyses, prenez en compte le fait que, généralement, certaines sources de contenu sont mises à jour plus fréquemment que d'autres. Par exemple, si vous savez que du contenu sur certaines collections de sites ou certaines sources externes est mis à jour seulement le vendredi, ce serait un gaspillage de ressources que d'analyser ce contenu plus fréquemment qu'une fois par semaine. Votre batterie de serveurs peut cependant contenir d'autres collections de sites qui sont mises à jour du lundi au vendredi, mais pas les samedis et les dimanches. Dans ce cas, vous pouvez analyser plusieurs fois ces sites chaque jour de la semaine, mais seulement une ou deux fois pendant les week-ends.
La façon dont le contenu est stocké dans les collections de sites peut vous guider dans la création de sources de contenu supplémentaires pour chacune de vos collections de sites dans chacune de vos applications Web. Par exemple, si une collection de sites stocke uniquement des informations archivées, il peut être inutile d'analyser ce contenu aussi fréquemment qu'une collection de sites qui stocke du contenu fréquemment mis à jour. Dans ce cas, analysez ces deux collections de sites à l'aide de sources de contenu différentes, afin qu'elles puissent être analysées selon des planifications différentes, sans analyser les sites d'archive aussi souvent que les autres contenus.
Planifications d’analyse complète et incrémentielle
Les administrateurs de services de recherche peuvent configurer les planifications d'analyse de manière indépendante pour chaque source de contenu. Pour chaque source de contenu, ils peuvent spécifier un horaire pour effectuer des analyses complètes et un horaire distinct pour effectuer des analyses incrémentielles. Notez que vous devez exécuter une analyse complète pour une source de contenu particulière avant de pouvoir exécuter une analyse incrémentielle. Si vous choisissez une analyse incrémentielle pour du contenu qui n'a pas encore été analysé, le système effectue une analyse complète.
Il est recommandé de prévoir des planifications d’analyse en considérant la disponibilité, les performances et la bande passante des serveurs qui exécutent le service de recherche et des serveurs hébergeant le contenu analysé.
Lorsque vous planifiez des analyses, tenez compte des recommandations suivantes :
Regroupez les adresses de démarrage des sources de contenu sur la base d’une disponibilité similaire, avec une utilisation globale des ressources acceptable sur les serveurs hébergeant le contenu.
Planifiez des analyses incrémentielles pour chaque source de contenu à des moments où les serveurs qui hébergent le contenu sont disponibles et lorsque la demande de ressources sur le serveur est faible.
Étalez les analyses dans le temps afin que la charge des serveurs soit utilement répartie.
Planifiez des analyses complètes seulement lorsque c’est nécessaire pour les raisons indiquées dans la section suivante. Il est recommandé de planifier des analyses complètes moins fréquemment que des analyses incrémentielles.
Planifiez les modifications liées à l’administration et requérant une analyse complète un peu avant les moments prévus pour les analyses complètes. Par exemple, il est recommandé de planifier la création de la règle d’analyse avant l’analyse complète planifiée suivante, de sorte qu’une analyse complète supplémentaire ne soit pas nécessaire.
Basez les analyses simultanées sur la capacité du serveur d'index. Il est recommandé d'échelonner les planifications d'analyse de façon à ce que le serveur d'index n'effectue pas d'analyses avec plusieurs sources de contenu en même temps. Pour de meilleures performances, il est préférable d'échelonner les planifications d'analyse des sources de contenu. Les performances du serveur d'index et des serveurs hébergeant le contenu déterminent dans quelle mesure des analyses peuvent être effectuées simultanément. Une stratégie de planification des analyses peut être développée dans le temps, dans la mesure où vous connaîtrez de mieux en mieux les durées d'analyse habituelles de chaque source de contenu.
Raisons pour effectuer une analyse complète
Les raisons pour qu'un administrateur de fournisseurs de services de recherche effectue une analyse complète sont les suivantes :
Un ou plusieurs correctifs logiciels ou Service Packs ont été installés sur des serveurs de la batterie. Pour plus d’informations, consultez les instructions pour le correctif logiciel ou pour le Service Pack.
Un administrateur de fournisseurs de services de recherche a ajouté une nouvelle propriété gérée.
Pour réindexer des pages ASPX sur des sites Windows SharePoint Services 3.0.
Remarque : Le robot ne peut pas détecter si des pages ASPX sur des sites Windows SharePoint Services 3.0 ont été modifiées. De ce fait, les analyses incrémentielles ne réindexent pas les vues ou les pages d'accueil lorsque des éléments de liste individuels sont supprimés. Il est recommandé d'effectuer régulièrement des analyses complètes des sites contenant des fichiers ASPX pour que ces pages soient réindexées.
Pour détecter des modifications de sécurité qui ont été apportées à un partage de fichiers après la dernière analyse complète du partage de fichiers.
Pour résoudre les échecs consécutifs des analyses incrémentielles. Dans de rares cas, si une analyse incrémentielle échoue cent fois de suite à n’importe quel niveau d’un référentiel, le serveur d’index supprime le contenu affecté de l’index.
Des règles d'analyse ont été ajoutées, supprimées ou modifiées.
Pour réparer un index endommagé.
L'administrateur des services de recherche a créé un ou plusieurs mappages de noms de serveurs.
Le compte affecté au compte d'accès au contenu par défaut ou à la règle d'analyse a changé.
Le système effectue une analyse complète même si une analyse incrémentielle est demandée dans les circonstances suivantes :
Un administrateur de services de recherche a arrêté l'analyse précédente.
Une base de données de contenu a été restaurée.
Remarque : Si vous exécutez la Mise à jour d’infrastructure pour les produits serveur de Microsoft Office, vous pouvez utiliser l’opération de restauration de l’outil de ligne de commande Stsadm pour déterminer si une restauration de la base de données de contenu provoque une analyse complète.
Un administrateur de batterie de serveurs a détaché et rattaché une base de données de contenu.
Une analyse complète du site n’a jamais été effectuée.
Le journal des modifications ne contient pas des entrées pour les adresses qui sont en cours d'analyse. Sans les entrées dans le journal des modifications pour les éléments en cours d'analyse, les analyses incrémentielles ne peuvent pas avoir lieu.
Le compte affecté au compte d'accès au contenu par défaut ou à la règle d'analyse a changé.
Pour réparer un index endommagé.
Selon la gravité du dommage, le système peut tenter d’effectuer une analyse complète si le dommage est détecté dans l’index.
Vous pouvez adapter les planifications après le déploiement initial au vu des performances et de la capacité des serveurs de la batterie et des serveurs hébergeant le contenu.
Limitation ou augmentation de la quantité de contenu analysé
Pour chaque source de contenu, vous pouvez sélectionner l'étendue de l'analyse des adresses de démarrage de cette source de contenu. Vous spécifiez aussi le comportement de l'analyse, parfois appelé « paramètres d'analyse ». Les options disponibles pour une source de contenu particulière varient selon le type de source de contenu que vous sélectionnez. Cependant, la plupart des options déterminent le nombre de niveaux de profondeur de la hiérarchie qui sont analysés pour chaque adresse de démarrage figurant dans la source de contenu. Notez que ce comportement est appliqué à toutes les adresses de démarrage d'une source de contenu spécifique. Si vous devez analyser certains sites à des niveaux plus profonds, vous pouvez créer d'autres sources de contenu incluant ces sites.
Les options disponibles dans les propriétés de chaque source de contenu varient selon le type de source de contenu sélectionné. Le tableau suivant décrit les options des paramètres d’analyse pour chaque type de source de contenu.
Type de source de contenu | Options des paramètres d’analyse |
---|---|
Sites SharePoint |
|
Sites Web |
|
Partages de fichiers |
|
Dossiers publics Exchange |
|
Comme le tableau précédent le montre, les administrateurs de services de recherche peuvent utiliser les options des paramètres d’analyse pour limiter ou augmenter la quantité de contenu qui est analysé.
Le tableau ci-dessous décrit les pratiques recommandées lors de la configuration des options des paramètres d’analyse.
Pour ce type de source de contenu | Si ceci s’applique | Utilisez cette option de paramètre d’analyse |
---|---|---|
Sites SharePoint |
Vous souhaitez inclure le contenu sur le site proprement dit -ou- Vous ne souhaitez pas inclure le contenu disponible sur les sous-sites, ou vous souhaitez les analyser selon une planification différente |
Analyser seulement le site SharePoint de chaque adresse de démarrage |
Sites SharePoint |
Vous souhaitez inclure le contenu sur le site proprement dit -ou- Vous souhaitez analyser tout le contenu sous l'adresse de démarrage selon la même planification |
Analyser tout sous le nom d’hôte pour chaque adresse de démarrage |
Sites Web |
Le contenu du site lui-même est pertinent -ou- Le contenu disponible sur les sites liés n’est pas susceptible d’être pertinent |
Analyser seulement sur le serveur de chaque adresse de démarrage |
Sites Web |
Le contenu pertinent se trouve sur la première page seulement |
Analyser seulement la première page de chaque adresse de démarrage |
Sites Web |
Vous souhaitez limiter la profondeur d’analyse des liens sur les adresses de démarrage |
Personnalisé. Spécifie le nombre de pages en profondeur et le nombre de tronçons de serveur à analyser
Remarque :
Il est recommandé de démarrer avec un petit nombre sur un site où les liens sont nombreux car la spécification de plus de trois pages de profondeur ou de plus de trois tronçons de serveur peut aboutir à analyser tout le réseau Internet.
|
Partages de fichiers Dossiers publics Exchange |
Le contenu disponible dans les sous-dossiers n’est pas susceptible d’être pertinent. |
Analyser le dossier de chaque adresse de démarrage uniquement |
Partages de fichiers Dossiers publics Exchange |
Le contenu des sous-dossiers est susceptible d’être pertinent. |
Le dossier et tous les sous-dossiers de chaque adresse de démarrage |
Planification des inclusions de types de fichiers et des composants IFilter
Le contenu est analysé uniquement si l’extension de nom de fichier appropriée est incluse dans la liste des inclusions de types de fichiers et si un composant IFilter est installé sur le serveur d’index et prend en charge ces types de fichiers. Plusieurs types de fichiers sont inclus automatiquement lors de l’installation initiale. Lorsque vous planifiez des sources de contenu dans votre déploiement initial, déterminez si le contenu que vous souhaitez analyser utilise des types de fichiers qui ne sont pas inclus. Si c’est le cas, vous devez ajouter ces types de fichiers sur la page Gérer les types de fichiers lors du déploiement et vous assurer que vous disposez d'un IFilter installé et enregistré pour prendre en charge ce type de fichier.
Search Server 2008 fournit plusieurs composants IFilter, et d'autres sont disponibles auprès de Microsoft et de fournisseurs tiers. Pour plus d'informations sur la façon d'installer et d'enregistrer des composants IFilters supplémentaires disponibles auprès de Microsoft, consultez Comment enregistrer Microsoft Filter Pack avec SharePoint Server 2007 et Search Server 2008. Si nécessaire, les développeurs peuvent créer des composants IFilter pour de nouveaux types de fichiers.
En revanche, si vous souhaitez exclure certains types de fichiers de l'analyse, vous pouvez supprimer l'extension de nom de fichier pour ce type de fichier dans la liste des inclusions de types de fichiers. Ceci exclut de l'analyse les noms des fichiers qui ont cette extension.
Le tableau ci-dessous répertorie les types de fichiers pris en charge par les composants IFilter qui sont installés par défaut, ainsi que les types de fichiers qui sont activés par défaut sur la page Gérer les types de fichiers.
Extension de nom de fichier | Prise en charge du composant IFilter par défaut | Inclusions de types de fichiers par défaut |
---|---|---|
ascx |
Oui |
Oui |
asm |
Oui |
Non |
asp |
Oui |
Oui |
aspx |
Oui |
Oui |
bat |
Oui |
Non |
c |
Oui |
Non |
cmd |
Oui |
Non |
cpp |
Oui |
Non |
css |
Oui |
Non |
cxx |
Oui |
Non |
def |
Oui |
Non |
dic |
Oui |
Non |
doc |
Oui |
Oui |
docm |
Oui |
Oui |
docx |
Oui |
Oui |
dot |
Oui |
Oui |
eml |
Oui |
Oui |
exch |
Non |
Oui |
h |
Oui |
Non |
hhc |
Oui |
Non |
hht |
Oui |
Non |
hpp |
Oui |
Non |
hta |
Oui |
Non |
htm |
Oui |
Oui |
html |
Oui |
Oui |
htw |
Oui |
Non |
htx |
Oui |
Non |
jhtml |
Non |
Oui |
jsp |
Non |
Oui |
lnk |
Oui |
Non |
mht |
Oui |
Oui |
mhtml |
Oui |
Oui |
mpx |
Oui |
Non |
msg |
Oui |
Oui |
mspx |
Non |
Oui |
nsf |
Non |
Oui |
odc |
Oui |
Oui |
one |
Non |
Non |
php |
Non |
Oui |
pot |
Oui |
Non |
pps |
Oui |
Non |
ppt |
Oui |
Oui |
pptm |
Oui |
Oui |
pptx |
Oui |
Oui |
pub |
Oui |
Oui |
stm |
Oui |
Non |
tif |
Oui |
Oui |
tiff |
Non |
Oui |
trf |
Oui |
Non |
txt |
Oui |
Oui |
url |
Non |
Oui |
vdx |
Non |
Oui |
vsd |
Non |
Oui |
vss |
Non |
Oui |
vst |
Non |
Oui |
vsx |
Non |
Oui |
vtx |
Non |
Oui |
xlb |
Oui |
Non |
xlc |
Oui |
Non |
xls |
Oui |
Oui |
xlsm |
Oui |
Oui |
xlsx |
Oui |
Oui |
xlt |
Oui |
Non |
xml |
Oui |
Oui |
Composants IFilter et Microsoft Office OneNote
Il n'est pas fourni de composant IFilter pour l'extension de nom de fichier .one utilisée par Microsoft Office OneNote. Si vous souhaitez que les utilisateurs puissent rechercher du contenu dans des fichiers Office OneNote, vous devez installer le composant IFilter pour OneNote. Pour ce faire, vous devez effectuer l'une des opérations suivantes :
Installez l'application cliente Microsoft Office OneNote 2007 sur le serveur d'index.
Le composant IFilter pour Office OneNote 2007 permet d'analyser les fichiers Office OneNote 2003 et Office OneNote 2007. Le composant IFilter pour Office OneNote 2003 peut analyser seulement des fichiers Office OneNote 2003.
Installez et inscrivez le pack de filtres Microsoft.
Le composant IFilter OneNote fourni par ce pack de filtres permet d'analyser uniquement les fichiersOneNote 2007. Pour plus d'informations, consultez Enregistrement du pack de filtres Microsoft avec SharePoint Server 2007 et Search Server 2008.
Limitation ou exclusion de contenu à l’aide de règles d’analyse
Lorsque vous ajoutez une adresse de démarrage à une source de contenu et que vous acceptez le comportement par défaut, tous les sous-sites ou les dossiers qui se trouvent sous cette adresse de démarrage sont analysés, sauf si vous les excluez à l’aide d’une ou de plusieurs règles d’analyse.
Pour plus d'informations sur les règles d'analyse, reportez-vous à la section Planification des règles d'analyse dans la suite de cet article.
Autres observations sur la planification de sources de contenu
Vous ne pouvez pas analyser les mêmes adresses à l'aide de plusieurs sources de contenu. Par exemple, si vous utilisez une source de contenu particulière pour analyser une collection de sites et tous ses sous-sites, vous ne pouvez pas utiliser une autre source de contenu pour analyser un de ces sous-sites séparément selon un calendrier différent. Pour tenir compte de cette restriction, il peut être nécessaire d'analyser certains de ces sites séparément. Imaginons le scénario suivant :
Un administrateur de Contoso souhaite analyser http://contoso/, qui contient les sous-sites http://contoso//sites/site1 et http://contoso//sites/site2. Il souhaite analyser http://contoso//sites/site2 selon une planification différente de celle des autres sites. À cet effet, il ajoute les adresses http://contoso/ et http://contoso//sites/site1 à une source de contenu et sélectionne le paramètre Analyser seulement le site SharePoint de chaque adresse de démarrage. Le sous-site http://contoso//sites/site2 est alors à une source de contenu distincte avec une planification d'analyse différente.
En plus des planifications d'analyse, vous devez prendre en compte d'autres éléments lors de la planification des sources de contenu. Par exemple, la décision de regrouper des adresses de démarrage dans une même source de contenu ou de créer des sources de contenu supplémentaires pour analyser ces adresses de démarrage dépend en grande partie de considérations relatives à l'administration. Les administrateurs apportent régulièrement des modifications qui nécessitent la mise à jour complète d'une source de contenu particulière. Les modifications apportées à une source de contenu nécessitent une analyse complète de cette source de contenu. Pour faciliter l'administration, organisez les sources de contenu de sorte que la mise à jour des sources de contenu, des règles d'analyse et de l'analyse de contenu soit pratique pour les administrateurs.
Récapitulatif des sources de contenu
Tenez compte des éléments ci-dessous lors de la planification des sources de contenu :
Une source de contenu particulière peut être utilisée pour analyser seulement l'un des types de contenu suivants : sites SharePoint, sites Web qui ne sont pas des sites SharePoint, partages de fichiers, Dossiers publics Exchange et bases de données Lotus Notes.
Les administrateurs de services de recherche peuvent créer jusqu'à 500 sources de contenu et chaque source de contenu peut contenir jusqu'à 500 adresses de démarrage. Pour conserver l'administration aussi simple que possible, créez seulement les sources de contenu dont vous avez absolument besoin.
Chaque URL d'une source de contenu particulière doit être du même type de source de contenu.
Pour une source de contenu particulière, vous pouvez choisir la profondeur de l'analyse à partir des adresses de démarrage. Ces paramètres de configuration s'appliquent à toutes les adresses de démarrage dans la source de contenu. Les choix disponibles portent sur les différences de profondeur d'analyse à partir des adresses de démarrage selon le type de source de contenu qui est sélectionné.
Vous pouvez planifier quand exécuter une analyse complète ou une analyse incrémentielle pour toute la source de contenu. Pour plus d’informations sur la planification des analyses, consultez Planification des règles d’analyse plus loin dans cet article.
Les administrateurs de services de recherche peuvent modifier la source de contenu par défaut, créer des sources de contenu supplémentaires pour analyser d'autres contenus, ou les deux. Par exemple, ils peuvent configurer la source de contenu par défaut pour analyser également du contenu sur une autre ferme de serveurs ou ils peuvent créer une nouvelle source de contenu pour analyser d'autres contenus.
Pour analyser efficacement tout le contenu requis par votre organisation, utilisez autant de sources de contenu que nécessaire pour les types de sources que vous souhaitez analyser et pour la fréquence à laquelle vous prévoyez de les analyser.
Planification de l'authentification
Lorsque le robot accède aux adresses de démarrage qui sont répertoriées dans les sources de contenu, il doit être authentifié par les serveurs qui hébergent ce contenu et être autorisé à y accéder. Cela signifie que le compte de domaine utilisé par le robot doit disposer au moins de l'autorisation de lecture du contenu.
Le compte d'accès au contenu par défaut est le compte qui est utilisé par défaut lors de l'analyse des sources de contenu. Ce compte est spécifié par l'administrateur de services de recherche. Vous pouvez aussi utiliser des règles d'analyse pour spécifier un compte d'accès de contenu différent à utiliser lors de l'analyse d'un contenu particulier. Que vous utilisiez le compte d'accès au contenu par défaut ou un autre compte d'accès au contenu spécifié par une règle d'analyse, le compte d'accès au contenu utilisé doit avoir l'accès en lecture à tout le contenu analysé, sans quoi le contenu n'est pas analysé et n'est pas disponible pour les requêtes.
Il est recommandé de sélectionner un compte d'accès au contenu par défaut qui a l'accès le plus large à la plupart de votre contenu analysé ; utilisez d'autres comptes d'accès au contenu seulement lorsque des considérations relatives à la sécurité nécessitent des comptes d'accès au contenu distincts. Pour plus d'informations sur la création de comptes d'accès au contenu distincts pour analyser du contenu qui ne peut pas être lu à l'aide du compte d'accès au contenu par défaut, reportez-vous à la section Planification des règles d'analyse dans la suite de cet article.
Pour chaque source de contenu que vous prévoyez, identifiez les adresses de démarrage qui ne sont pas accessibles par le compte d'accès au contenu par défaut et prévoyez d'ajouter des règles d'analyse pour les modèles d'URL qui couvrent ces adresses de démarrage.
Remarque : |
---|
Assurez-vous que le compte de domaine utilisé pour le compte d'accès au contenu par défaut ou pour tout autre compte d'accès au contenu n'est pas le même compte de domaine que celui qui est utilisé par un pool d'applications associé à n'importe quelle application Web analysée. Cela peut en effet aboutir à l'analyse et à l'indexation de contenu non publié dans des sites SharePoint et dans des versions mineures de fichiers (des versions de l'historique) de sites SharePoint. |
Pour plus d'informations sur les considérations de planification pour les comptes d'accès au contenu, reportez-vous à la section Planification des règles d'analyse dans la suite de cet article.
Une autre considération importante est que le robot doit utiliser la même méthode d'authentification que le serveur hôte. Par défaut, le robot tente de s'authentifier à l'aide de l'authentification NTLM. Vous pouvez configurer le robot pour qu'il utilise si nécessaire une autre méthode d'authentification. Pour plus d'informations, reportez-vous à la section relative aux conditions d'authentification nécessaires pour l'analyse du contenu dans Planifier des méthodes d’authentification (Office SharePoint Server). Cet article concerne également à Search Server 2008.
Planification des gestionnaires de protocole
Tout le contenu qui est analysé requiert l'utilisation d'un gestionnaire de protocole pour accéder à ce contenu. Search Server 2008 fournit des gestionnaires de protocole pour tous les protocoles Internet courants. Toutefois, si vous souhaitez analyser du contenu qui requiert un gestionnaire de protocole qui n'est pas installé avec Search Server 2008, vous devez installer le gestionnaire de protocole tiers ou personnalisé avant de pouvoir analyser ce contenu.
Le tableau ci-dessous répertorie les gestionnaires de protocole installés par défaut.
Gestionnaire de protocole | Permet d'analyser |
---|---|
Fichier |
Partages de fichiers |
http |
Sites Web |
https |
Sites Web sur SSL |
Notes |
Bases de données Lotus Notes |
Rb |
Dossiers publics Exchange |
Rbs |
Dossiers publics Exchange sur SSL |
Sps |
Profils de personne à partir de batteries de serveurs Windows SharePoint Services 2.0 |
Sps3 |
Analyses de profil de personne de batteries de serveurs Windows SharePoint Services 3.0 uniquement |
Sps3s |
Analyses de profil de personne à partir de batteries de serveurs Windows SharePoint Services 3.0 uniquement |
Spsimport |
Importation de profil de personne |
Spss |
Importation de profil de personne à partir de batteries de serveurs Windows SharePoint Services 2.0 sur SSL |
Sts |
URL racines Windows SharePoint Services 3.0 (protocole interne) |
Sts2 |
Sites Windows SharePoint Services 2.0 |
Sts2s |
Sites Windows SharePoint Services 2.0 sur SSL |
Sts3 |
Sites Windows SharePoint Services 3.0 |
Sts3s |
Sites Windows SharePoint Services 3.0 sur SSL |
Planification de l'impact de l'analyse
L'analyse du contenu peut considérablement réduire les performances des serveurs qui hébergent le contenu. L'impact que cela a sur un serveur particulier varie selon la charge que le serveur hôte supporte et du niveau suffisant ou non des ressources du serveur (en particulier du processeur et de la mémoire vive) pour respecter les contrats de niveau de service en utilisation normale ou maximale.
Les règles d'impact du robot permettent aux administrateurs de batteries de serveurs de gérer l'impact du robot sur les serveurs à analyser. Pour chaque règle d'impact du robot, vous pouvez spécifier une URL unique ou utiliser des caractères génériques dans le chemin d'accès de l'URL pour inclure un bloc d'URL auxquelles la règle s'applique. Vous pouvez ensuite spécifier le nombre de demandes de pages simultanément adressées à l'URL spécifiée ou choisir de demander un seul document à la fois et attendre un certain nombre de secondes entre les demandes.
Les règles d'impact du robot réduisent ou augmentent la vitesse à laquelle le robot demande le contenu à une adresse de démarrage spécifique ou à une plage d'adresses de démarrage (parfois appelée « nom de site »), indépendamment de la source de contenu utilisée pour analyser ces adresses. Le tableau suivant répertorie les caractères génériques que vous pouvez utiliser dans le nom de site lors de l'ajout d'une règle.
Caractère générique à utiliser | Résultat |
---|---|
* comme nom de site |
Applique la règle à tous les sites. |
*.* comme nom de site |
Applique la règle aux sites dont le nom comporte des points. |
*.nom_du_site.com comme nom de site |
Applique la règle à tous les sites du domaine nom_du_site.com (par exemple *.adventure-works.com). |
*.nom_de_domaine_du_plus_haut_niveau comme nom de site |
Applique la règle à tous les sites se terminant par un nom de domaine du plus haut niveau spécifique (par exemple *.com ou *.net). |
? |
Remplace un seul caractère dans une règle. Par exemple, *.adventure-works?.com s'applique à tous les sites des domaines adventure-works1.com, adventure-works2.com, etc. |
Vous pouvez créer une règle d'impact du robot qui s'applique à tous les sites dans un domaine de plus haut niveau particulier. Ainsi, *.com s'applique à tous les sites Internet avec des adresses qui se terminent par .com. Par exemple, un administrateur d'un site portail peut ajouter une source de contenu pour exemples.microsoft.com. La règle pour *.com s'applique à ce site, sauf si vous ajoutez une règle d'impact du robot spécifiquement pour exemples.microsoft.com.
Pour le contenu existant au sein de votre organisation et qui serait analysé par d'autres administrateurs, vous pouvez vous coordonner avec ces administrateurs pour définir des règles d'impact du robot basées sur les performances et la capacité des serveurs. Pour les sites plus extérieurs, cette coordination n'est pas possible. Le fait de demander trop de contenu sur des serveurs externes ou d'effectuer des demandes trop fréquemment peut entraîner la limitation de vos accès ultérieurs par les administrateurs de ces sites si vos analyses utilisent trop de ressources ou trop de bande passante. Par conséquent, la pratique recommandée consiste à effectuer les analyses selon un rythme plus lent. De cette manière, vous pouvez réduire le risque de perdre vos accès pour analyser le contenu pertinent.
Lors du déploiement initial, définissez les règles d’impact du robot pour alléger la charge sur les autres serveurs tout en analysant le contenu selon une fréquence suffisante pour garantir l’actualité du contenu analysé.
Au cours de la phase de fonctionnement, vous pouvez adapter au fur et à mesure les règles d'impact sur la base de votre expérience et des journaux d'analyse.
Planification des règles d'analyse
Les règles d'analyse s'appliquent à une URL particulière ou à un ensemble spécifique d'URL représenté(e) par des caractères génériques (également appelé(e) « chemin d'accès affecté par la règle »). Vous utilisez des règles d'analyse pour atteindre les objectifs suivants :
Éviter l'analyse de contenu non pertinent en excluant une ou plusieurs URL. Cela permet également de réduire l'utilisation des ressources serveur et du trafic réseau, et d'accroître la pertinence des résultats de la recherche.
Analyser des liens sur l'URL sans analyser l'URL elle-même. Cette option est utile pour les sites avec des liens vers du contenu pertinent lorsque la page contenant les liens ne contient pas d'informations pertinentes.
Permettre l'analyse d'URL complexes. Cette option analyse les URL qui contiennent un paramètre de requête spécifié avec un point d'interrogation. En fonction du site, ces URL peuvent ou non inclure du contenu pertinent. Étant donné que les URL complexes peuvent souvent rediriger vers des sites non pertinents, il est judicieux d'activer cette option seulement sur des sites où le contenu disponible à partir d'URL complexes est réputé non pertinent.
Permettre à du contenu sur des sites SharePoint d'être analysé en tant que pages HTTP. Cette option permet au serveur d'index d'analyser des sites SharePoint qui sont derrière un pare-feu ou dans des scénarios où le site en cours d'analyse limite l'accès au service Web utilisé par le robot.
Spécifier s'il faut utiliser le compte d'accès au contenu par défaut, un autre compte d'accès au contenu ou un certificat client pour l'analyse de l'URL spécifiée.
Remarque : |
---|
Les règles d'analyse s'appliquent simultanément à toutes les sources de contenu. |
Souvent, la plupart du contenu d'une adresse d'un site particulier est pertinent, mais ce n'est éventuellement pas le cas d'un sous-site spécifique ou d'une plage de sites situés sous l'adresse de ce site. En sélectionnant une combinaison ciblée d'URL pour lesquelles ils créent des règles d'analyse qui excluent les éléments non nécessaires, les administrateurs de services de recherche peuvent optimiser la pertinence du contenu de l'index tout en minimisant l'impact sur les performances de l'analyse et la taille des bases de données de la recherche. La création de règles d'analyse pour exclure des URL est particulièrement utile lors de la planification des adresses de démarrage pour du contenu externe, pour lequel l'impact sur l'utilisation des ressources échappe au contrôle des personnes de votre organisation.
Lorsque vous créez une règle d’analyse, vous pouvez utiliser des caractères génériques standard dans le chemin d’accès. Par exemple :
http://serveur1/dossier* contient toutes les ressources Web dotées d’une URL commençant par http://serveur1/dossier.
*://*.txt inclut chaque document avec l’extension de fichier .txt.
Étant donné que l'analyse de contenu consomme des ressources et de la bande passante, il est préférable d'inclure un volume de contenu moins important mais pertinent, plutôt qu'un volume plus important de contenu mais qui risque d'être non pertinent. Après le déploiement initial, vous pouvez examiner les fichiers journaux des requêtes et des analyses, et adapter en conséquence les sources de contenu et les règles d'analyse pour les rendre plus pertinentes et inclure davantage de contenu.
Spécification d'un autre compte d'accès au contenu
Pour les règles d'analyse qui incluent du contenu, les administrateurs ont la possibilité de modifier le compte d'accès au contenu pour la règle. Le compte d'accès au contenu par défaut est utilisé à moins qu'un autre compte soit spécifié dans une règle d'analyse. La raison principale pour utiliser un autre compte d'accès au contenu pour une règle d'analyse est que le compte d'accès au contenu par défaut n'a pas accès à toutes les adresses de démarrage. Pour ces adresses, vous pouvez créer une règle d'analyse et spécifier un compte qui y a accès.
Remarque : |
---|
Assurez-vous que le compte de domaine utilisé pour le compte d'accès au contenu par défaut ou pour tout autre compte d'accès au contenu n'est pas le même compte de domaine que celui qui est utilisé par un pool d'applications associé à n'importe quelle application Web analysée. Cela peut en effet aboutir à l'analyse et à l'indexation de contenu non publié dans des sites SharePoint et dans des versions mineures de fichiers (des versions de l'historique) de sites SharePoint. |
Planification des paramètres de recherche gérés au niveau de la batterie de serveurs
Outre les paramètres qui sont configurés au niveau de l'administration de la recherche, plusieurs paramètres qui sont gérés au niveau de la batterie de serveurs affectent la façon dont le contenu est analysé. Prenez en compte les paramètres de recherche suivants (gérés au niveau de la batterie de serveurs) lors de la planification de l'analyse :
Adresse de messagerie du contact : l'analyse de contenu affecte les ressources des serveurs qui sont analysés. Avant de pouvoir analyser du contenu, vous devez fournir dans les paramètres de configuration l'adresse de messagerie de la personne de votre organisation que les administrateurs peuvent contacter dans le cas où l'analyse dégrade de façon trop importante les performances de leurs serveurs. Cette adresse de messagerie apparaît dans les journaux destinés aux administrateurs des serveurs analysés, pour leur permettre de contacter quelqu'un si l'impact de l'analyse sur les performances et sur la bande passante est trop grand, ou si d'autres problèmes se produisent.
L'adresse de messagerie du contact doit être celle d'une personne qui a les connaissances et la disponibilité nécessaires pour répondre rapidement aux demandes. Vous pouvez aussi utiliser un alias de liste de distribution spécialement surveillée en tant qu'adresse de messagerie du contact. Que le contenu analysé soit stocké ou non au sein de l'organisation, un temps de réponse rapide est important.
Paramètres du serveur proxy Vous pouvez choisir d'utiliser un serveur proxy lors de l'analyse de contenu. Le serveur proxy à utiliser dépend de la topologie de votre déploiement de Search Server 2008 et de l'architecture des autres serveurs de votre organisation.
Paramètres de délai d'attente : les paramètres de délai d'attente sont utilisés pour limiter le temps d'attente du serveur de recherche lors de la connexion à d'autres services.
Paramètre SSL : le paramètre SSL (Secure Sockets Layer) détermine si le certificat SSL doit correspondre exactement au contenu analysé.
Indexation de contenu dans différentes langues
Lors de l'analyse de contenu, le robot détermine chaque mot individuel dans le contenu détecté. Les langues dont les mots sont séparés par des espaces facilitent la distinction des mots par le robot. Dans les autres langues, la détection des frontières entre les mots peut s'avérer plus complexe.
Search Server 2008 fournit des séparateurs de mots et des analyseurs morphologiques par défaut pour aider à analyser et à indexer le contenu dans un grand nombre de langues. Les séparateurs de mots recherchent les frontières entre les mots dans des données indexées en texte intégral, tandis que les analyseurs morphologiques conjuguent les verbes.
Si vous analysez l'une des langues figurant dans le tableau ci-dessous, Search Server 2008 utilise automatiquement le séparateur de mots et l'analyseur morphologique appropriés pour cette langue. Un astérisque (*) indique que la fonctionnalité d'analyse morphologique est activée par défaut.
Langue prise en charge par défaut | Langue prise en charge par défaut |
---|---|
Arabe |
Lituanien* |
Bengali |
Malais |
Bulgare* |
Malayalam* |
Catalan |
Marathi |
Croate |
Norvégien (Bokmaal) |
Tchèque* |
Polonais* |
Danois |
Portugais |
Néerlandais |
Portugais (Brésil) |
Anglais |
Pendjabi |
Finnois* |
Roumain* |
Français* |
Russe* |
Allemand* |
Serbe (Cyrillique)* |
Grec* |
Serbe (Latin)* |
Gujarati |
Slovaque* |
Hébreu |
Slovène* |
Hindi |
Espagnol* |
Hongrois* |
Suédois |
Islandais* |
Tamoul* |
Indonésien |
Telugu* |
Italien |
Thaï |
Japonais |
Turc* |
Kannada* |
Ukrainien* |
Coréen |
Ourdou* |
Letton* |
Vietnamien |
Lorsque le robot indexe le contenu d'une langue qui n'est pas prise en charge, le séparateur neutre est utilisé. S'il ne permet pas d'obtenir le résultat escompté, vous pouvez essayer des solutions tierces, qui utilisent Search Server 2008.