Pianificare la ricerca per indicizzazione di contenuto (Office SharePoint Server)
Contenuto dell'articolo:
Informazioni sulla ricerca per indicizzazione e l'indicizzazione di contenuto
Identificare le origini di contenuto che si desidera sottoporre a ricerca per indicizzazione
Pianificare le origini di contenuto
Pianificare l'autenticazione
Pianificare i gestori di protocollo
Pianificare la gestione dell'impatto della ricerca per indicizzazione
Pianificare le regole di ricerca per indicizzazione
Pianificare le impostazioni di ricerca gestite a livello di farm
Indicizzazione di contenuto in lingue diverse
Foglio di lavoro
Lo scopo di questo articolo è consentire agli amministratori del servizio di ricerca di comprendere in che modo Microsoft Office SharePoint Server 2007 esegue la ricerca per indicizzazione e l'indicizzazione di contenuto, nonché agevolare la pianificazione della ricerca per indicizzazione di contenuto.
Per consentire agli utenti di utilizzare le funzionalità di ricerca di contenuti dell'organizzazione disponibili in Microsoft Office SharePoint Server 2007 per eseguire la ricerca di contenuto, è innanzitutto necessario sottoporre a ricerca per indicizzazione il contenuto che si desidera rendere disponibile per le query degli utenti.
Ai fini di questo articolo, il contenuto è rappresentato da qualsiasi elemento che può essere sottoposto a ricerca per indicizzazione, ad esempio una pagina Web, un documento di Microsoft Office Word, dati business o un file di messaggio di posta elettronica.
Durante la pianificazione della ricerca per indicizzazione di contenuto, è consigliabile porsi le domande seguenti:
Dove si trova fisicamente il contenuto che si desidera sottoporre a ricerca per indicizzazione?
Una parte del contenuto che si desidera sottoporre a ricerca per indicizzazione è archiviata in tipi di origini diverse, ad esempio condivisioni di file, siti di SharePoint, siti Web o altre posizioni?
Si desidera sottoporre a ricerca per indicizzazione tutto il contenuto di origini specifiche o solo una parte?
Quali tipi di file costituiscono il contenuto che si desidera sottoporre a ricerca per indicizzazione?
Quando e con quale frequenza verrà eseguita la ricerca per indicizzazione del contenuto?
Come viene protetto il contenuto?
Utilizzare le informazioni incluse in questo articolo per rispondere a queste domande e prendere le decisioni di pianificazione necessarie relativamente al contenuto che si desidera sottoporre a ricerca per indicizzazione, nonché al momento e alla frequenza con cui si desidera sottoporre tale contenuto a ricerca per indicizzazione.
In alcuni punti chiave dell'articolo verrà richiesto di compilare una sezione di un foglio di lavoro in relazione a quanto letto. È possibile registrare le decisioni prese nel foglio di lavoro durante la lettura dell'articolo oppure registrarle tutte contemporaneamente alla fine dell'articolo. In entrambi i casi, un foglio di lavoro completato rappresenta uno strumento molto utile di cui disporre durante la distribuzione della soluzione di ricerca.
Nota
In questo articolo viene descritto il processo di pianificazione per la ricerca per indicizzazione e l'indicizzazione di contenuto in un unico indice. Se durante la pianificazione della ricerca per indicizzazione del contenuto si individua la necessità di utilizzare un indice di contenuto aggiuntivo, registrare le decisioni di pianificazione per ogni provider di servizi condivisi in un foglio di lavoro separato.
In Microsoft Office SharePoint Server 2007 è disponibile il servizio di ricerca di Office SharePoint Server che consente di eseguire la ricerca per indicizzazione e l'indicizzazione di contenuto. Questo servizio fa parte di un provider di servizi condivisi e tutto il contenuto sottoposto a ricerca per indicizzazione mediante un provider di servizi condivisi specifico viene indicizzato in un unico indice. Per informazioni sulla scelta del numero di provider di servizi condivisi da utilizzare per l'indicizzazione di contenuto, vedere Pianificare i provider di servizi condivisi.
Informazioni sulla ricerca per indicizzazione e l'indicizzazione di contenuto
La ricerca per indicizzazione e l'indicizzazione di contenuto rappresentano il processo mediante il quale il sistema accede e analizza il contenuto e le relative proprietà, detti anche metadati, per creare un indice di contenuto da cui possono essere gestite le query di ricerca.
Il risultato di un contenuto sottoposto a ricerca per indicizzazione consiste nel fatto che l'accesso ai singoli file o a parti del contenuto che si desidera rendere disponibili per le query di ricerca e la loro lettura vengono eseguiti dal crawler. Le parole chiave e i metadati per tali file vengono archiviati nell'indice del contenuto, detto anche indice. L'indice è costituito dalle parole chiave archiviate nel file system del server di indicizzazione e dai metadati archiviati nel database di ricerca. Il sistema gestisce un mapping tra le chiavi, i metadati associati alle singole parti di contenuto da cui le parole chiave sono state sottoposte a ricerca per indicizzazione e l'URL dell'origine da cui il contenuto è stato sottoposto a ricerca per indicizzazione.
Nota
I file nei server host non vengono in alcun modo modificati dal crawler. Tali file vengono invece semplicemente letti e il testo e i metadati per tali file vengono inviati al server di indicizzazione per essere indicizzati. Tuttavia, poiché il contenuto viene letto dal crawler nel server host, alcuni server che ospitano determinate origini di contenuto potrebbero aggiornare l'ultima data di accesso ai file sottoposti a ricerca per indicizzazione.
Identificare le origini di contenuto che si desidera sottoporre a ricerca per indicizzazione
In molti casi, le esigenze dell'organizzazione potrebbero richiedere solo la ricerca per indicizzazione di tutto il contenuto presente nel siti di SharePoint all'interno della server farm dell'organizzazione. In questo caso, potrebbe non essere necessario identificare le origini di contenuto che si desidera sottoporre a ricerca per indicizzazione in quanto tutte le raccolte siti di una server farm possono essere sottoposte a ricerca per indicizzazione utilizzando l'origine di contenuto predefinita. Per ulteriori informazioni sull'origine di contenuto predefinita, vedere Pianificare le origini di contenuto più avanti in questo articolo.
Molte organizzazioni hanno inoltre la necessità di eseguire la ricerca per indicizzazione di contenuto esterno alla server farm, ad esempio condivisioni di file o siti Web in Internet. Con Microsoft Office SharePoint Server 2007 è possibile eseguire la ricerca per indicizzazione e l'indicizzazione del contenuto ospitato in altre farm di Windows SharePoint Services o Office SharePoint Server, siti Web, condivisioni di file, cartelle pubbliche di Microsoft Exchange, server IBM Lotus Notes e dati business archiviati in database, determinando un notevole incremento della quantità di contenuto disponibile per le query di ricerca.
In molti casi è tuttavia possibile che non si desideri eseguire la ricerca per indicizzazione di tutte le raccolte siti della server farm, in quanto il contenuto archiviato in alcune raccolte siti potrebbe non essere pertinente. In questo caso, sarà necessario eseguire una o entrambe le attività seguenti:
Prendere nota delle raccolte siti che non si desidera sottoporre a ricerca per indicizzazione. Se si decide di utilizzare l'origine di contenuto predefinita, sarà necessario verificare che gli indirizzi iniziali delle raccolte siti che non si desidera sottoporre a ricerca per indicizzazione non siano elencati nell'origine di contenuto predefinita.
Prendere nota dei singoli indirizzi iniziali delle raccolte siti che si desidera sottoporre a ricerca per indicizzazione. Se si decide di creare origini di contenuto aggiuntive da utilizzare per la ricerca per indicizzazione del contenuto, sarà necessario conoscere questi indirizzi iniziali. Per informazioni su quando utilizzare una o più origini di contenuto, vedere Pianificare le origini di contenuto più avanti in questo articolo.
Dopo l'installazione di Aggiornamento dell'infrastruttura per Microsoft Office Servers, sono disponibili due modi per elaborare le query di ricerca in modo da restituire i risultati della ricerca agli utenti. È possibile effettuare la query sull'indice di contenuto di Search Server oppure utilizzare la ricerca federata.
Suggerimento
Si noti che Aggiornamento dell'infrastruttura per Microsoft Office Servers consente di utilizzare in Microsoft Office SharePoint Server 2007 la funzionalità della ricerca federata, che è stata resa disponibile per la prima volta in Server di ricerca 2008.
Ognuno di questi approcci presenta dei vantaggi. Per un confronto di questi due approcci all'elaborazione delle query di ricerca, vedere Panoramica sulla ricerca federata (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x410) (informazioni in lingua inglese) . Per un elenco e una breve descrizione degli articoli sulla comprensione e l'utilizzo della federazione, vedere Utilizzo della federazione (Office SharePoint Server). Per ulteriori informazioni sull'aggiornamento dell'infrastruttura per i server di Microsoft Office, vedere Installare l'aggiornamento dell'infrastruttura per i server di Microsoft Office (Office Sharepoint Server 2007).
Pianificare le origini di contenuto
Prima di eseguire la ricerca per indicizzazione di contenuto, è innanzitutto necessario determinare la posizione in cui si trova il contenuto e in quali tipi di server viene ospitato. Dopo aver raccolto queste informazioni, un amministratore di servizi condivisi potrà creare una o più origini di contenuto da utilizzare per la ricerca per indicizzazione di tale contenuto. Queste origini di contenuto forniscono le informazioni seguenti al crawler durante la ricerca per indicizzazione:
Tipo di contenuto che si desidera sottoporre a ricerca per indicizzazione, ad esempio un sito di SharePoint o una condivisione di file.
Indirizzo iniziale da cui avviare la ricerca per indicizzazione.
Comportamento da utilizzare durante la ricerca per indicizzazione, ad esempio di quanto estendere la ricerca per indicizzazione dall'indirizzo iniziale o quanti passaggi tra server consentire.
Pianificazione della ricerca per indicizzazione.
Nota
La ricerca per indicizzazione di contenuto tramite una particolare origine di contenuto è un'operazione definita a volte "ricerca per indicizzazione dell'origine di contenuto".
Le informazioni contenute in questa sezione consentono di pianificare le origini di contenuto necessarie all'organizzazione.
L'origine di contenuto predefinita è denominata Siti locali di Office SharePoint Server. Gli amministratori di servizi condivisi possono utilizzare questa origine di contenuto per eseguire la ricerca per indicizzazione e l'indicizzazione di tutto il contenuto in tutte le applicazioni Web associate al provider di servizi condivisi. Per impostazione predefinita, in Microsoft Office SharePoint Server 2007 viene aggiunto all'origine di contenuto predefinita l'indirizzo iniziale (in questo caso un URL) del sito principale di ogni raccolta siti creata nell'applicazione Web che utilizza lo stesso provider di servizi condivisi.
In alcune organizzazioni l'utilizzo dell'origine di contenuto predefinita per la ricerca per indicizzazione di tutti i siti inclusi nelle raccolte siti consente di soddisfare i requisiti di ricerca. Molte organizzazioni necessitano tuttavia di origini di contenuto aggiuntive.
I motivi per creare origini di contenuto aggiuntive includono la necessità di:
Eseguire la ricerca per indicizzazione di tipi di contenuto diversi.
Eseguire la ricerca per indicizzazione di alcuni contenuti con una pianificazione diversa rispetta ad altri.
Limitare o aumentare la quantità di contenuto sottoposto a ricerca per indicizzazione.
Gli amministratori di servizi condivisi possono creare fino a 500 origini di contenuto in ogni provider di servizi condivisi e ogni origine di contenuto può contenere fino a 500 indirizzi iniziali. Per semplificare al massimo l'amministrazione, è consigliabile creare solo il numero di origini di contenuto necessario.
Eseguire la ricerca per indicizzazione di tipi di contenuto diversi
È possibile eseguire la ricerca per indicizzazione di un solo tipo di contenuto per ogni origine di contenuto, ovvero è possibile creare un'origine di contenuto che contenga URL per siti di SharePoint e un'altra che contenga URL per condivisioni di file, ma non è possibile creare un'unica origine di contenuto che contenga URL per siti di SharePoint e condivisioni di file. Nella tabella seguente vengono elencati i tipi di origini di contenuto che è possibile configurare.
Tipo di origine di contenuto | Tipo di contenuto incluso |
---|---|
Siti di SharePoint |
Siti di SharePoint dalla stessa farm o da farm diverse di Microsoft Office SharePoint Server 2007, Microsoft Windows SharePoint Services 3.0 o Siti di SharePoint da farm di Microsoft Office SharePoint Portal Server 2003 o Microsoft Windows SharePoint Services 2.0 Nota Diversamente dalla ricerca per indicizzazione di siti di SharePoint in Microsoft Office SharePoint Server 2007, Microsoft Windows SharePoint Services 3.0 o , il crawler non è in grado di eseguire automaticamente la ricerca per indicizzazione di tutti i siti secondari di una raccolta siti di versioni precedenti di Prodotti e tecnologie SharePoint. Di conseguenza, durante la ricerca per indicizzazione di siti di SharePoint di versioni precedenti, è necessario specificare l'URL di ogni sito principale e di ogni sito secondario che si desidera sottoporre a ricerca per indicizzazione. I siti elencati nella directory dei siti di farm di Microsoft Office SharePoint Portal Server 2003 vengono sottoposti a ricerca per indicizzazione quando viene eseguita la ricerca per indicizzazione del sito portale. Per ulteriori informazioni sulla directory dei siti, vedere Informazioni sulla directory dei siti (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x410) (informazioni in lingua inglese) . |
Siti Web |
Altro contenuto Web dell'organizzazione non disponibile in siti di SharePoint Contenuto in siti Web su Internet |
Condivisioni di file |
Contenuto in condivisioni di file all'interno dell'organizzazione |
Cartelle pubbliche di Exchange |
Contenuto di Microsoft Exchange Server |
Lotus Notes |
Messaggi di posta elettronica archiviati in database di Lotus Notes Nota A differenza di altri tipi di origini di contenuto, l'opzione relativa all'origine di contenuto Lotus Notes non viene visualizzata nell'interfaccia utente fino a quando non viene installato e configurato il software necessario appropriato. Per ulteriori informazioni, vedere Configurare il servizio di ricerca di Office SharePoint Server per la ricerca per indicizzazione di Lotus Notes (Office SharePoint Server 2007). |
Dati business |
Dati business archiviati in applicazioni line-of-business |
Pianificare le origini di contenuto per dati business
Per utilizzare origini di contenuto di dati business, è necessario che le applicazioni che ospitano i dati vengano innanzitutto registrate nel Catalogo dati business. Per eseguire la ricerca per indicizzazione di dati business, è necessario creare una o più origini di contenuto separate dei tipi origini di contenuto di dati business. È possibile creare un'unica origine di contenuto per eseguire la ricerca per indicizzazione di tutte le applicazioni registrate nel Catalogo dati business oppure è possibile creare origini di contenuto separate per eseguire la ricerca per indicizzazione di singole applicazioni registrate nel Catalogo dati business.
Le persone che pianificano l'integrazione dei dati business nelle raccolte siti spesso non sono le stesse persone coinvolte nel processo generale di pianificazione del contenuto. È pertanto opportuno includere amministratori di applicazioni business nei team di pianificazione del contenuto che siano in grado di fornire consigli su come integrare i dati con il resto del contenuto per presentarli in modo efficace nelle raccolte siti.
Per ulteriori informazioni sulla pianificazione della ricerca dei dati business, vedere Pianificare la ricerca di dati business.
Eseguire la ricerca per indicizzazione di contenuto con una pianificazione diversa
Gli amministratori di servizi condivisi devono spesso decidere se eseguire la ricerca per indicizzazione di un determinato contenuto più frequentemente rispetto a un altro. Maggiore è il volume del contenuto da sottoporre a ricerca per indicizzazione, più alta è la probabilità che si esegua la ricerca per indicizzazione di contenuto di origini diverse. Queste origini diverse potrebbero essere o non essere dello stesso tipo e potrebbero essere ospitate in server che presentano velocità diverse tra loro.
Questi fattori rendono più probabile la necessità di disporre di origini di contenuto aggiuntive da sottoporre a ricerca per indicizzazione in momenti diversi.
I motivi principali che determinano la necessità di sottoporre tale contenuto a ricerca per indicizzazione con una pianificazione diversa sono:
Per adattarsi a tempi di inattività e periodi di utilizzo di punta.
Per eseguire più frequentemente la ricerca per indicizzazione del contenuto aggiornato con maggiore frequenza.
Per sottoporre a ricerca per indicizzazione il contenuto ospitato in server host più lenti separatamente dal contenuto sottoposto a ricerca per indicizzazione in server host più veloci.
In molti casi non sarà possibile disporre di tutte queste informazioni prima di aver distribuito ed eseguito Microsoft Office SharePoint Server 2007 per un certo periodo di tempo. Alcune di queste decisioni vengono invece prese durante la fase operativa. È tuttavia utile considerare questi fattori durante la pianificazione, in modo da poter definire le pianificazione di ricerca per indicizzazione in base alle informazioni disponibili.
Nelle due sezioni seguenti vengono fornite ulteriori informazioni sulla ricerca per indicizzazione del contenuto con una pianificazione diversa.
Tempi di inattività e periodi di utilizzo di punta
Considerare i tempi di inattività e i periodi di utilizzo di punta dei server che ospitano il contenuto che si desidera sottoporre a ricerca per indicizzazione. Se ad esempio si esegue la ricerca per indicizzazione di contenuto ospitato in molti server diversi esterni alla server farm, è probabile che il backup di questi server venga eseguito con una pianificazione diversa e che i server presentino periodi di utilizzo di punta diversi. Non è in genere possibile controllare l'amministrazione dei server esterni alla server farm. È pertanto consigliabile coordinare le ricerche per indicizzazione con gli amministratori dei server che ospitano il contenuto che si desidera sottoporre a ricerca per indicizzazione per assicurarsi di non sottoporre a ricerca per indicizzazione il contenuto di tali server durante un periodo di inattività o di utilizzo di punta.
Uno scenario comune riguarda il contenuto esterno al controllo dell'organizzazione correlato al contenuto nei siti di SharePoint. È possibile aggiungere gli indirizzi iniziali di tale contenuto a un'origine di contenuto esistente oppure creare una nuova origine per il contenuto esterno. La disponibilità dei siti esterni è soggetta a variazioni notevoli e pertanto sarà utile aggiungere origini di contenuto separate per un contenuto esterno diverso. In questo modo, le origini di contenuto per il contenuto esterno possono essere sottoposte a ricerca per indicizzazione in momenti diversi rispetto alle altre origini di contenuto. Sarà così possibile aggiornare il contenuto esterno utilizzando una pianificazione di ricerca per indicizzazione che tenga conto della disponibilità di ogni sito.
Contenuto aggiornato frequentemente
Durante la definizione delle pianificazioni di ricerca per indicizzazione, tenere presente che alcune origini di contenuto vengono in genere aggiornate con maggiore frequenza rispetto ad altre. Ad esempio, se si è certi che il contenuto di alcune raccolte siti o origini esterne viene aggiornato solo il venerdì, sottoporre tale contenuto a ricerca per indicizzazione più volte alla settimana comporterebbe un inutile spreco di risorse. La server farm potrebbe tuttavia contenere altre raccolte siti che vengono costantemente aggiornate dal lunedì al venerdì, ma in genere non il sabato e la domenica. In questo caso, è possibile che si desideri sottoporre tale contenuto a ricerca per indicizzazione più volte al giorno durante la settimana, ma solo una o due volte nei fine settimana.
Il modo in cui il contenuto viene archiviato nelle raccolte siti nel proprio ambiente può suggerire la creazione di origini di contenuto aggiuntive per ogni raccolta siti all'interno di ogni applicazione Web. Se in una raccolta siti vengono ad esempio inserite solo informazioni archiviate, può non essere necessario sottoporre tale contenuto a ricerca per indicizzazione con la stessa frequenza di una raccolta siti in cui viene archiviato frequentemente contenuto aggiornato. In questo caso, è possibile che si desideri sottoporre a ricerca per indicizzazione queste due raccolte siti utilizzando origini di contenuto diverse, in modo da poterle sottoporre a ricerca per indicizzazione con una pianificazione diversa senza eseguire la ricerca per indicizzazione dei siti di archivio con la stessa frequenza dell'altro contenuto.
Pianificazioni di ricerca per indicizzazione completa e incrementale
Gli amministratori di servizi condivisi possono configurare le pianificazioni di ricerca per indicizzazione in modo indipendente per ogni origine di contenuto. Per ogni origine di contenuto, è possibile specificare un'ora in cui eseguire ricerche per indicizzazioni complete e un'ora diversa in cui eseguire ricerche per indicizzazione incrementali. Si noti che è necessario eseguire una ricerca per indicizzazione completa per una determinata origine di contenuto prima di poter eseguire una ricerca per indicizzazione incrementale. Se si sceglie di eseguire una ricerca per indicizzazione incrementale per un contenuto non ancora sottoposto a ricerca per indicizzazione, verrà eseguita una ricerca per indicizzazione completa.
Nota
Poiché una ricerca per indicizzazione completa determina la ricerca per indicizzazione di tutto il contenuto individuato dal crawler e per il quale il crawler dispone almeno dell'accesso in lettura, indipendentemente dal fatto che il contenuto sia stato o meno sottoposto a ricerca per indicizzazione in precedenza, il completamento delle ricerche per indicizzazioni complete può richiedere molto più tempo rispetto alle ricerche per indicizzazione incrementali.
È consigliabile definire pianificazioni di ricerca per indicizzazione in base alle considerazioni di disponibilità, prestazioni e larghezza di banda dei server che eseguono il servizio di ricerca e dei server che ospitano il contenuto sottoposto a ricerca per indicizzazione.
Quando si definiscono pianificazioni di ricerca per indicizzazione, tenere presenti le procedure consigliate seguenti:
Raggruppare gli indirizzi iniziali nelle origini di contenuto in base a disponibilità simili e un utilizzo generale delle risorse accettabile per i server che ospitano il contenuto.
Pianificare ricerche per indicizzazione incrementali per ogni origine di contenuto nei periodi in cui i server che ospitano il contenuto sono disponibili e quando la richiesta delle risorse del server è limitata.
Scaglionare le pianificazioni di ricerca per indicizzazione in modo che il carico dei server della farm venga distribuito nel tempo.
Pianificare ricerche per indicizzazione complete quando necessarie per i motivi elencati nella sezione riportata di seguito. È consigliabile eseguire le ricerche per indicizzazione complete con minore frequenza rispetto a quelle incrementali.
Pianificare di eseguire le modifiche amministrative che richiedono una ricerca per indicizzazione completa poco prima della pianificazione definita per le ricerche per indicizzazione complete. È ad esempio consigliabile tentare di pianificare la creazione della regola di ricerca per indicizzazione prima della successiva ricerca per indicizzazione completa, affinché non sia necessaria una ricerca per indicizzazione completa aggiuntiva.
Basare le ricerche per indicizzazioni simultanee sulla capacità del server di indicizzazione di sottoporle a ricerca per indicizzazione. È in genere consigliabile scaglionare le pianificazioni di ricerca per indicizzazione in modo che il server di indicizzazione non esegua la ricerca per indicizzazione utilizzando più origini di contenuto contemporaneamente. Per ottenere prestazioni ottimali, è consigliabile scaglionare le pianificazioni di ricerca per indicizzazione di origini di contenuto. Le prestazioni del server di indicizzazione e dei server che ospitano il contenuto determinano il livello di sovrapposizione delle ricerche per indicizzazione. Una strategia di pianificazione della ricerca per indicizzazione può essere sviluppata nel tempo a mano a mano che si acquisisce familiarità con le durate di ricerca per indicizzazione tipiche per ogni origine di contenuto.
Motivi per eseguire una ricerca per indicizzazione completa
I motivi per cui un amministratore dei servizi di ricerca deve eseguire una ricerca per indicizzazione completa includono:
Uno o più aggiornamenti rapidi o service pack sono stati installati nei server della farm. Per ulteriori informazioni, vedere le istruzioni per l'aggiornamento rapido o il service pack.
Un amministratore del provider di servizi condivisi ha aggiunto una nuova proprietà gestita.
Per reindicizzare pagine ASPX in siti di Microsoft Windows SharePoint Services 3.0 o Microsoft Office SharePoint Server 2007.
Nota
Il crawler non è in grado di individuare modifiche alle pagine ASPX in siti di Microsoft Windows SharePoint Services 3.0 o Microsoft Office SharePoint Server 2007. Per questo motivo, le ricerche per indicizzazione incrementali non determinano la reindicizzazione di viste o home page quando vengono eliminati singoli elementi di elenco. È consigliabile eseguire periodicamente ricerche per indicizzazione complete dei siti che contengono pagine ASPX per garantire che queste pagine vengano reindicizzate.
Per risolvere errori consecutivi nelle ricerche per indicizzazione incrementali. Nei rari casi in cui in una ricerca per indicizzazione incrementale si verifica un errore per cento volte consecutive a qualsiasi livello di un archivio, il server indice rimuove il contenuto interessato dall'indice.
Sono state aggiunte, eliminate o modificate regole di ricerca per indicizzazione.
Per ripristinare un indice danneggiato.
L'amministratore dei servizi di ricerca ha creato uno o più mapping di nomi server.
È stato modificato l'account assegnato all'account predefinito di accesso al contenuto o la regola di ricerca per indicizzazione.
Il sistema esegue una ricerca per indicizzazione completa anche quando è richiesta una ricerca per indicizzazione incrementale nelle circostanze seguenti:
Un amministratore del provider di servizi condivisi ha interrotto la ricerca per indicizzazione precedente.
Un database del contenuto è stato ripristinato dal backup.
Nota
Se si sta eseguendo Aggiornamento dell'infrastruttura per Microsoft Office Servers, sarà possibile utilizzare l'operazione di ripristino dello strumento da riga di comando Stsadm per decidere se il ripristino di un database del contenuto determini o meno una ricerca per indicizzazione completa.
Un amministratore della farm ha scollegato e ricollegato un database del contenuto.
Non è mai stata eseguita una ricerca per indicizzazione completa del sito.
Il registro delle modifiche non contiene voci per gli indirizzi sottoposti a ricerca per indicizzazione. Senza tali voci non è possibile eseguire ricerche per indicizzazione incrementali.
È stato modificato l'account assegnato all'account predefinito di accesso al contenuto o la regola di ricerca per indicizzazione.
Per ripristinare un indice danneggiato.
A seconda del livello di gravità del danneggiamento, il sistema potrebbe tentare di eseguire una ricerca per indicizzazione completa se viene rilevato un danneggiamento nell'indice.
È possibile modificare le pianificazioni dopo la distribuzione iniziale in base alle prestazioni e alla capacità dei server della farm e dei server che ospitano il contenuto.
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente alle origini di contenuto per la distribuzione iniziale nelle tabelle della sezione Content sources del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Limitare o aumentare la quantità di contenuto sottoposto a ricerca per indicizzazione
Per ogni origine di contenuto, è possibile scegliere l'estensione della ricerca per indicizzazione degli indirizzi iniziali in tale origine di contenuto. È inoltre possibile specificare il comportamento o le impostazioni di ricerca per indicizzazione. Le opzioni che è possibile scegliere per una determinata origine di contenuto variano in base al tipo di origine di contenuto selezionato. La maggior parte delle opzioni consente tuttavia di determinare il numero di livelli della gerarchia a partire da ogni indirizzo iniziale elencato nell'origine di contenuto da sottoporre a ricerca per indicizzazione. Si noti che questo comportamento viene applicato a tutti gli indirizzi iniziali in una determinata origine di contenuto. Se è necessario eseguire la ricerca per indicizzazione di alcuni siti con un maggior numero di livelli, sarà possibile creare origini di contenuto aggiuntive che comprendano tali siti.
Le opzioni disponibili nelle proprietà di ogni origine di contenuto variano in base al tipo di origine di contenuto selezionato. Nella tabella seguente sono descritte le impostazioni della ricerca per indicizzazione per ogni tipo di origine di contenuto.
Tipo di origine di contenuto | Impostazioni della ricerca per indicizzazione |
---|---|
Siti di SharePoint |
Tutto il contenuto nel nome host per ogni indirizzo iniziale Solo il sito di SharePoint di ogni indirizzo iniziale |
Siti Web |
Solo nel server di ogni indirizzo iniziale Solo la prima pagina di ogni indirizzo iniziale Personalizzata - specificare il livello di pagine e i passaggi tra server Nota L'impostazione predefinita di questa opzione prevede livelli di pagine e passaggi tra server illimitati. |
Condivisioni di file |
La cartella e tutte le sottocartelle di ogni indirizzo iniziale Solo la cartella di ogni indirizzo iniziale |
Cartelle pubbliche di Exchange |
La cartella e tutte le sottocartelle di ogni indirizzo iniziale Solo la cartella di ogni indirizzo iniziale |
Dati business |
Intero Catalogo dati business Applicazioni selezionate |
Come illustrato nella tabella precedente, gli amministratori dei servizi condivisi possono utilizzare le impostazioni della ricerca per indicizzazione per limitare o aumentare la quantità di contenuto sottoposto alla ricerca per indicizzazione.
Nella tabella seguente sono descritte le procedure consigliate durante la configurazione delle impostazioni della ricerca per indicizzazione.
Tipo di origine di contenuto | Obiettivo | Impostazione della ricerca per indicizzazione da utilizzare |
---|---|---|
Siti di SharePoint |
Si desidera includere il contenuto del sito stesso. -oppure- Non si desidera includere il contenuto disponibile nei siti secondari oppure si desidera sottoporli a ricerca per indicizzazione con una pianificazione diversa. |
Solo il sito di SharePoint di ogni indirizzo iniziale |
Siti di SharePoint |
Si desidera includere il contenuto del sito stesso. -oppure- Si desidera eseguire la ricerca per indicizzazione di tutto il contenuto nell'indirizzo iniziale con la stessa pianificazione. |
Tutto il contenuto nel nome host per ogni indirizzo iniziale |
Siti Web |
Il contenuto del sito è pertinente. -oppure- Il contenuto disponibile nei siti collegati probabilmente non è pertinente. |
Solo nel server di ogni indirizzo iniziale |
Siti Web |
Il contenuto pertinente si trova solo nella prima pagina. |
Solo la prima pagina di ogni indirizzo iniziale |
Siti Web |
Si desidera limitare l'estensione della ricerca per indicizzazione dei collegamenti negli indirizzi iniziali. |
Personalizzata - specificare il livello di pagine e i passaggi tra server Nota È consigliabile iniziare con un numero ridotto in un sito molto ben connesso. Specificare più di tre livelli di pagine o più di tre passaggi tra server significherebbe eseguire una ricerca per indicizzazione in tutta Internet. |
Condivisioni di file Cartelle pubbliche di Exchange |
Il contenuto disponibile nelle sottocartelle non è probabilmente pertinente. |
Solo la cartella di ogni indirizzo iniziale |
Condivisioni di file Cartelle pubbliche di Exchange |
Il contenuto nelle sottocartelle è probabilmente pertinente. |
La cartella e tutte le sottocartelle di ogni indirizzo iniziale |
Dati business |
Tutte le applicazioni registrate nel Catalogo dati business contengono contenuto pertinente. |
Intero Catalogo dati business |
Dati business |
Non tutte le applicazioni registrate nel Catalogo dati business contengono contenuto pertinente. -oppure- Si desidera eseguire la ricerca per indicizzazione di alcune applicazioni in base a una pianificazione diversa. |
Applicazioni selezionate |
Pianificare le inclusioni di tipi di file e filtri IFilter
Il contenuto viene sottoposto a ricerca per indicizzazione solo se l'estensione di nome di file pertinente è inclusa nell'elenco di inclusioni di tipi di file e se un filtro IFilter che supporta tali tipi di file è installato nel server di indicizzazione. Durante l'installazione iniziale vengono inclusi automaticamente diversi tipi di file. Durante la pianificazione delle origini di contenuto nella distribuzione iniziale, determinare se il contenuto che si desidera sottoporre a ricerca per indicizzazione utilizza tipi di file non inclusi. Se i tipi di file non sono inclusi, sarà necessario aggiungere tali tipi di file nella pagina Gestisci tipi di file durante la distribuzione e verificare che un filtro IFilter sia installato e registrato per supportare tale tipo di file.
In Microsoft Office SharePoint Server 2007 sono inclusi diversi filtri IFilter e altri ancora sono disponibili presso Microsoft e fornitori di terze parti. Per informazioni su come installare e registrare filtri IFilter aggiuntivi disponibili presso Microsoft, vedere Come registrare Microsoft Filter Pack in SharePoint Server 2007 e in Search Server 2008 (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x410). Se necessario, inoltre, gli sviluppatori di software possono creare IFilter per nuovi tipi di file.
Se invece si desidera escludere determinati tipi di file dalla ricerca per indicizzazione, è possibile eliminare l'estensione del tipo di file dall'elenco delle inclusioni dei tipi di file. In questo modo, i nomi file con tale estensione verranno esclusi dalla ricerca per indicizzazione.
Nella tabella seguente vengono elencati i tipi di file supportati dai filtri IFilter installati per impostazione predefinita e vengono indicati i file attivati per impostazione predefinita nella pagina Gestisci tipi di file.
Estensione del nome di file | Supporto IFilter predefiniti | Inclusioni di tipi di file predefinite |
---|---|---|
ascx |
Sì |
Sì |
asm |
Sì |
No |
asp |
Sì |
Sì |
aspx |
Sì |
Sì |
bat |
Sì |
No |
c |
Sì |
No |
cmd |
Sì |
No |
cpp |
Sì |
No |
css |
Sì |
No |
cxx |
Sì |
No |
def |
Sì |
No |
dic |
Sì |
No |
doc |
Sì |
Sì |
docm |
Sì |
Sì |
docx |
Sì |
Sì |
dot |
Sì |
Sì |
eml |
Sì |
Sì |
exch |
No |
Sì |
h |
Sì |
No |
hhc |
Sì |
No |
hht |
Sì |
No |
hpp |
Sì |
No |
hta |
Sì |
No |
htm |
Sì |
Sì |
html |
Sì |
Sì |
htw |
Sì |
No |
htx |
Sì |
No |
jhtml |
No |
Sì |
jsp |
No |
Sì |
lnk |
Sì |
No |
mht |
Sì |
Sì |
mhtml |
Sì |
Sì |
mpx |
Sì |
No |
msg |
Sì |
Sì |
mspx |
No |
Sì |
nsf |
No |
Sì |
odc |
Sì |
Sì |
one |
No |
No |
php |
No |
Sì |
pot |
Sì |
No |
pps |
Sì |
No |
ppt |
Sì |
Sì |
pptm |
Sì |
Sì |
pptx |
Sì |
Sì |
pub |
Sì |
Sì |
stm |
Sì |
No |
tif |
Sì |
Sì |
tiff |
No |
Sì |
trf |
Sì |
No |
txt |
Sì |
Sì |
url |
No |
Sì |
vdx |
No |
Sì |
vsd |
No |
Sì |
vss |
No |
Sì |
vst |
No |
Sì |
vsx |
No |
Sì |
vtx |
No |
Sì |
xlb |
Sì |
No |
xlc |
Sì |
No |
xls |
Sì |
Sì |
xlsm |
Sì |
Sì |
xlsx |
Sì |
Sì |
xlt |
Sì |
No |
xml |
Sì |
Sì |
IFilter e Microsoft Office OneNote
Non è presente alcun filtro IFilter per l'estensione del nome di file one utilizzata da Microsoft Office OneNote. Per consentire agli utenti di eseguire ricerche sul contenuto dei file di Office OneNote, è necessario installare il filtro IFilter per OneNote. A tale scopo, è necessario eseguire una delle operazioni seguenti.
Installare l'applicazione client Microsoft Office OneNote 2007 nel server di indicizzazione.
Il filtro IFilter disponibile in Office OneNote 2007 è in grado di eseguire la ricerca per indicizzazione dei file sia di Office OneNote 2003 che di Office OneNote 2007. Il filtro IFilter installato da Office OneNote 2003 può eseguire la ricerca per indicizzazione soltanto dei file di Office OneNote 2003. Per ulteriori informazioni, vedere Installare e registrare il filtro IFilter per OneNote (Office SharePoint Server 2007).
Installare e registrare Microsoft Filter Pack.
Il filtro IFilter per OneNote incluso in questo pacchetto di filtri può essere utilizzato per sottoporre a ricerca per indicizzazione solo file di Office OneNote 2007. Per ulteriori informazioni, vedere Come registrare Microsoft Filter Pack in SharePoint Server 2007 e in Search Server 2008.
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente alle inclusioni di tipi di file e ai filtri IFilter per la distribuzione iniziale nella sezione File-type inclusions and IFilters del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Limitare o escludere contenuto utilizzando le regole della ricerca per indicizzazione
Quando si aggiunge un indirizzo iniziale a un'origine di contenuto e si accetta il comportamento predefinito, tutte le cartelle o i siti secondari in tale indirizzo iniziale vengono sottoposti a ricerca per indicizzazione, a meno che non vengano esclusi utilizzando una o più regole di ricerca per indicizzazione.
Per ulteriori informazioni sulle regole di ricerca per indicizzazione, vedere Pianificare le regole di ricerca per indicizzazione più avanti in questo articolo.
Altre considerazioni riguardanti la pianificazione di origini di contenuto
Non è possibile eseguire la ricerca per indicizzazione degli stessi indirizzi utilizzando più origini di contenuto. Ad esempio, se si utilizza una determinata origine di contenuto per eseguire la ricerca per indicizzazione di una raccolta siti e dei relativi siti secondari, non sarà possibile utilizzare un'origine dati diversa per eseguire la ricerca per indicizzazione di un sito secondario separatamente con una pianificazione diversa. Per adattarsi a questa limitazione, potrebbe essere necessario eseguire la ricerca per indicizzazione di alcuni siti separatamente. Considerare lo scenario seguente:
L'amministratore del provider di servizi condivisi di Contoso desidera eseguire la ricerca per indicizzazione di http://contoso, in cui sono inclusi i siti secondari http://contoso/sites/site1 e http://contoso/sites/site2. L'amministratore desidera eseguire la ricerca per indicizzazione del sito http://contoso/sites/site2 con una pianificazione diversa rispetto agli altri siti. A tale scopo, l'amministratore aggiunge gli indirizzi http://contoso e http://contoso/sites/site1 a un'unica origine di contenuto e seleziona l'impostazione Solo il sito di SharePoint di ogni indirizzo iniziale. Aggiunge quindi http://contoso/sites/site2 a un'altra origine di contenuto e specifica una pianificazione diversa per tale origine di contenuto.
Oltre alle pianificazioni di ricerca per indicizzazione, vi sono altri fattori da considerare durante la pianificazione delle origini di contenuto. Ad esempio, la scelta di raggruppare gli indirizzi iniziali in un'unica origine di contenuto o di creare origini di contenuto aggiuntive per eseguire la ricerca per indicizzazione di tali indirizzi iniziali dipende in gran parte da considerazioni di amministrazione. Gli amministratori apportano spesso modifiche che richiedono un aggiornamento completo di una determinata origine di contenuto. La modifica di un'origine di contenuto richiede l'esecuzione di una ricerca per indicizzazione completa di tale contenuto. Per rendere più facile l'amministrazione, organizzare le origini di contenuto in modo che l'aggiornamento delle origini di contenuto, delle regole di ricerca per indicizzazione e del contenuto per la ricerca per indicizzazione risulti agevole per gli amministratori.
Riepilogo delle origini di contenuto
Durante la pianificazione delle origini di contenuto, considerare i fattori seguenti:
Una determinata origine di contenuto può essere utilizzata solo per eseguire la ricerca per indicizzazione di un solo tipo di contenuto tra i seguenti: siti di SharePoint, siti Web diversi da siti di SharePoint, condivisioni di file, cartelle pubbliche di Exchange, database di Lotus Notes e dati business.
Gli amministratori di servizi condivisi possono creare fino a 500 origini di contenuto in ogni provider di servizi condivisi e ogni origine di contenuto può contenere fino a 500 indirizzi iniziali. Per semplificare al massimo l'amministrazione, è consigliabile creare solo il numero di origini di contenuto strettamente necessario.
Ogni URL in una determinata origine di contenuto deve essere dello stesso tipo di origine di contenuto.
Per una determinata origine di contenuto, è possibile scegliere l'estensione della ricerca per indicizzazione dagli indirizzi iniziali. Queste impostazioni di configurazione si applicano a tutti gli indirizzi iniziali inclusi nell'origine di contenuto. Le scelte disponibili riguardanti l'estensione della ricerca per indicizzazione degli indirizzi iniziali variano in base al tipo di origine di contenuto selezionato.
È possibile pianificare quando eseguire una ricerca per indicizzazione completa o incrementale per l'intera origine di contenuto. Per ulteriori informazioni sulla pianificazione della ricerca per indicizzazione, vedere "Pianificazioni di ricerca per indicizzazione completa e incrementale" più avanti in questo articolo.
Gli amministratori di servizi condivisi possono modificare l'origine di contenuto predefinita, creare origini di contenuto aggiuntive per la ricerca per indicizzazione di altro contenuto oppure eseguire entrambe le operazioni. Ad esempio, possono configurare l'origine di contenuto predefinita anche per la ricerca per indicizzazione del contenuto in una server farm diversa oppure creare una nuova origine di contenuto per la ricerca per indicizzazione di altro contento.
Per eseguire in modo efficace la ricerca per indicizzazione di tutto il contenuto richiesto dall'organizzazione, utilizzare il numero di origini di contenuto appropriato per il tipo di origini che si desidera sottoporre a ricerca per indicizzazione e per la frequenza con cui si prevede di sottoporle a ricerca per indicizzazione.
Pianificare l'autenticazione
Quando il crawler accede agli indirizzi iniziali elencati nelle origini di contenuto, il crawler deve essere autenticato dai server che ospitano il contenuto, i quali concedono l'accesso al crawler. È pertanto necessario che l'account di dominio utilizzato dal crawler disponga almeno dell'autorizzazione di lettura per il contenuto.
L'account predefinito di accesso al contenuto corrisponde all'account utilizzato per impostazione predefinita durante la ricerca per indicizzazione delle origini di contenuto. Questo account viene specificato dall'amministratori di servizi condivisi. In alternativa, è possibile utilizzare le regole di ricerca per indicizzazione per specificare un account di accesso al contenuto diverso da utilizzare durante la ricerca per indicizzazione di contenuto specifico. Indipendentemente dal fatto che si utilizzi l'account predefinito di accesso al contenuto o un account di accesso al contenuto diverso, l'account di accesso al contenuto utilizzato deve disporre dell'accesso in lettura per tutto il contenuto sottoposto a ricerca per indicizzazione. In caso contrario, il contenuto non verrà sottoposto a ricerca per indicizzazione e non sarà disponibile per le query.
È consigliabile scegliere un account predefinito di accesso al contenuto che disponga dell'accesso più ampio alla maggior parte del contenuto sottoposto a ricerca per indicizzazione e utilizzare altri account di accesso al contenuto solo quando le considerazioni sulla protezione effettuate indicano la necessità di utilizzare account di accesso al contenuto distinti. Per informazioni sulla creazione di account di accesso al contenuto distinti per la ricerca per indicizzazione di contenuto che non può essere letto utilizzando l'account predefinito di accesso al contenuto, vedere Pianificare le regole di ricerca per indicizzazione più avanti in questo articolo
Per ogni origine di contenuto pianificata, identificare gli indirizzi iniziali ai quali non è possibile accedere mediante l'account predefinito di accesso al contenuto e pianificare l'aggiunta di regole di ricerca per indicizzazione per i formati di URL che comprendono tali indirizzi iniziali.
Nota
Verificare che l'account di dominio utilizzato come account predefinito di accesso al contenuto o qualsiasi altro account di accesso al contenuto non sia lo stesso account di dominio utilizzato da un pool di applicazioni associato a un'applicazione Web sottoposta a ricerca per indicizzazione. Ciò può causare l'indicizzazione e la ricerca per indicizzazione di contenuto non pubblicato dei siti di SharePoint e di versioni secondarie dei file (cronologia) nei siti di SharePoint.
Per ulteriori informazioni sulle considerazioni di pianificazione per gli account di accesso al contenuto, vedere Pianificare le regole di ricerca per indicizzazione più avanti in questo articolo.
Azione nel foglio di lavoro |
---|
Registrare l'account predefinito di accesso al contenuto che il crawler utilizzerà durante la ricerca per indicizzazione di contenuto nella sezione Default content access account del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Un'altra importante considerazione riguarda la necessità che il crawler utilizzi lo stesso metodo di autenticazione del server host. Per impostazione predefinita, il crawler tenterà di autenticarsi utilizzando l'autenticazione NTLM. Se necessario, è possibile configurare il crawler in modo che utilizzi un metodo di autenticazione diverso. Per ulteriori informazioni, vedere "Requisiti di autenticazione per la ricerca per indicizzazione di contenuto" in Pianificare i metodi di autenticazione (Office SharePoint Server).
Pianificare i gestori di protocollo
Tutto il contenuto sottoposto a ricerca per indicizzazione richiede l'utilizzo di un gestore di protocollo che consenta di accedere a tale contenuto. In Microsoft Office SharePoint Server 2007 sono disponibili gestori di protocollo per tutti i protocolli Internet più diffusi. Se si desidera eseguire la ricerca per indicizzazione di un contenuto che richiede un gestore di protocollo non installato con Microsoft Office SharePoint Server 2007, sarà tuttavia necessario installare il gestore di protocollo di terze parti o personalizzato appropriato.
Nella tabella seguente vengono illustrati i gestori di protocollo che vengono installati per impostazione predefinita.
Gestore di protocollo | Utilizzato per eseguire la ricerca per indicizzazione di |
---|---|
Bdc |
Catalogo dati business |
Bdc2 |
URL del Catalogo di dati business (protocollo interno) |
File |
Condivisioni di file |
http |
Siti Web |
https |
Siti Web su SSL (Secure Sockets Layer) |
Notes |
Database di Lotus Notes |
Rb |
Cartelle pubbliche di Exchange |
Rbs |
Cartelle pubbliche di Exchange su SSL |
Sps |
Profili utente da server farm di Windows SharePoint Services 2.0 |
Sps3 |
Ricerche per indicizzazione di profili utente solo di server farm di Microsoft Windows SharePoint Services 3.0 |
Sps3s |
Ricerche per indicizzazione di profili utente da server farm di Microsoft Windows SharePoint Services 3.0 solo su SSL |
Spsimport |
Importazione di profili utente |
Spss |
Importazione di profili utente da server farm di Windows SharePoint Services 2.0 su SSL |
Sts |
URL di siti principali di Microsoft Windows SharePoint Services 3.0 (protocollo interno) |
Sts2 |
Siti di Windows SharePoint Services 2.0 |
Sts2s |
Siti di Windows SharePoint Services 2.0 su SSL |
Sts3 |
Siti di Microsoft Windows SharePoint Services 3.0 |
Sts3s |
Siti di Microsoft Windows SharePoint Services 3.0 su SSL |
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente ai gestori di protocollo per la distribuzione iniziale nella sezione Protocol handlers del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Pianificare la gestione dell'impatto della ricerca per indicizzazione
La ricerca per indicizzazione di contenuto può ridurre in modo significativo le prestazioni dei server che ospitano il contenuto. L'impatto generato su un determinato server varia a seconda del carico del server host e della disponibilità di risorse sufficienti, in particolare CPU e RAM, da parte del server per l'adesione ai contratti di servizio in condizioni di utilizzo normale o di punta.
Le regole di impatto del crawler consentono agli amministratori di farm di gestire l'impatto del crawler sui server sottoposti a ricerca per indicizzazione. Per ogni regola di impatto del crawler, è possibile specificare un singolo URL oppure utilizzare caratteri jolly nel percorso URL in modo da includere un blocco di URL a cui applicare la regola. È quindi possibile specificare il numero di richieste simultanee di pagine eseguite per l'URL specificato oppure scegliere di richiedere solo un documento alla volta e attendere il numero di secondi specificato tra le richieste.
Le regole di impatto del crawler riducono o aumentano la velocità in base alla quale il crawler richiede contenuto da un determinato indirizzo iniziale o intervallo di indirizzi iniziali, detto anche nome del sito, indipendentemente dall'origine di contenuto utilizzata per eseguire la ricerca per indicizzazione di tali indirizzi. Nella tabella seguente vengono illustrati i caratteri jolly che è possibile utilizzare nel nome del sito quando si aggiunge una regola.
Carattere jolly da utilizzare | Risultato |
---|---|
* come nome del sito |
La regola viene applicata a tutti i siti. |
*.* come nome del sito |
La regola viene applicata ai siti con punti nel nome. |
*.*nome_sito*.com come nome del sito |
La regola viene applicata a tutti i siti del dominio *nome_sito*.com (ad esempio *.adventure-works.com). |
*.*nome_dominio_di_primo_livello* come nome del sito |
La regola viene applicata a tutti i siti che terminano con un nome di dominio di primo livello specifico, ad esempio *.com o *.net. |
? |
Viene sostituito un singolo carattere in una regola. Ad esempio, *.adventure-works?.com determinerà l'applicazione della regola a tutti i siti nei domini adventure-works1.com, adventure-works2.com e così via. |
È possibile creare una regola di impatto del crawler che venga applicata a tutti i siti all'interno di un dominio di primo livello specifico. Ad esempio, *.com determina l'applicazione della regola a tutti i siti Internet con indirizzi che terminano con .com. L'amministratore di un sito portale potrebbe ad esempio aggiungere un'origine di contenuto per samples.microsoft.com. La regola per *.com verrà applicata a questo sito, a meno che non venga aggiunta una regola di impatto del crawler specifica per samples.microsoft.com.
Per il contenuto all'interno dell'organizzazione sottoposto a ricerca per indicizzazione da altri amministratori, è possibile coordinarsi con tali amministratori per impostare regole di impatto del crawler basate sulle prestazioni e sulla capacità dei server. Per la maggior parte dei siti esterni, questo tipo di coordinamento non è possibile. La richiesta di una quantità di contenuto elevata nei server esterni oppure richieste troppo frequenti possono spingere gli amministratori di tali siti a limitare gli accessi futuri se le ricerche per indicizzazione utilizzano troppe risorse o un'eccessiva larghezza di banda. In base alla procedura ottimale è pertanto consigliabile eseguire ricerche per indicizzazione con una frequenza limitata. In questo modo è possibile ridurre il rischio di perdita dell'accesso per la ricerca per indicizzazione del contenuto pertinente.
Durante la distribuzione iniziale, impostare le regole di impatto del crawler in modo da ridurre al minimo l'impatto su altri server pur continuando a sottoporre a ricerca per indicizzazione una quantità di contenuto sufficiente con la frequenza appropriata per garantire un livello di aggiornamento adeguato del contenuto.
Durante la fase operativa, è possibile modificare le regole di impatto del crawler in base alle esperienze acquisite e ai dati dei registri di ricerca per indicizzazione.
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente alle regole di impatto del crawler per la distribuzione iniziale nella sezione Crawler impact rules del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Pianificare le regole di ricerca per indicizzazione
Le regole di ricerca per indicizzazione si applicano a un determinato URL o insieme di URL rappresentato da caratteri jolly, definito anche percorso influenzato dalla regola. È possibile utilizzare le regole di ricerca per indicizzazione per gli scopi seguenti:
Evitare di eseguire la ricerca per indicizzazione di contenuto non pertinente escludendo uno o più URL, in modo da ridurre l'utilizzo delle risorse del server e il traffico di rete e aumentare la pertinenza dei risultati di ricerca.
Eseguire la ricerca per indicizzazione dei collegamenti nell'URL senza eseguire la ricerca per indicizzazione dell'URL stesso. Questa possibilità è utile per i siti con collegamenti a contenuto pertinente quando la pagina che include i collegamenti non contiene informazioni pertinenti.
Consentire la ricerca per indicizzazione di URL complessi. Questa possibilità consente di eseguire la ricerca per indicizzazione di URL che contengono un parametro di query specificato con un punto interrogativo (?). A seconda del sito, questi URL potrebbero includere o non includere contenuto pertinente. Gli URL complessi reindirizzano spesso a siti non pertinenti ed è pertanto consigliabile consentire la ricerca per indicizzazione di URL complessi solo nei siti in cui il contenuto reso disponibile da URL complessi è sicuramente pertinente.
Consentire la ricerca per indicizzazione di siti di SharePoint come pagine HTTP. Questa possibilità consente al server di indicizzazione di eseguire la ricerca per indicizzazione di siti di SharePoint posti dietro un firewall o in scenari in cui il sito sottoposto a ricerca per indicizzazione limita l'accesso al servizio Web utilizzato dal crawler.
Specificare se utilizzare l'account predefinito di accesso al contenuto, un account di accesso al contenuto diverso oppure un certificato client per la ricerca per indicizzazione dell'URL specificato.
Nota
Le regole della ricerca per indicizzazione vengono applicate contemporaneamente a tutte le origini di contenuto nel provider di servizi condivisi.
La maggior parte del contenuto di un determinato indirizzo di sito è spesso pertinente, mentre non lo è il contenuto di un sito secondario o di un intervallo di siti specifico di tale indirizzo di sito. Mediante la selezione di una determinata combinazione di URL per la quale creare regole di ricerca per indicizzazione che escludano elementi non desiderati, gli amministratori di servizi condivisi possono migliorare la pertinenza del contenuto nell'indice riducendo al minimo l'impatto sulle prestazioni della ricerca per indicizzazione e le dimensioni dei database di ricerca. La creazione di regole di ricerca per indicizzazione per l'esclusione di URL è particolarmente utile in fase di pianificazione degli indirizzi iniziali per contenuto esterno, in cui l'impatto sull'utilizzo delle risorse non è sotto il controllo dell'organizzazione.
Quando si crea una regola di ricerca per indicizzazione, è possibile utilizzare caratteri jolly standard nel percorso, ad esempio:
http://server1/folder* contiene tutte le risorse Web con un URL che inizia con http://server1/folder.
*://*.txt include ogni documento con l'estensione del nome di file TXT.
Poiché la ricerca per indicizzazione del contenuto implica l'utilizzo di risorse e larghezza di banda, è consigliabile includere una quantità di contenuto limitata che sia sicuramente pertinente anziché una quantità maggiore non pertinente. Dopo la distribuzione iniziale, sarà possibile riesaminare la query e i registri della ricerca per indicizzazione, nonché modificare le origini di contenuto e le regole di ricerca per indicizzazione affinché diventino più pertinenti e includano più contenuto.
Specificare un account di accesso al contenuto diverso
Per le regole di ricerca per indicizzazione che includono contenuto, gli amministratori hanno la possibilità di modificare l'account di accesso al contenuto per la regola. Viene utilizzato l'account predefinito di accesso al contenuto a meno che in una regola non venga specificato un altro account. Il motivo principale per utilizzare un account di accesso al contenuto diverso per una regola di ricerca per indicizzazione consiste nel fatto che all'account predefinito di accesso al contenuto non è consentito l'accesso a tutti gli indirizzi iniziali. Per tali indirizzi iniziali, è possibile creare una regola di ricerca per indicizzazione e selezionare un account che disponga dell'accesso.
Nota
Verificare che l'account di dominio utilizzato come account predefinito di accesso al contenuto o qualsiasi altro account di accesso al contenuto non sia lo stesso account di dominio utilizzato da un pool di applicazioni associato a un'applicazione Web sottoposta a ricerca per indicizzazione. Ciò può causare l'indicizzazione e la ricerca per indicizzazione di contenuto non pubblicato dei siti di SharePoint e di versioni secondarie dei file (cronologia) nei siti di SharePoint.
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente alle regole di ricerca per indicizzazione per la distribuzione iniziale nella sezione Crawl rules del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Pianificare le impostazioni di ricerca gestite a livello di farm
Oltre alle impostazioni configurate a livello di provider di servizi condivisi, diverse impostazioni gestite a livello di farm hanno effetto sul modo in cui il contenuto viene sottoposto a ricerca per indicizzazione. Durante la pianificazione della ricerca per indicizzazione, considerare le impostazioni di ricerca a livello di farm seguenti:
Indirizzo di posta elettronica contatto: la ricerca per indicizzazione di contenuto ha effetto sulle risorse dei server sottoposti a ricerca per indicizzazione. Prima di sottoporre il contenuto a ricerca per indicizzazione, nelle impostazioni di configurazione è necessario specificare l'indirizzo di posta elettronica della persona dell'organizzazione che gli amministratori possono contattare nel caso in cui la ricerca per indicizzazione abbia un impatto negativo sui server. Questo indirizzo di posta elettronica viene visualizzato nei registri degli amministratori dei server sottoposti a ricerca per indicizzazione, in modo che tali amministratori possano contattare una persona se l'impatto della ricerca per indicizzazione sulle prestazioni e sulla larghezza di banda risulta troppo elevato oppure si verificano altri problemi.
È consigliabile che l'indirizzo di posta elettronica del contatto appartenga a una persona con l'esperienza e la disponibilità necessarie per rispondere alle richieste in modo tempestivo. In alternativa, come indirizzo di posta elettronica del contatto è possibile utilizzare l'alias di una lista di distribuzione strettamente monitorata. Indipendentemente dal fatto che il contenuto sottoposto a ricerca per indicizzazione venga o meno archiviato all'interno dell'organizzazione, la rapidità dei tempi di risposta è un fattore essenziale.
Impostazioni server proxy: è possibile scegliere di utilizzare un server proxy durante la ricerca per indicizzazione di contenuto. Il server proxy da utilizzare dipende dalla topologia della distribuzione di Microsoft Office SharePoint Server 2007 e dall'architettura degli altri server dell'organizzazione.
Impostazioni di timeout: le impostazioni di timeout vengono utilizzate per limitare il tempo di attesa del server di ricerca durante la connessione ad altri servizi.
Impostazione SSL: l'impostazione SSL (Secure Sockets Layer) consente di stabilire se è necessario che il certificato SSL corrisponda esattamente affinché venga eseguita la ricerca per indicizzazione del contenuto.
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente alle impostazioni di ricerca a livello di farm per la distribuzione iniziale nella sezione Farm-level search settings del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Indicizzazione di contenuto in lingue diverse
Durante la ricerca per indicizzazione del contenuto, il crawler determina ogni singola parola nel contenuto in cui la trova. Nelle lingue in cui le parole sono separate da spazi è relativamente semplice per il crawler distinguere ogni parola. Nelle altre lingue, individuare la separazione tra le parole può risultare più complesso.
In Microsoft Office SharePoint Server 2007 sono disponibili word breaker e stemmer che semplificano la ricerca per indicizzazione e l'indicizzazione in molte lingue. I word breaker individuano i confini delle parole nei dati indicizzati full-text, gli stemmer invece coniugano i verbi.
Se si esegue la ricerca per indicizzazione nelle lingue elencate nella tabella seguente, Microsoft Office SharePoint Server 2007 utilizza automaticamente il word breaker e lo stemmer appropriati per tale lingua. Un asterisco (*) indica che la funzionalità di stemming è attiva per impostazione predefinita.
Lingua supportata per impostazione predefinita | Lingua supportata per impostazione predefinita |
---|---|
Arabo |
Lituano* |
Bengali |
Malese |
Bulgaro* |
Malayalam* |
Catalano |
Marathi |
Croato |
Norvegese (Bokmaal) |
Ceco* |
Polacco* |
Danese |
Portoghese |
Olandese |
Portoghese (Brasile) |
Inglese |
Punjabi |
Finlandese* |
Romeno* |
Francese* |
Russo* |
Tedesco* |
Serbo (alfabeto cirillico)* |
Greco* |
Serbo (alfabeto latino)* |
Gujarati |
Slovacco* |
Ebraico |
Sloveno* |
Hindi |
Spagnolo* |
Ungherese* |
Svedese |
Islandese* |
Tamil* |
Indonesiano |
Telugu* |
Italiano |
Thai |
Giapponese |
Turco* |
Kannada* |
Ucraino* |
Coreano |
Urdu* |
Lettone* |
Vietnamita |
Quando il crawler indicizza il contenuto per una lingua non supportata, viene utilizzata l'interruzione neutra. Se l'interruzione neutra non restituisce i risultati previsti, è possibile provare soluzioni di terze parti compatibili con Microsoft Office SharePoint Server 2007.
È consigliabile verificare di avere installato il word breaker e lo stemmer appropriati per le lingue di cui è richiesto il supporto. I word breaker e gli stemmer devono essere installati in tutti i server che eseguono il servizio di ricerca di Office SharePoint Server.
Per ulteriori informazioni su word breaker e stemmer, vedere Pianificare i siti multilingue.
Azione nel foglio di lavoro |
---|
Registrare le decisioni prese relativamente ai word breaker e agli stemmer per la distribuzione iniziale nella sezione Word breakers and stemmers del foglio di lavoro Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese) . |
Foglio di lavoro
Nel caso non sia già stato fatto, registrare le decisioni di pianificazione relativamente alle origini di contenuto e le altre decisioni riguardanti la ricerca per indicizzazione di contenuto nel foglio di lavoro seguente:
- Plan to crawl content worksheet (informazioni in lingua inglese) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x410) (informazioni in lingua inglese)
Se si decide di creare solo alcune delle origini di contenuto e delle regole di ricerca per indicizzazione pianificate durante la distribuzione e la configurazione iniziali, sarà possibile utilizzare questo foglio di lavoro durante l'operatività continuativa.
Scaricare il manuale
Questo argomento è incluso nel manuale seguente, che può essere scaricato per una lettura e una stampa più agevoli:
Per un elenco completo dei manuali disponibili che è possibile scaricare per Office SharePoint Server 2007, vedere Downloadable content for Office SharePoint Server 2007 (informazioni in lingua inglese).