コンテンツのクロールを計画する (Office SharePoint Server)
この記事の内容 :
コンテンツのクロールとインデックス作成について
クロールするコンテンツのソースを指定する
コンテンツ ソースを計画する
認証を計画する
プロトコル ハンドラーを計画する
クロールの影響の管理を計画する
クロール ルールを計画する
ファーム レベルで管理される検索設定を計画する
さまざまな言語でコンテンツのインデックスを作成する
ワークシート
この記事は、検索サービス管理者が Microsoft Office SharePoint Server 2007 におけるコンテンツのクロールとインデックス作成の方法を理解できるようにすることと、コンテンツのクロールを計画できるようにすることを目的としています。
エンド ユーザーが Office SharePoint Server 2007 のエンタープライズ検索機能を使用してコンテンツを検索できるようにするには、まずユーザーがクエリするためのコンテンツをクロールする必要があります。
この記事では、コンテンツはクロール可能な任意のアイテムであるとします。たとえば、Web ページ、Microsoft Office Word 文書、ビジネス データ、電子メールのメッセージ ファイルなどです。
コンテンツのクロールを計画する際には、次の点を考慮する必要があります。
クロールするコンテンツが物理的に存在している場所。
クロールするコンテンツの一部が種類の異なるソース (ファイル共有、SharePoint サイト、Web サイトなど) に格納されているかどうか。
特定のソースのすべてのコンテンツをクロールするか、一部のみをクロールするか。
クロールするコンテンツを構成するファイルの種類。
コンテンツをクロールする時間と頻度。
このコンテンツのセキュリティ保護の方法。
この記事は、このような点を確認するために役立つだけでなく、クロールするコンテンツとそのコンテンツをクロールする方法および時期について、計画上の必要事項を決定するためにも役立ちます。
この記事では、要所要所で記事の内容に関連するワークシートのセクションを入力するように求められます。決定事項のワークシートへの記録は、この記事の手順に従ってその都度行うこともできますが、この記事の最後にまとめて行うこともできます。どちらの場合も、完成したワークシートは、検索ソリューションを展開するときに貴重な資料となります。
注意
この記事では、コンテンツをクロールし、コンテンツに 1 つのインデックスを付けるための計画プロセスについて説明します。コンテンツのクロールを計画するときに、追加のコンテンツ インデックスを使用する必要があることが判明した場合は、各共有サービス プロバイダー (SSP) についての計画の決定事項を個別のワークシートに記録してください。
Office SharePoint Server 2007 には、Office SharePoint Server Search サービスが含まれています。このサービスを使用して、コンテンツのクロールとインデックス作成を行います。このサービスは SSP の一部であり、特定の SSP を使用してクロールされたすべてのコンテンツに同じ 1 つのインデックスが付けられます。コンテンツのインデックス作成に使用する SSP の数の選択の詳細については、「共有サービス プロバイダを計画する」を参照してください。
コンテンツのクロールとインデックス作成について
コンテンツのクロールとインデックス作成は、システムがコンテンツとそのプロパティ (メタデータとも呼ばれます) にアクセスして解析し、コンテンツ インデックスを構築するプロセスです。このインデックスは、検索クエリ サービスの実行に使用されます。
コンテンツのクロールが正常に実行されると、検索クエリに使用される独立したファイルまたはコンテンツの一部がクローラーによりアクセスされ、読み取られ、結果として得られます。このようなファイルのキーワードとメタデータが、コンテンツ インデックス (単にインデックスとも呼ばれます) に保存されます。キーワード、そのキーワードがクロールされた個々のコンテンツに関連付けられているメタデータ、コンテンツがクロールされたソースの URL の対応関係がシステムにより維持されます。
注意
クローラーによって、ホスト サーバー上のファイルが変更されることはありません。ホスト サーバー上のファイルは、アクセスされて読み取られ、インデックス付けされるインデックス サーバーにそのファイルのテキストとメタデータが送信されるのみです。ただし、クローラーによりホスト サーバー上のコンテンツが読み取られるため、ある種のコンテンツ ソースをホスティングするサーバーでは、クロールされたファイルの最終アクセス日時が更新される場合があります。
クロールするコンテンツのソースを指定する
組織のサーバー ファーム内の SharePoint サイトの全コンテンツをクロールすることのみが求められる場合がよくあります。その場合、サーバー ファーム内のコレクションはすべて既定のコンテンツ ソースを使用してクロールできるため、クロール対象のコンテンツ ソースを指定する必要がなくなります。既定のコンテンツ ソースの詳細については、この記事の「コンテンツ ソースを計画する」を参照してください。
さらに、ファイル共有、インターネット上の Web サイトなど、サーバー ファーム外のコンテンツをクロールする必要がある場合もよくあります。Office SharePoint Server 2007 では、他の Windows SharePoint Services ファームや Office SharePoint Server ファームでホスティングされているコンテンツ、Web サイト、ファイル共有、Microsoft Exchange パブリック フォルダー、IBM Lotus Notes サーバー、およびデータベースに保存されているビジネス データのクロールとインデックス作成ができます。この機能によって、検索クエリで利用できるコンテンツの量が大幅に増加します。
ただし、一部のサイト コレクションに保存されているコンテンツが検索結果に対応しないことがあるため、多くの場合、サーバー ファーム内のすべてのサイト コレクションをクロールすることは避けた方がよいでしょう。その場合、次のどちらかまたは両方の操作を行う必要があります。
クロールする必要のないサイト コレクションを書き留めておきます。既定のコンテンツ ソースを使用する場合、クロールしないサイト コレクションの開始アドレスが既定のコンテンツ ソースに含まれていないことを確認する必要があります。
クロールする必要のあるサイト コレクションの個別の開始アドレスを書き留めておきます。新しいコンテンツ ソースを作成してこのコンテンツのクロールに使用する場合、その開始アドレスを調べておく必要があります。コンテンツ ソースを使用する状況については、後の「コンテンツ ソースを計画する」を参照してください。
Microsoft Office Servers インフラストラクチャ更新プログラムがインストールされている場合は、検索クエリを処理して検索結果をユーザーに返す方法が 2 つがあります。検索サーバーのコンテンツ インデックスを照会する方法と、フェデレーション検索を使用する方法です。
ヒント
Microsoft Office Servers インフラストラクチャ更新プログラムをインストールすると、Search Server 2008 で初めて採用されたフェデレーション検索機能が Office SharePoint Server 2007 で利用できます。
どちらの方法にも利点があります。検索クエリを処理する 2 つの方法の比較については、「Federated Search Overview (英語)」(https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x411) を参照してください。フェデレーションの理解と使用方法に関する記事の一覧と簡単な説明については、「フェデレーションを操作する (Office SharePoint Server)」を参照してください。Microsoft Office Server のインフラストラクチャ更新については、「Infrastructure Update for Microsoft Office Servers をインストールする (Office SharePoint Server 2007)」を参照してください。
コンテンツ ソースを計画する
コンテンツをクロールするには、まずコンテンツが置かれている場所と、コンテンツがホスティングされているサーバーの種類を調べる必要があります。共有サービスの管理者は、この情報を収集した後で、そのコンテンツのクロールに使用するコンテンツ ソースを 1 つ以上作成できます。クロールの際、このコンテンツ ソースからクローラーに次の情報が提供されます。
クロールするコンテンツの種類。たとえば、SharePoint サイトやファイル共有。
クロールを開始する開始アドレス。
クロール時に使用される動作。たとえば、開始アドレスからクロールする深さや許可されるサーバー ホップ数。
クロールのスケジュール。
注意
特定のコンテンツ ソースを使用したコンテンツのクロールは、"コンテンツ ソースのクロール" とも呼ばれます。
このセクションでは、組織で必要なコンテンツ ソースの計画に役立つ内容を説明します。
既定のコンテンツ ソースは、ローカルの Office SharePoint Server サイトと呼ばれます。共有サービスの管理者は、このコンテンツ ソースを使用して、SSP に関連付けられているすべての Web アプリケーションのすべてのコンテンツをクロールし、インデックス作成することができます。Office SharePoint Server 2007 では既定で、同じ SSP を使用している Web アプリケーションで作成された各サイト コレクションのトップレベル サイトの開始アドレス (この場合は URL) が、既定のコンテンツ ソースに追加されます。
組織によっては、既定のコンテンツ ソースを使用してサイト コレクションの全サイトをクロールするだけで検索の要件が満たされる場合もあるでしょう。しかし、ほとんどの場合はコンテンツ ソースを追加する必要があります。
追加のコンテンツ ソースを作成する理由としては、次のようなものがあります。
異なる種類のコンテンツをクロールする必要がある。
他のコンテンツとは異なるスケジュールで一部のコンテンツをクロールする必要がある。
クロールするコンテンツの量を限定または増大する必要がある。
共有サービスの管理者は各 SSP に最大 500 個のコンテンツ ソースを作成でき、各コンテンツ ソースには最大 500 個の開始アドレスを含めることができます。管理業務をできるだけ単純化するために、必要最小限のコンテンツ ソースを作成してください。
さまざまな種類のコンテンツをクロールする
クロールできるのは、コンテンツ ソースごとに 1 種類のみです。つまり、SharePoint サイトの URL を含むコンテンツ ソースと、ファイル共有の URL を含む別のコンテンツ ソースを作成できますが、SharePoint サイトとファイル共有の両方の URL を含む単一のコンテンツ ソースを作成することはできません。次の表に、構成できるコンテンツ ソースの種類を示します。
コンテンツ ソースの種類 | 含まれるコンテンツの種類 |
---|---|
SharePoint サイト |
同じファーム、別々の Office SharePoint Server 2007 ファーム、Windows SharePoint Services 3.0 ファーム、あるいは ファームの SharePoint サイト Microsoft Office SharePoint Portal Server 2003 ファームまたは Microsoft Windows SharePoint Services 2.0 ファームの SharePoint サイト 注意 Office SharePoint Server 2007、Windows SharePoint Services 3.0、または 上の SharePoint サイトをクロールする場合と異なり、古いバージョンの SharePoint 製品やテクノロジからサイト コレクションのすべてのサブサイトを自動的にクロールすることはできません。したがって、古いバージョンから SharePoint サイトをクロールする場合、クロールする各トップレベル サイトおよび各サブサイトの URL を指定する必要があります。Microsoft Office SharePoint Portal Server 2003 ファームのサイト ディレクトリの一覧にあるサイトは、ポータル サイトがクロールされるときにクロールされます。サイト ディレクトリの詳細については、「About the Site Directory (英語)」(https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x411) を参照してください。 |
Web サイト |
SharePoint サイトにはない組織内の他の Web コンテンツ インターネット上の Web サイトのコンテンツ |
ファイル共有 |
組織内のファイル共有のコンテンツ |
Exchange パブリック フォルダー |
Microsoft Exchange Server コンテンツ |
Lotus Notes |
Lotus Notes データベースに保存されている電子メール メッセージ 注意 他の種類のコンテンツ ソースとは異なり、Lotus Notes コンテンツ ソースのオプションは、必要なソフトウェアをインストールして構成するまで、ユーザー インターフェイスに表示されません。詳細については、「Lotus Notes のクロール用に Office SharePoint Server Search を構成する (Office SharePoint Server 2007)」を参照してください。 |
ビジネス データ |
基幹業務アプリケーションに格納されたビジネス データ |
ビジネス データのコンテンツ ソースを計画する
ビジネス データのコンテンツ ソースの場合、データをホスティングするアプリケーションをビジネス データ カタログに登録しておく必要があります。ビジネス データをクロールするには、種類がビジネス データである独立したコンテンツ ソースを 1 つ以上作成する必要があります。ビジネス データ カタログに登録されているすべてのアプリケーションをクロールするためのコンテンツ ソースを 1 つ作成するか、ビジネス データ カタログに登録されている個々のアプリケーションをクロールするコンテンツ ソースを個別に作成します。
多くの場合、サイト コレクションへのビジネス データの統合を計画する担当者は、全体的なコンテンツ計画プロセスの担当者とは異なります。そのため、コンテンツ計画作成チームにビジネス アプリケーション管理者も含めることによって、ビジネス データを他のコンテンツと統合する方法や、サイト コレクションで効果的に表示する方法について、ビジネス アプリケーション管理者からアドバイスを受けることができます。
ビジネス データ検索の計画の詳細については、「ビジネス データ検索を計画する」を参照してください。
別々のスケジュールでコンテンツをクロールする
共有サービスの管理者は、多くの場合、一部のコンテンツを他のコンテンツよりも頻繁にクロールするかどうか判断する必要があります。クロールするコンテンツのボリュームが増えれば増えるほど、別々のソースからコンテンツをクロールする可能性が高まります。このようなソースは種類が異なることもあり、互いに速度が異なるサーバーでホスティングされる場合があります。
このような要因から、さまざまなコンテンツ ソースを別々にクロールするために、新たなコンテンツ ソースの必要性が高まります。
コンテンツを異なるスケジュールでクロールする主な理由には、次のようなものがあります。
ダウンタイムとピーク使用時間に対応するため。
頻繁に更新されるコンテンツをより頻繁にクロールするため。
速度の速いホスト サーバーでクロールするコンテンツとは別に、速度の遅いホスト サーバーでホスティングされているコンテンツをクロールするため。
多くの場合、Office SharePoint Server 2007 が展開され、ある程度の時間動作するまで、すべての情報を把握することはできません。このような事項の一部は、運用段階で判断します。ただし、手持ちの情報に基づいてクロール スケジュールを計画できるように、計画時にこれらの要因を検討しておくことをお勧めします。
以降の 2 つのセクションでは、異なるスケジュールでコンテンツをクロールすることについて説明します。
ダウンタイムとピーク使用時間
クロールするコンテンツをホスティングするサーバーのダウンタイムとピーク使用時間を考慮します。たとえば、サーバー ファームの外部にある多くの異なるサーバーでホスティングされているコンテンツをクロールする場合、そのようなサーバーは別々のスケジュールでバックアップされ、ピーク使用時間もそれぞれ異なる可能性が高いでしょう。一般的に、サーバー ファーム外のサーバーの管理は管轄外です。そのため、クロールするコンテンツをホスティングしているサーバーの管理者とクロールについて話し合い、ダウンタイムまたはピーク使用時にサーバー上のコンテンツをクロールしないようにする必要があります。
一般的なシナリオとして、組織の管理下にないコンテンツが、SharePoint サイト上のコンテンツに関連している場合があります。このコンテンツの開始アドレスを既存のコンテンツ ソースに追加することも、外部コンテンツ用の新しいコンテンツ ソースを作成することもできます。外部サイトの可用性には大きな差があるので、外部コンテンツごとに個別のコンテンツ ソースを追加すると便利です。このように、外部コンテンツに対応するコンテンツ ソースは、他のコンテンツ ソースと異なる時間にクロールできます。その後で、各サイトの可用性を表すクロール スケジュールで外部コンテンツを更新できます。
頻繁に更新されるコンテンツ
クロール スケジュールを計画する際には、一般的に、コンテンツの一部のソースが他よりも頻繁に更新されることを考慮します。たとえば、一部のサイト コレクションや外部ソースのコンテンツが金曜日にしか更新されないことがわかれば、週 1 回よりも頻繁にコンテンツをクロールすることはリソースの無駄遣いになります。一方、月曜日から金曜日まで継続的に更新され、土曜日と日曜日には、通常、更新されないサイト コレクションがサーバー ファームに含まれているとします。この場合、平日の各曜日は数回クロールし、週末には 1 ~ 2 回のみクロールすることが考えられます。
環境内のサイト コレクションにコンテンツが保存される方法に従って、各 Web アプリケーションの各サイト コレクションに対応する追加のコンテンツ ソースを作成できます。たとえば、サイト コレクションにアーカイブ済み情報のみが保存される場合、頻繁に更新されるコンテンツが保存されているサイト コレクションをクロールするときほど頻繁にコンテンツをクロールする必要はありません。この場合、アーカイブ サイトはもう一方のコンテンツほど頻繁にクロールする必要がないため、この 2 つのサイト コレクションを別々のスケジュールに基づいてクロールできるように、別々のコンテンツ ソースを使用してクロールする必要があります。
フル クロールと増分クロールのスケジュール
共有サービスの管理者は、各コンテンツ ソースに別々にクロール スケジュールを構成できます。コンテンツ ソースごとに、フル クロールを実行する時間と増分クロールを実行する時間を別々に指定できます。特定のコンテンツ ソースに対して増分クロールを実行するには、その前にフル クロールを実行する必要があることに注意してください。まだクロールされていないコンテンツに対して増分クロールを指定すると、フル クロールが実行されます。
注意
フル クロールでは、コンテンツが前回クロールされているかどうかに関係なく、クローラーが検出し、少なくとも読み取りアクセス権を持っているすべてのコンテンツをクロールするため、増分クロールに比べ、完了するまでに大幅に時間がかかります。
検索サービスを実行するサーバーおよびクロール対象コンテンツをホストするサーバーの可用性、パフォーマンス、および帯域幅の考慮事項に基づいて、クロール スケジュールを計画することをお勧めします。
クロール スケジュールを計画するときには、次のベスト プラクティスを考慮してください。
コンテンツをホストするサーバーの可用性の類似点および許容される全体的なリソース配分状況に基づいて、コンテンツ ソースの開始アドレスをグループ化します。
コンテンツをホストするサーバーが利用可能で、サーバーのリソースに対する需要が低い時間に、各コンテンツ ソースの増分クロールをスケジュールします。
ファーム内のサーバーの負荷が時間的に分散されるようにクロール スケジュールをずらします。
次のセクションで示す理由のため必要な場合にのみ、フル クロールをスケジュールします。フル クロールは増分クロールよりも低い頻度で実行することをお勧めします。
フル クロールが必要になる管理上の変更は、計画されているフル クロールのスケジュールの直前に行われるようにスケジュールします。たとえば、次回に予定されているフル クロールの前にクロール ルールの作成をスケジュールすることをお勧めします。それにより、新たにフル クロールを実行する必要がなくなります。
同時クロールは、クロールを実行するインデックス サーバーの容量に応じて行います。一般的に、インデックス サーバーが同時に複数のコンテンツ ソースを使用してクロールしないように、クロール スケジュールの時間をずらすことをお勧めします。最大限のパフォーマンスを得るために、コンテンツ ソースのクロール スケジュールをずらすことが推奨されます。インデックス サーバーとコンテンツをホスティングするサーバーのパフォーマンスによって、クロールを重複できる時間が決まります。クロール スケジュールの計画は、各コンテンツ ソースの通常のクロール期間を把握していく中で改良することができます。
フル クロールを実行する理由
検索サービス管理者がフル クロールを実行する理由には、次のようなものがあります。
ファーム内のサーバーに 1 つ以上の修正プログラムまたはサービス パックがインストールされた。詳細については、修正プログラムまたはサービス パックのドキュメントを参照してください。
SSP 管理者が新しい管理プロパティを追加した。
Windows SharePoint Services 3.0 サイトまたは Office SharePoint Server 2007 サイトの ASPX ページのインデックスを再作成する。
注意
Windows SharePoint Services 3.0 サイトまたは Office SharePoint Server 2007 サイトの ASPX ページが変更されると、クローラーは発見できなくなります。そのため、個別のリスト アイテムが削除されると、増分クロールではビューやホーム ページのインデックスが再作成されません。ASPX ファイルを含むサイトのフル クロールを定期的に実行することで、ページのインデックスが確実に再作成されるようにすることをお勧めします。
増分クロールの連続する障害を解決する。まれに、リポジトリ内の任意のレベルで増分クロールに 100 回連続で失敗すると、インデックス サーバーにより、影響を受けるコンテンツがインデックスから削除されます。
クロール ルールが追加、削除、または変更された。
破損したインデックスを修復する。
検索サービス管理者が 1 つ以上のサーバー名マッピングを作成した。
既定のコンテンツ アクセス アカウントにアカウントが割り当てられたか、クロール ルールが変更された。
増分クロールが要求された場合でも、次の条件下では、システムによってフル クロールが実行されます。
SSP の管理者が直前のクロールを停止した。
バックアップからコンテンツ データベースが復元された。
注意
Microsoft Office Servers インフラストラクチャ更新プログラムを実行している場合は、stsadm コマンドライン ツールの復元操作を使用して、コンテンツ データベースの復元によってフル クロールが行われるかどうかを変更できます。
ファーム管理者がコンテンツ データベースを切断し、再接続した。
サイトのフル クロールが一度も実行されたことがない。
変更ログには、クロール中のアドレスのエントリが含まれません。クロール中のアイテムの変更ログにエントリが含まれていないと、増分クロールは実行されません。
既定のコンテンツ アクセス アカウントにアカウントが割り当てられたか、クロール ルールが変更された。
破損したインデックスを修復する。
破損の重大度によっては、インデックス内で破損が検出されたときにフル クロールが試行される場合があります。
初期展開の後、ファーム内のサーバー、およびコンテンツをホスティングしているサーバーのパフォーマンスと容量に応じて、スケジュールを調整できます。
ワークシートでの作業 |
---|
初期展開のコンテンツ ソースに関する決定事項を、「Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート」(https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「コンテンツ ソース」セクションの表に記録します。 |
クロールするコンテンツの量の限定または増大
各コンテンツ ソースについて、そのコンテンツ ソース内の開始アドレスをクロールする範囲を選択できます。また、クロールの動作 (クロール設定) も指定できます。特定のコンテンツについて選択できるオプションは、選択したコンテンツの種類によって異なります。しかし、ほとんどのオプションは、コンテンツ ソースに指定されているそれぞれの開始アドレスから、どの階層レベルの深さまでクロールするかを指定するものです。この動作は、特定のコンテンツ ソース内のすべての開始アドレスに適用されることに注意してください。一部のサイトだけを深いレベルまでクロールする必要がある場合には、そのサイトを含むコンテンツ ソースを新たに作成します。
各コンテンツ ソースのプロパティで使用できるオプションは、選択したコンテンツ ソースの種類によって異なります。次の表に、各コンテンツ ソースの種類に対応するクロールの設定オプションを示します。
コンテンツ ソースの種類 | クロール設定オプション |
---|---|
SharePoint サイト |
各開始アドレスに対応するホスト名の下にあるものすべて 各開始アドレスの SharePoint サイトのみ |
Web サイト |
各開始アドレスのサーバー内のみ 各開始アドレスの先頭ページのみ カスタム - ページの深さおよびサーバー ホップ数を指定します。 注意 このオプションの既定の設定では、ページの深さおよびサーバー ホップは無制限です。 |
ファイル共有 |
各開始アドレスのフォルダーおよびすべてのサブフォルダー 各開始アドレスのフォルダーのみ |
Exchange パブリック フォルダー |
各開始アドレスのフォルダーおよびすべてのサブフォルダー 各開始アドレスのフォルダーのみ |
ビジネス データ |
ビジネス データ カタログ全体をクロールする 選択したアプリケーションをクロールする |
前出の表で示したように、共有サービスの管理者はクロール設定オプションを使用することで、クロールするコンテンツの量を制限したり、増やしたりできます。
次の表に、クロール設定オプションの設定におけるベスト プラクティスを示します。
コンテンツ ソースの種類 | 格納先 | 使用するクロール設定オプション |
---|---|---|
SharePoint サイト |
サイト自体にコンテンツを含める必要がある。 または サブサイトにコンテンツを含めない、または別のスケジュールでコンテンツをクロールする必要がある。 |
各開始アドレスから SharePoint サイトのみをクロールする |
SharePoint サイト |
サイト自体にコンテンツを含める必要がある。 または 開始アドレスの下にあるすべてのコンテンツを同じスケジュールでクロールする必要がある。 |
各開始アドレスから、ホスト名下にあるすべてをクロールする |
Web サイト |
サイト自体に含まれるコンテンツが関連している。 または リンクされているサイト上のコンテンツが関連していないように見える。 |
各開始アドレスのサーバー内のみをクロールする |
Web サイト |
関連するコンテンツが最初のページのみに存在する。 |
各開始アドレスの最初のページのみをクロールする |
Web サイト |
開始アドレスのリンクをクロールする深さを制限する必要がある。 |
カスタム - クロールするページ数の深度とサーバー ホップ数を指定する 注意 接続の多いサイトでは、4 ページ以上の深さ、または 4 以上のサーバー ホップ数を指定すると、インターネット全体をクロールすることになる場合があるため、最初は小さい値を指定することをお勧めします。 |
ファイル共有 Exchange パブリック フォルダー |
サブフォルダー内のコンテンツが関連していないように見える。 |
各開始アドレスのフォルダーのみをクロールする |
ファイル共有 Exchange パブリック フォルダー |
サブフォルダー内のコンテンツが関連しているように見える。 |
各開始アドレスのフォルダーとサブフォルダーをクロールする |
ビジネス データ |
ビジネス データ カタログに登録されているすべてのアプリケーションに関連コンテンツが含まれている。 |
ビジネス データ カタログ全体をクロールする |
ビジネス データ |
ビジネス データ カタログに登録されている一部のアプリケーションに関連コンテンツが含まれている。 または 一部のアプリケーションを別のスケジュールでクロールする必要がある。 |
選択したアプリケーションをクロールする |
ファイルタイプ追加と IFilter を計画する
コンテンツがクロールされるのは、関連するファイル名拡張子がファイルタイプ追加リストに含まれており、そのファイル タイプをサポートするインデックス サーバーに IFilter がインストールされている場合に限られます。いくつかのファイル タイプは、初期インストール時に自動的に追加されます。初期展開にコンテンツ ソースを計画するときには、クロールするコンテンツに未追加のファイルタイプが使用されているかどうか調べてください。ファイル タイプが追加されていない場合、展開時に [ファイルの種類の管理] ページでファイル タイプを追加する必要があります。また、IFilter がインストールされ、そのファイル タイプをサポートするように登録されていることを確認する必要もあります。
Office SharePoint Server 2007 には数種類の IFilter が用意されていますが、Microsoft やサード パーティ ベンダーも IFilter を提供しています。Microsoft が提供する追加の IFilters をインストールおよび登録する方法については、「パック Microsoft フィルターの SharePoint サーバー 2007 と検索サーバー 2008 で登録方法」(https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x411) を参照してください。また、ソフトウェア開発者は、必要に応じて新しいファイル タイプに対応した IFilter を作成できます。
逆に、特定のファイル タイプをクロールから除外するには、ファイル タイプ追加リストからそのファイル タイプに対応するファイル名拡張子を削除します。それにより、ファイル名にその拡張子が含まれるファイルがクロールから除外されます。
次の表に、既定でインストールされている IFilter でサポートされるファイル タイプと、既定で [ファイルの種類の管理] ページで有効になっているファイル タイプを示します。
ファイル名拡張子 | 既定の IFilter サポート | 既定のファイルタイプ追加 |
---|---|---|
ascx |
○ |
○ |
asm |
○ |
× |
asp |
○ |
○ |
aspx |
○ |
○ |
bat |
○ |
× |
c |
○ |
× |
cmd |
○ |
× |
cpp |
○ |
× |
css |
○ |
× |
cxx |
○ |
× |
def |
○ |
× |
dic |
○ |
× |
doc |
○ |
○ |
docm |
○ |
○ |
docx |
○ |
○ |
dot |
○ |
○ |
eml |
○ |
○ |
exch |
× |
○ |
h |
○ |
× |
hhc |
○ |
× |
hht |
○ |
× |
hpp |
○ |
× |
hta |
○ |
× |
htm |
○ |
○ |
html |
○ |
○ |
htw |
○ |
× |
htx |
○ |
× |
jhtml |
× |
○ |
jsp |
× |
○ |
lnk |
○ |
× |
mht |
○ |
○ |
mhtml |
○ |
○ |
mpx |
○ |
× |
msg |
○ |
○ |
mspx |
× |
○ |
nsf |
× |
○ |
odc |
○ |
○ |
one |
× |
× |
php |
× |
○ |
pot |
○ |
× |
pps |
○ |
× |
ppt |
○ |
○ |
pptm |
○ |
○ |
pptx |
○ |
○ |
pub |
○ |
○ |
stm |
○ |
× |
tif |
○ |
○ |
tiff |
× |
○ |
trf |
○ |
× |
txt |
○ |
○ |
url |
× |
○ |
vdx |
× |
○ |
vsd |
× |
○ |
vss |
× |
○ |
vst |
× |
○ |
vsx |
× |
○ |
vtx |
× |
○ |
xlb |
○ |
× |
xlc |
○ |
× |
xls |
○ |
○ |
xlsm |
○ |
○ |
xlsx |
○ |
○ |
xlt |
○ |
× |
xml |
○ |
○ |
IFilter と Microsoft Office OneNote
Microsoft Office OneNote で使用されるファイル名拡張子 .one に対応する IFilter は提供されていません。ユーザーが Office OneNote ファイルのコンテンツを検索できるようにするには、OneNote 用の IFilter をインストールする必要があります。それには、次のいずれかの操作を行う必要があります。
Microsoft Office OneNote 2007 クライアント アプリケーションをインデックス サーバーにインストールします。
Office OneNote 2007 に付属している IFilter を使用すると、Office OneNote 2003 と Office OneNote 2007 の両方のファイルをクロールできます。Office OneNote 2003 に付属している IFilter では、Office OneNote 2003 のファイルのみをクロールできます。詳細については、「OneNote IFilter をインストールおよび登録する (Office SharePoint Server 2007)」を参照してください。
Microsoft フィルター パックをインストールおよび登録します。
このフィルター パックで提供される OneNote IFilter は、Office OneNote 2007 ファイルをクロールするためだけに使用できます。詳細については、「パック Microsoft フィルターの SharePoint サーバー 2007 と検索サーバー 2008 で登録方法」を参照してください。
ワークシートでの作業 |
---|
初期展開のファイルタイプ追加および IFilter に関する決定事項を Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「ファイルタイプ追加」セクションに記録します。 |
クロール ルールを使用してコンテンツを制限または除外する
コンテンツ ソースに開始アドレスを追加し、既定の動作を指定した場合、クロール ルールを使用して除外しない限り、その開始アドレスの下にあるサブサイトまたはフォルダーがすべてクロールされます。
クロール ルールの詳細については、後の「クロール ルールを計画する」を参照してください。
コンテンツ ソースの計画におけるその他の考慮事項
複数のコンテンツ ソースを使用して、同じアドレスをクロールすることはできません。たとえば、特定のコンテンツ ソースを使用してサイト コレクションとそのサブサイトすべてをクロールする場合、別のコンテンツ ソースを使用して、1 つのサブサイトのみを別のスケジュールでクロールすることはできません。この制約に対応するには、サイトの一部を別にクロールする必要があります。次のシナリオで考えてみましょう。
Contoso 社の SSP 管理者が http://contoso をクロールするとします。このサイトにはサブサイトとして http://contoso/sites/site1 および http://contoso/sites/site2 が含まれています。http://contoso/sites/site2 は、他のサイトとは異なるスケジュールでクロールする必要があるとします。そのために、管理者は http://contoso と http://contoso/sites/site1 を 1 つのコンテンツ ソースに追加し、[各開始アドレスから SharePoint サイトのみをクロールする] 設定を選択します。次に、http://contoso/sites/site2 を別のコンテンツ ソースに追加して、そのコンテンツ ソースに別のスケジュールを指定します。
コンテンツ ソースの計画時には、クロール スケジュール以外にも検討する事項があります。たとえば、1 つのコンテンツ ソースに開始アドレスをまとめるか、それとも開始アドレスをクロールするためのコンテンツ ソースを新たに作成するかの判断は、多くの場合、管理者が下します。管理者は特定のコンテンツ ソースのフル更新が必要になるような変更を行うことがよくあります。コンテンツ ソースに変更を加えた場合、そのコンテンツ ソースをフル クロールする必要があります。管理を容易にするために、管理者がコンテンツ ソースの更新、クロール ルール、コンテンツのクロールを実行しやすくなるように、コンテンツ ソースを整理します。
コンテンツ ソースの概要
コンテンツ ソースを計画する際には、次の点を考慮します。
特定のコンテンツ ソースは、コンテンツ タイプが SharePoint サイト、SharePoint サイトではない Web サイト、ファイル共有、Exchange パブリック フォルダー、Lotus Notes データ ベース、ビジネス データであるクロールにのみ使用できます。
共有サービスの管理者は各 SSP に最大 500 個のコンテンツ ソースを作成でき、各コンテンツ ソースには最大 500 個の開始アドレスを含めることができます。管理業務をできるだけ単純化するために、必要最小限のコンテンツ ソースを作成してください。
特定のコンテンツ ソース内の各 URL が、同じコンテンツ ソース タイプであることが必要です。
特定のコンテンツ ソースについて、開始アドレスからクロールする深さを選択できます。この設定はコンテンツ ソース内のすべての開始アドレスに適用されます。開始アドレスをクロールする深さに関する選択肢は、選択したコンテンツ ソースの種類によって異なります。
コンテンツ ソース全体に対してフル クロールまたは増分クロールをいつ実行するかをスケジュールできます。クロールのスケジュールの詳細については、この記事の「フル クロールと増分クロールのスケジュール」を参照してください。
共有サービスの管理者は、既定のコンテンツ ソースの変更、他のコンテンツをクロールするための追加コンテンツ ソースの作成のどちらか、またはその両方を行うことができます。たとえば、異なるサーバー ファーム上のコンテンツもクロールするように既定のコンテンツ ソースを構成することも、新しいコンテンツ ソースを作成して他のコンテンツをクロールすることもできます。
組織で必要とされるすべてのコンテンツを効率的にクロールするには、クロールするソースの種類と、計画しているコンテンツのクロール頻度に適した数のコンテンツ ソースを使用します。
認証を計画する
コンテンツ ソースに指定されている開始アドレスにクローラーがアクセスするとき、クローラーはそのコンテンツをホスティングするサーバーの認証を受け、アクセスを許可される必要があります。つまり、クローラーで使用されるドメイン アカウントには、少なくともコンテンツに対する読み取り権限が必要になります。
既定のコンテンツ アクセス アカウントは、コンテンツ ソースをクロールするときに既定で使用されるアカウントです。このアカウントは共有サービスの管理者が指定します。または、クロール ルールを使用して、特定のコンテンツをクロールする際に使用するコンテンツ アクセス アカウントを別に指定することもできます。既定のコンテンツ アクセス アカウントを使用する場合でも、クロール ルールで指定される別のコンテンツ アクセス アカウントを使用する場合でも、使用するコンテンツ アクセス アカウントにはクロールするすべてのコンテンツに対する読み取りアクセスが必要です。読み取りアクセスがない場合、コンテンツはクロールされず、クエリに使用されません。
ほとんどのクロール対象コンテンツに最も広範にアクセスできる既定のコンテンツ アクセス アカウントを選択し、セキュリティ上の考慮から別のコンテンツ アクセス アカウントが必要な場合にのみ、それ以外のコンテンツ アクセス アカウントを使用することをお勧めします。既定のコンテンツ アクセス アカウントを使用して読み取ることができないコンテンツをクロールするために別のコンテンツ アクセス アカウントを作成する方法については、この記事の「クロール ルールを計画する」を参照してください。
計画する各コンテンツ ソースについて、既定のコンテンツ アクセス アカウントでアクセスできない開始アドレスを特定し、そのような開始アドレスを含む URL パターンに対応するクロール ルールの追加を計画します。
注意
既定のコンテンツ アクセス アカウントまたはその他のコンテンツ アクセス アカウントに使用されるドメイン アカウントが、クロール対象の Web アプリケーションに関連付けられたアプリケーション プールで使用されるドメイン アカウントと一致しないようにしてください。同じドメイン アカウントを使用した場合、SharePoint サイト内の未発行のコンテンツと SharePoint サイト内のファイルのマイナー バージョン (履歴) がクロールされ、インデックスが作成される可能性があります。
コンテンツ アクセス アカウントを計画する際の考慮事項の詳細については、この記事の「クロール ルールを計画する」を参照してください。
ワークシートでの作業 |
---|
コンテンツのクロール時にクローラーが使用する既定のコンテンツ アクセス アカウントを Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「既定のコンテンツ アクセス アカウント」セクションに記録します。 |
もう 1 つの重要な考慮事項は、クローラーがホスト サーバーと同じ認証方法を使用する必要があることです。既定では、クローラーは NTLM 認証を使用して認証を試みます。必要に応じて、別の認証方法を使用するようにクローラーを構成できます。詳細については、「認証方法を計画する (Office SharePoint Server)」の「コンテンツのクロールの認証要件」を参照してください。
プロトコル ハンドラーを計画する
クロール対象のすべてのコンテンツで、そのコンテンツにアクセスするために、プロトコル ハンドラーを使用する必要があります。Office SharePoint Server 2007 には、一般的なインターネット プロトコルに対応するプロトコル ハンドラーが用意されています。ただし、Office SharePoint Server 2007 でインストールされないプロトコル ハンドラーを必要とするコンテンツをクロールする場合、そのコンテンツをクロールする前にサードパーティまたはカスタムのプロトコル ハンドラーをインストールする必要があります。
次の表に、既定でインストールされているプロトコル ハンドラーを示します。
プロトコル ハンドラー | クロールに使用する |
---|---|
Bdc |
ビジネス データ カタログ |
Bdc2 |
ビジネス データ カタログの URL (内部プロトコル) |
File |
ファイル共有 |
http |
Web サイト |
https |
SSL (Secure Sockets Layer) 上の Web サイト |
Notes |
Lotus Notes データベース |
Rb |
Exchange パブリック フォルダー |
Rbs |
SSL 上の Exchange パブリック フォルダー |
Sps |
Windows SharePoint Services 2.0 サーバー ファームからのユーザー プロファイル |
Sps3 |
Windows SharePoint Services 3.0 サーバー ファームのみからのユーザー プロファイルのクロール |
Sps3s |
SSL 上の Windows SharePoint Services 3.0 サーバー ファームのみからのユーザー プロファイルのクロール |
Spsimport |
ユーザー プロファイルのインポート |
Spss |
SSL 上の Windows SharePoint Services 2.0 サーバー ファームからのユーザー プロファイルのインポート |
Sts |
Windows SharePoint Services 3.0 のルート URL (内部プロトコル) |
Sts2 |
Windows SharePoint Services 2.0 のサイト |
Sts2s |
SSL 上の Windows SharePoint Services 2.0 のサイト |
Sts3 |
Windows SharePoint Services 3.0 サイト |
Sts3s |
SSL 上の Windows SharePoint Services 3.0 サイト |
ワークシートでの作業 |
---|
初期展開のプロトコル ハンドラーに関する決定事項を Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「プロトコル ハンドラー」セクションに記録します。 |
クロールの影響の管理を計画する
コンテンツのクロールを実行すると、そのコンテンツをホスティングするサーバーのパフォーマンスが大幅に低下する可能性があります。この現象が特定のサーバーに及ぼす影響は、そのホスト サーバーの負荷と、通常使用時またはピーク使用時にサービス レベル契約を維持するためのリソース (特に CPU と RAM) が十分にあるかどうかによって変わります。
クローラー影響ルールによって、ファームの管理者はクロール対象サーバーに対するクローラーの影響を管理できます。各クローラー影響ルールでは、単一の URL を指定するか、URL パスにワイルドカード文字を使用して、URL のブロックにこのルールを適用することができます。次に、指定した URL に対して実行するページの同時要求の数を指定するか、一度にドキュメントを 1 つだけ要求し、次の要求まで指定した秒数だけ待機することを選択できます。
クローラー影響ルールを使用することで、アドレスのクロールに使用されるコンテンツ ソースに関係なく、特定の開始アドレスまたは開始アドレスの範囲 (サイト名とも呼ばれます) からのコンテンツをクローラーが要求する速度を小さくしたり、大きくしたりできます。以下の表に、ルールの追加時にサイト名で使用できるワイルドカード文字を示します。
使用するワイルドカード | 結果 |
---|---|
* (サイト名) |
すべてのサイトにルールを適用します。 |
*.* (サイト名) |
名前にドットを含むサイトにルールを適用します。 |
*.*site_name*.com (サイト名) |
*site_name*.com ドメイン内のすべてのサイトにルールを適用します (例 : *.adventure-works.com)。 |
*.*top-level_domain_name* (サイト名) |
サイト名の末尾が特定のトップレベル ドメイン名であるすべてのサイトにルールを適用します (例 : *.com、*.net)。 |
? |
ルール内の 1 つの文字を置き換えます。たとえば、*.adventure-works?.com は、ドメイン内の adventure-works1.com、adventure-works2.com のようなサイトのすべてに適用されます。 |
特定のトップレベル ドメイン内のすべてのサイトに適用されるクローラー影響ルールを作成できます。たとえば、*.com を指定すると、アドレスの末尾が .com であるすべてのインターネットサイトに適用されます。たとえば、ポータル サイトの管理者が samples.microsoft.com のコンテンツ ソースを追加するとします。samples.microsoft.com について個別のクローラー影響ルールを追加していない限り、*.com のルールがこのサイトに適用されます。
他の管理者がクロールしている組織内のコンテンツについては、他の管理者と調整して、サーバーのパフォーマンスと容量に基づいてクローラー影響ルールを設定できます。外部サイトについては、このような調整はほとんどの場合行えません。外部サーバー上の大量のコンテンツを要求したり、頻繁に要求を行ったりすると、クロールで使用されるリソースや帯域幅が多すぎる場合には、要求先のサイトの管理者によって以後のアクセスが制限される可能性があります。そのため、より低速でクロールすることがベスト プラクティスです。これにより、関連性のあるコンテンツをクロールするためのアクセス権を失う危険性を軽減することができます。
初期展開の際に、他のサーバーへの影響ができるだけ小さくなるようにする一方で、クロールされたコンテンツの新鮮さを保証するのに十分な頻度でクロールするようにクローラー影響ルールを設定します。
運用段階では、経験とクロール ログのデータに基づいてクローラー影響ルールを調整できます。
ワークシートでの作業 |
---|
初期展開のクローラー影響ルールに関する決定事項を Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「クローラー影響ルール」セクションに記録します。 |
クロール ルールを計画する
クロール ルールは、特定の URL またはワイルドカードで表される一連の URL (ルールの影響を受けるパスとも呼ばれる) に適用されます。クロール ルールを使用して、次の処理を実行できます。
1 つ以上の URL を除外することで、無関係なコンテンツのクロールを避ける。これによって、サーバー リソースおよびネットワーク トラフィックの使用が抑制されるとともに、検索結果の関連性が向上します。
URL 自体をクロールせずに、URL のリンクをクロールする。このオプションは、関連するコンテンツのリンクを含むサイトで、リンクを含んでいるページに、関連情報を含まないリンクが含まれている場合に便利です。
複雑な URL のクロールを可能にする。このオプションを実行すると、疑問符で指定されたクエリ パラメーターを含む URL がクロールされます。サイトによって、このような URL には関連するコンテンツが含まれている場合と含まれていない場合があります。複雑な URL は関連のないサイトにリダイレクトされることが多いため、複雑な URL から利用できるコンテンツの関連性が高いことがわかっているサイトにのみこのオプションを有効にすることをお勧めします。
SharePoint サイトのコンテンツを HTTP ページとしてクロールできるようにする。このオプションによって、インデックス サーバーはファイアウォールの背後にある SharePoint サイトや、クローラーで使用される Web サービスへのアクセスを制限しているクロール対象サイトをクロールできるようになります。
指定した URL のクロールに、既定のコンテンツ アクセス アカウント、別のコンテンツ アクセス アカウント、またはクライアント証明書を使用するかどうかを指定する。
注意
クロール ルールは、SSP 内のすべてのコンテンツ ソースに同時に適用されます。
通常、特定のサイト アドレスのほとんどのコンテンツには関連性がありますが、サイト アドレスの下位にある特定のサブサイトや一連のサイトには関連性がないコンテンツが含まれます。不要な項目を除外するクロール ルールを作成するために注目する URL の組み合わせを選択することによって、共有サービスの管理者はインデックス内のコンテンツの関連性を最大化し、クロールのパフォーマンスに対する影響や検索データベースのサイズを最小限に抑えることができます。URL を除外するクロール ルールの作成は、リソースの使用に対する影響を組織内のユーザーが管理できない外部コンテンツに対して開始アドレスを計画する場合に、特に有効です。
クロール ルールを作成するときには、パスに標準的なワイルドカード文字を使用できます。次に例を示します。
http://server1/folder* には、http://server1/folder で始まる URL のすべての Web リソースが含まれます。
*://*.txt には, .txt ファイル名拡張子を持つすべてのドキュメントが含まれます。
コンテンツのクロールではリソースと帯域幅が消費されるため、関連のない可能性があるコンテンツを大量に含めるよりも、少量でも関連することがわかっているコンテンツを含めることをお勧めします。初期展開後、クエリおよびクロールのログを検討して、より関連性が高く、より多くのコンテンツが含まれるように、コンテンツ ソースおよびクロール ルールを調整できます。
別のコンテンツ アクセス アカウントを指定する
コンテンツを含めるためのクロール ルールについては、ルールに使用するコンテンツ アクセス アカウントを変更することができます。クロール ルールで別のアカウントが指定されていない限り、既定のコンテンツ アクセス アカウントが使用されます。多くの場合、クロール ルールで別のコンテンツ アクセス アカウントを使用するのは、既定のコンテンツ アクセス アカウントでは一部の開始アドレスにアクセスできないときです。このような開始アドレスに対してクロール ルールを作成して、アクセス権のあるアカウントを指定できます。
注意
既定のコンテンツ アクセス アカウントまたはその他のコンテンツ アクセス アカウントに使用されるドメイン アカウントが、クロール対象の Web アプリケーションに関連付けられたアプリケーション プールで使用されるドメイン アカウントと一致しないようにしてください。同じドメイン アカウントを使用した場合、SharePoint サイト内の未発行のコンテンツと SharePoint サイト内のファイルのマイナー バージョン (履歴) がクロールされ、インデックスが作成される可能性があります。
ワークシートでの作業 |
---|
初期展開のクロール ルールに関する決定事項を Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「クロール ルール」セクションに記録します。 |
ファーム レベルで管理される検索設定を計画する
コンテンツのクロール方法については、SSP レベルで構成される設定に加えて、ファーム レベルで管理されるいくつかの設定が影響を与えます。クロールを計画するときには、以下のファーム レベルの検索設定も考慮してください。
連絡先の電子メール アドレス : コンテンツをクロールすると、クロール対象のサーバーのリソースに影響します。コンテンツをクロールする前に、クロールがサーバーに悪影響を及ぼした場合にサーバー管理者が連絡できる、組織内の担当者の電子メール アドレスを構成設定で指定する必要があります。この電子メール アドレスは、クロールしているサーバーの管理者のログに表示されます。サーバーのパフォーマンスや帯域幅に対するクロールの影響が大きすぎるなどの問題が発生した場合に、サーバー管理者が担当者に連絡することができます。
連絡先の電子メール アドレスは、必要な専門知識を持ち、要求に対して迅速に応答できる担当者の電子メール アドレスである必要があります。代わりに、厳密に監視される配布リストのエイリアスを連絡先の電子メール アドレスとして使用することもできます。クロールしたコンテンツが組織の内部に保存されるかどうかに関係なく、迅速に応答することが重要です。
プロキシ サーバー設定 : コンテンツをクロールするときに、プロキシ サーバーを使用するかどうかを選択できます。使用するプロキシ サーバーは、Office SharePoint Server 2007 の展開のトポロジおよび組織内の他のサーバーのアーキテクチャに応じて決定します。
タイムアウト設定 : タイムアウト設定により、他のサービスへの接続中に検索サーバーが待機する時間を制限できます。
SSL 設定 : SSL (Secure Sockets Layer) 設定により、コンテンツをクロールするために SSL 証明書が厳密に一致している必要があるかどうかを指定します。
ワークシートでの作業 |
---|
初期展開のファームレベルの検索設定に関する決定事項を Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「ファームレベルの検索設定」セクションに記録します。 |
さまざまな言語でコンテンツのインデックスを作成する
クローラーは、コンテンツのクロール時に、コンテンツを構成する個々の単語を判別します。単語がスペースで区切られる言語の場合、クローラーは比較的簡単に単語を判別できます。それ以外の言語の場合、単語の境界を判別する処理が複雑になる可能性があります。
Office SharePoint Server 2007 では、数多くの言語でコンテンツのクロールとインデックスを作成できるように、ワード ブレーカーとステマーが既定で組み込まれています。ワード ブレーカーは、インデックス付き全文データで単語の境界を見つけます。一方、ステマーは、動詞の活用形を見つけます。
次の表に示すいずれかの言語でクロールする場合、Office SharePoint Server 2007 では、その言語に対応するワード ブレーカーとステマーが自動的に使用されます。アスタリスク (*) は、ステム機能が既定で有効であることを示します。
既定でサポートされる言語 | 既定でサポートされる言語 |
---|---|
アラビア語 |
リトアニア語* |
ベンガル語 |
マレー語 |
ブルガリア語* |
マラヤーラム語* |
カタロニア語 |
マラーティー語 |
クロアチア語 |
ノルウェー語 (ボークモール) |
チェコ語* |
ポーランド語* |
デンマーク語 |
ポルトガル語 |
オランダ語 |
ポルトガル語 (ブラジル) |
英語 |
パンジャブ語 |
フィンランド語* |
ルーマニア語* |
フランス語* |
ロシア語* |
ドイツ語* |
セルビア語 (キリル)* |
ギリシャ語* |
セルビア語 (ラテン)* |
グジャラート語 |
スロバキア語* |
ヘブライ語 |
スロベニア語* |
ヒンディー語 |
スペイン語* |
ハンガリー語* |
スウェーデン語 |
アイスランド語* |
タミール語* |
インドネシア語 |
テルグ語* |
イタリア語 |
タイ語 |
日本語 |
トルコ語* |
カナラ語* |
ウクライナ語* |
韓国語 |
ウルドゥー語* |
ラトビア語* |
ベトナム語 |
サポートされていない言語でコンテンツのインデックスを作成する場合、クローラーではニュートラル ブレーカーが使用されます。ニュートラル ブレーカーで満足できる結果が得られない場合は、Office SharePoint Server 2007 に対応したサードパーティのソリューションを試してみることができます。
サポートが必要な各言語に対応するワード ブレーカーとステマーをインストールしてください。ワード ブレーカーとステマーは、Office SharePoint Server Search サービスを実行しているすべてのサーバーにインストールする必要があります。
ワード ブレーカーとステマーの詳細については、「多国語サイトを計画する」を参照してください。
ワークシートでの作業 |
---|
初期展開のワード ブレーカーとステマーに関する決定事項を Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411) の「ワード ブレーカーおよびステマー」セクションに記録します。 |
ワークシート
まだワークシートへの記録を行っていない場合は、コンテンツ ソースに関する計画の決定事項およびコンテンツのクロールに関するその他の決定事項を、次のワークシートに記録してください。
- Microsoft® Office SharePoint® Server 2007 コンテンツのクロールを計画するワークシート (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x411)
初期展開および構成で、計画されているコンテンツ ソースとクロール ルールの一部のみを作成する場合は、進行中の操作の中でこのワークシートを使用することもできます。
このブックをダウンロードする
このトピックは、簡単に読んだり印刷したりできるように、次のダウンロード可能なブックに収められています。
入手できるすべてのブックの一覧については、「Office SharePoint Server 2007 のダウンロード可能なブック」を参照してください。