次の方法で共有


類義語辞典ファイルの構成

更新 : 2006 年 12 月 12 日

Microsoft SQL Server 2005 に含まれているすべての類義語辞典ファイルの形式は次のとおりです。

<XML ID="Microsoft Search Thesaurus">

<!--  Commented out
    <thesaurus xmlns="x-schema:tsSchema.xml">
      <diacritics = false/>
        <expansion>
            <sub>Internet Explorer</sub>
            <sub>IE</sub>
            <sub>IE5</sub>
        </expansion>
        <replacement>
            <pat>NT5</pat>
            <pat>W2K</pat>
            <sub>Windows 2000</sub>
        </replacement>
        <expansion>
            <sub>run</sub>
            <sub>jog</sub>
        </expansion>
    </thesaurus>
-->
</XML>

各類義語辞典ファイルには、次のセクションのうち 1 つ以上が含まれています。

  • 拡張セット
    拡張セットには、シノニムのグループが格納されます。コード内ではこれらのシノニムに "substitution" タグ (<sub> と </sub>) が付いています。1 つの代替文字列と一致するクエリは、拡張セット内の他の代替文字列もすべて含むように拡張されます。
  • 置換セット
    置換セットには、代替セットによって置き換えられるテキストのパターンが格納されます。このトピックの後半で説明する「置換セット」の例を参照してください。

また、類義語辞典ファイルには <diacritics = false/> タグが含まれます。false は、拡張セットおよび置換セットで指定された用語でアクセントが区別されないことを示します。類義語辞典を使用した検索でアクセントが区別されるようにするには、このタグを <diacritics = true/> に変更します。たとえば、フルテキスト検索クエリで "café" というパターンが他のパターンに置き換えられるように指定するとします。類義語辞典ファイルでアクセントが区別されない場合、フルテキスト検索では、パターン "café" と "cafe" が置き換えられます。類義語辞典ファイルでアクセントが区別される場合、フルテキスト検索では "café" というパターンのみが置き換えられます。この設定はファイルで 1 回のみ適用でき、ファイル内のすべての検索パターンに適用されることに注意してください。この設定は個別のパターンには指定できません。

ms345186.note(ja-jp,SQL.90).gif重要 :
テキスト エディタ ツールを使用して類義語辞典ファイルを編集する場合、ファイルが Unicode 形式で保存され、バイト順マークが指定されている必要があります。

拡張セット

各拡張セットは <expansion> タグで囲みます。expansion タグ内に、<sub> タグで囲んだ 1 つ以上の代替文字列を指定します。拡張セットでは、互いにシノニムとなる代替文字列のグループを指定できます。

たとえば、拡張のセクションを編集して、代替文字列 "writer"、"author"、および "journalist" をシノニムとして扱うことができます。1 つの代替文字列と一致するフルテキスト検索クエリは、拡張セット内の他の代替文字列もすべて含むように拡張されます。したがって、上記の例では、"author" という語に対して FORMS OF THESAURUS クエリまたは FREETEXT クエリを実行すると、フルテキスト検索では "writer" と "journalist" という語も含む検索結果が返されます。

上記の例の拡張セットのセクションを次に示します。

 <expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
 </expansion>

置換セット

各置換セットは <replacement> タグで囲みます。各 replacement タグ内に、<pat> タグで囲んだ 1 つ以上のパターンを指定できます。また、<sub> タグで囲んだ 1 つ以上の代替文字列を指定できます。ここで指定するパターンが代替セットで置き換えられます。パターンと代替文字列には、語または語の並びを含めることができます。

たとえば、"W2K" というパターンを検索するクエリを、"Windows 2000" または "XP" という代替文字列に置き換えるとします。この場合、"W2K" に対してフルテキスト クエリを実行すると、フルテキスト検索からは "Windows 2000" または "XP" だけを含む検索結果が返されます。"W2K" を含む結果は返されません。これは、"W2K" が "Windows 2000" と "XP" というパターンに "置換" されるためです。

上記の例の置換セットのセクションを次に示します。

 <replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         <sub>XP</sub>
 </replacement>

類似するパターンを含む 2 つの置換セットが一致する場合、2 つのうちで長い置換セットが優先されます。たとえば、"Internet Explorer online community" に対して FORMS OF THESAURUS クエリを実行し、次の置換セットを使用すると、"Internet Explorer" 置換セットの方が "Internet" 置換セットよりも優先されます。したがって、このクエリは "IE online community" または "IE 5 online community" として処理されます。

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

および

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

参照

概念

フルテキスト検索のアーキテクチャ
類義語辞典
フルテキスト検索

その他の技術情報

CONTAINS (Transact-SQL)
FREETEXT (Transact-SQL)
FREETEXTTABLE (Transact-SQL)

ヘルプおよび情報

SQL Server 2005 の参考資料の入手

変更履歴

リリース 履歴

2006 年 12 月 12 日

変更内容 :
  • <diacritics_sensitive> タグの構文を <diacritics = false/> に修正し、このタグの説明を更新しました。
新しい内容 :
  • 類義語辞典ファイルが Unicode 形式で保存され、バイト順マークが指定されている必要があるという、重要な注意事項を追加しました。

2006 年 7 月 17 日

新しい内容 :
  • <diacritics_sensitive> タグの意味を明確にしました。