次の方法で共有


サーフェス フォームの正規化

単語と言語ルールは大きく異なりますが、数値、日付、時刻など、すべてのワード ブレーカーで一貫して処理されるいくつかの考慮事項があります。 このトピックでは、ワード ブレーカーの実装に影響する可能性がある正規化に関する考慮事項について説明します。

このトピックは次のように整理されています。

ハイフネーション

ハイフン (-) は、複合語または名前の部分の間で使用されます。 また、単語がテキスト行の末尾で分割されるときに、単語の音節の間でも使用されます。 英語では、単語はコンテキスト内の特別な関係を示すためにハイフンで結合されますが、これらの単語は通常、他のコンテキストではハイフン化されない場合があります。たとえば、"ステップ バイ ステップ" です。インデックスの作成時に、ワード ブレーカーはハイフンを単語区切り記号として扱う必要があります。 たとえば、"data-base" は "data" と "base" として格納されます。クエリ時に、ハイフンで区切った語句は、2 単語のバリアントと真の複合という 2 つの代替語句に置き換える必要があります。 たとえば、"data-base" は "data" と "base" と "database" に置き換えられます。インデックスとクエリ時間の違いにより、ハイフンで区切った単語の表現の組み合わせが増え、クエリでの単語の照合が容易になります。

次の表は、英語でハイフンを単語区切り文字として扱うと、インデックスに含まれる用語ごとに一致するクエリ用語の数が増加する方法を示しています。

インデックスに含まれる用語 クエリ時の一致
データ ベース データ ベース、データ ベース
データ ベース データ ベース、データ ベース
データベース data-base, database

 

所有物

所有物とは、所有を示す名詞のバリエーションです。 英語の所有物は、アポストロフィ (') またはアポストロフィと s (') を単語に追加することによって表されます。 たとえば、所有を示すために、"Mary" という単語は "Mary's" として表されます。ワード ブレーカーは、クエリ時にアポストロフィとアポストロフィの両方の形式を生成します。 "Mary" のクエリは、"Mary" と "Mary' の両方に一致する必要があります。

分音記号

発音記号は、発音の特別なふりがなを示すために、文字または音素に追加される記号です。 分音記号は、それ以外の場合はグラフィカルに同一の単語を区別できます。たとえば、英語の "resume" や "resumé" などです。 ただし、分音記号をインデックスに保存すると、インデックス内の一意の単語キーの数が増え、クエリのパフォーマンスが低下します。 分音記号が 1 つの言語で最小限しか使用されていない場合、その言語のワード ブレーカーは、インデックスの作成とクエリの両方で削除する必要があります。 たとえば、"再開" を処理すると、英語のワード ブレーカーによって "resume" が生成され、クエリ結果の関連性への影響は最小限に抑えられます。

Clitics

clitic は、単独で立つことのできない、ストレスの多い単語にアタッチして 1 つの単位を形成する、未設定の単語です。 Clitics は、音韻、構文、形態学として簡単に分類できません。 Clitics には、 プロクリティクスエンクリティクスの 2 種類があります。 プロクリティクスは、単語の先頭に自分自身を添付します。 エンクリティクスは単語の末尾に自分自身を添付します。

Clitics は、スペイン語などの言語で解析するのがより困難です。 スペイン語動詞は、時制に応じて多くの表面形を生成する場合があります。 インデックスの作成時に clitic を削除してから、クエリ時にステミングを使用してサーフェス フォームを生成する場合は、考慮する必要があります。 気候組成の形態があいまいな場合に clitics を削除すると、予測できない結果につながる可能性があります。 1 つの単語に対して多数のサーフェス フォームを生成すると、フルテキスト インデックスのサイズが大きくなり、クエリのパフォーマンスが低下する可能性があります。 ステミング機能は、少数のサーフェス フォームのみを生成することをお勧めします。