Surface Form Normalization

尽管字词和语言规则存在巨大差异,但某些注意事项(如数字、日期和时间)在所有断字符中一致地处理。 本主题介绍可能影响断字符实现的规范化注意事项。

本主题按如下所示进行组织:

连字符

连字符 (-) 用于复合词或名称的各个部分。 当单词在文本行末尾被分割时,它们也会在单词的音节之间使用。 在英语中,单词与连字符联接以指示上下文中的特殊关系,但这些单词通常在其他上下文中可能不是连字符:例如,“分步执行”。在创建索引期间,断字符应将连字符视为单词分隔符。 例如,“data-base”将存储为“data”和“base”。在查询时,应将连字符短语替换为两种替代项:双字变体和真正的复合。 例如,“data-base”将替换为“data”和“base”和“database”。索引和查询时间之间的这种差异会增加连字符字词的表示形式组合,并使字词更易于在查询中匹配。

下表显示了如何将连字符视为英语单词分隔符,从而增加索引中包含的每个字词的匹配查询词数。

索引中包含的术语 查询时间匹配
数据基础 data base、data-base
Data-base data base、data-base
数据库 data-base、database

 

拥有者

拥有是表示占有的名词中的变体。 英语拥有者通过向单词追加撇号(')或撇号('s)来表示。 例如,若要表示所有权,“Mary”一词表示为“Mary's”。断字符在查询时生成撇号和撇号表单。 查询“Mary”应同时匹配“Mary”和“Mary's”。

音调符号

音调符号是添加到字母或音符中的标记,用于指示发音的特殊拼音值。 音调符号可以区分以图形方式相同的字词;例如,英语中的“resume”和“resumé”。 但是,将音调符号保存到索引会增加索引中唯一字键的数量,这会降低查询性能。 如果音调符号仅在语言中很少使用,则该语言的断字符应在索引创建和查询期间删除它们。 例如,英语断字符在处理“resumé”时生成“resume”,只对查询结果的相关性造成最小影响。

Clitics

一个气候是一个不折不动的单词,不能独自站起来,并附加到强调的单词,以形成一个单元。 气候不能轻易地归类为语音学、语法或形态学。 clitics 有两种类型:procliticsenclitics。 Proclitics 将自己附加到单词的开头。 Enclitics 将自己附加到单词的末尾。

在西班牙语等语言中,Clitics 更难分析。 西班牙语谓词可能会生成许多表面形式,具体取决于时态。 在创建索引期间删除 clitic 以及通过在查询时通过词干生成图面窗体之间,必须考虑到这一点。 在气候合成的形态不明确的情况下,删除 clitic 会导致不可预知的结果。 为单词生成大量图面窗体会增加全文索引的大小,并可能会降低查询性能。 建议词干分析器仅生成少量表面形式。