Surface 窗体规范化
尽管单词和语言规则差异很大,但存在一些注意事项,例如数字、日期和时间,在所有断字符中一致地处理。 本主题介绍可能影响断字符实现的规范化注意事项。
本主题的组织方式如下:
断字
连字符 () 在复合词或名称的各个部分之间使用。 当单词在文本行的末尾被分隔时,它们也用于单词的音节之间。 在英语中,单词与连字符联接以指示上下文中的特殊关系,但这些单词通常不能在其他上下文中连字符:例如,“step-by-step”。在创建索引期间,断字符应将连字符视为单词分隔符。 例如,“data-base”将存储为“data”加上“base”。在查询时,应将连字符短语替换为两个替代项:双字变体和 true 复合。 例如,“data-base”将替换为“data”加上“base”和“database”。索引和查询时间之间的这种差异增加了连字符单词的表示形式组合,并使单词在查询中更易于匹配。
下表显示了在英语中将连字符视为单词分隔符如何增加索引中包含的每个字词的匹配查询词数。
索引中包含的术语 | 查询时间匹配 |
---|---|
数据库 | data base, data-base |
数据库 | data base, data-base |
数据库 | data-base、 database |
所有物
占有性是表示占有的名词中的变体。 英语的占有欲是通过将撇号 () 或撇号和 () 附加到单词来表示的。 例如,为了表示拥有,“Mary”一词表示为“Mary's”。断字符在查询时生成撇号和撇号窗体。 对“Mary”的查询应同时匹配“Mary”和“Mary's”。
音调符号
音调符号是添加到字母或音素中的标记,用于指示用于发音的特殊拼音值。 音调符号可以区分在图形上相同的单词;例如,英语中的“resume”和“resumé”。 但是,将音调符号保存到索引会增加索引中唯一单词键的数量,从而降低查询性能。 如果音调符号仅在一种语言中很少使用,则该语言的断字符应在创建索引和查询期间删除它们。 例如,英语断字符在处理“简历”时生成“resume”,仅对查询结果的相关性影响最小。
Clitics
clitic 是一个不受压力的单词,它不能独立站立,并附加到一个有压力的单词,以形成一个单位。 气候不能轻易分类为语音、语法或形态学。 气候有两种类型: proclitics 和 enclitics。 Proclitics 将自身附加到单词的开头。 Enclitic 将自身附加到单词的末尾。
用西班牙语等语言分析 Clitic 更难。 西班牙语动词可能会生成许多表面形式,具体取决于时态。 在创建索引期间删除 cli 和在查询时通过词干分解生成图面表单之间,必须考虑到这一点。 在气候构成的形态不明确的情况下,删除 clitic 可能会导致不可预知的结果。 为单词生成大量图面窗体会增加全文索引的大小,并可能降低查询性能。 建议词干分析器仅生成少量表面形式。