贅字
為精簡全文檢索索引,Microsoft SQL Server 具有一種機制,可捨棄無助於搜尋卻經常出現的單字。這些字稱為贅字或忽略字 (stop word)。贅字列於地區設定專屬的贅字檔案中。例如,在英文地區設定中,諸如 "a"、"and"、"is" 及 "the" 等字就列於英文贅字檔案中,且不會用於全文檢索索引,因為一般而言這些字都無助於搜尋。但是,全文檢索索引會考慮贅字的位置。例如,請參考例句,"Instructions are applicable to these Adventure Works Cycles models"。下表說明這些單字在片語中的位置:
單字或 Token | 位置 |
---|---|
Instructions |
1 |
are |
2 |
applicable |
3 |
to |
4 |
these |
5 |
Adventure |
6 |
Works |
7 |
Cycles |
8 |
models |
9 |
贅字包括 "are"、"to" 及 "these",分別為第 2、第 4 及第 5 個字,這些文字都不會包含在全文檢索索引中。但仍會保留這些文字的位置資訊,使句子中其他文字的位置不受影響。
贅字檔案位於 $SQL_Server_Install_Path\Microsoft SQL Server\MSSQL.1\MSSQL\FTDATA\ 目錄中。設定 SQL Server 時,若選擇支援「全文檢索搜尋」功能,就會建立這個目錄並安裝贅字檔案。贅字檔案可供編輯,例如,高科技公司的系統管理員可將 "computer" 這個字加入其贅字清單。
![]() |
---|
編輯贅字檔案後,您必須重新填入全文檢索目錄,所做的變更才會生效。 |
下表顯示贅字檔案及其對應語言。
贅字檔案 | 語言 |
---|---|
Noisechs |
簡體中文 |
Noisecht |
繁體中文 |
Noisedan |
丹麥文 |
Noisedeu |
德文 |
Noiseeng |
英國英文 |
Noiseenu |
美國英文 |
Noiseesn |
西班牙文 |
Noisefra |
法文 |
Noiseita |
義大利文 |
Noisejpn |
日文 |
Noisekor |
韓文 |
Noiseneu |
中性語言 |
Noisenld |
荷蘭文 |
Noiseplk |
波蘭文 |
Noiseptb |
葡萄牙文 (巴西) |
Noisepts |
葡萄牙文 (伊伯利亞) |
Noiserus |
俄文 |
Noisesve |
瑞典文 |
Noisetha |
泰文 |
Noisetrk |
土耳其文 |