建立自訂字典 (SharePoint Server 2010)
適用版本: SharePoint Server 2010
上次修改主題的時間: 2015-07-06
自訂字典是一個檔案,管理員建立該檔案以指定特定語言的斷詞工具在索引及查詢時應將其視為不可分割的 Token。自訂字典未隨附在產品中。您必須為要修改斷詞工具行為的每種語言建立單獨的自訂字典。
注意
指定語言自訂字典套用至伺服器陣列中所有的 Search Service 應用程式。
本文內容:
使用自訂字典的原因
建立自訂字典的規則
建立自訂字典
將自訂字典複製至每部應用程式伺服器
停止然後重新啟動 SharePoint Server Search 14 服務
執行完整編目
支援的語言
使用自訂字典的原因
若要確認是否必須具備自訂字典以及自訂字典應包含哪些項目,您必須了解斷詞工具的行為。索引系統在對編目內容進行索引時,會使用斷詞工具拆解 Token,此外查詢處理器亦在查詢中使用斷詞工具。在各種案例下,若使用支援斷詞工具語言與方言的自訂字典,則搜尋系統將在確定是否為單字使用斷詞工具之前,會在自訂字典中尋找單字。若單字不在自訂字典中,則斷詞工具將執行一般動作,結果可能將一個 Token 拆解為多個 Token。若該 Token 存在於自訂字典中,則斷詞工具不會對該 Token 執行任何動作。下列兩個範例說明典型的斷詞工具行為,以及自訂字典中項目可能會對該行為產生怎樣的影響。
斷詞工具可能會將 Token「IT&T」在緊挨著分號 (&) 的前後位置進行拆解,結果形成三個 Token「IT」、「&」及「T」。但是,如果 Token「IT&T」位於與所用斷詞工具相同語言的自訂字典中,則在編目或查詢時斷詞工具不會拆解該 Token。如果「IT&T」位於自訂字典中,且文件不包含「IT」或「T」但包含「IT&T」,則包含「IT」或「T」而不包含「IT&T」的查詢不會在結果集中傳回檔案。
斷詞工具可能會對諸如化學文摘服務 (CAS) 註冊編號之類的詞彙產生影響。例如,斷詞工具通常會將出現在連字號或其他特殊字元前後的數字與其他編號分開。例如,氧的 CAS 註冊編號為 7782-44-7。經過斷詞工具處理後,此 CAS 註冊編號拆解為三個區段:數字 7782、44 及 7。透過將出現在主體中的這些 CAS 註冊編號新增到自訂字典,能使搜尋系統對每個編號編製索引,而不會將其拆解為單獨的區段。
正規化與同義字檔案
通常由斷詞工具所套用的具名實體正規化 (例如日期正規化) 不會套用至自訂字典中的詞彙,而自訂字典中的所有詞彙都將被視為相符項目。若同義詞檔案中存有單字或編號,則這一點尤為重要。例如,如果 CAS 註冊編號 7782-44-7 是同義字檔案中擴充集的一部分,而且斷詞工具在連字號處將該編號拆解為三個單獨的數字,則該編號所在的擴充集可能無法按預期方式工作。在這種情況下,透過將 CAS 註冊編號 7782-44-7 新增至適當語言的自訂字典將可解決問題。如需如何使用同義字檔案的資訊,請參閱<管理同義字檔案 (SharePoint Server 2010)>。
建立自訂字典的規則
自訂字典是一個 Unicode 格式的檔案,其中的各個項目必須位於單獨的行中,由換行字元 (CR 與 LF) 分隔。新增自訂字典的項目時,請考慮下列規則,以避免產生意外結果:
項目不區分大小寫。
不能使用縱線字元 (|)。
不能使用空白字元。
不能在項目的開頭使用數字符號字元 (#),但可在項目內或項目尾端使用該字元。
除了前述的縱線字元、數字符號字元及空白字元外,任何英數字元、標點符號、符號與分隔字元均有效。
項目的長度上限為 128 個 (Unicode) 字元。
下表顯示支援與不支援項目的範例。
表 1 – 自訂字典檔案支援與不支援項目的範例
支援 | 不支援 |
---|---|
dogfood |
dog food |
3# |
#3 |
For#sale |
For|sale |
ASP.NET |
|
IT&T |
|
(2-Methoxymethylethoxy)propanol |
|
34590-97-8 |
|
C7H1603 |
自訂字典中的項目數沒有固定限制。不過,我們建議自訂字典檔案的總檔案大小不要超過 2 GB。實際上,我們建議您將項目數限制為幾千條。
建立自訂字典
使用下列程序以建立自訂字典。
建立自訂字典
確認執行此程序的使用者帳戶是本機電腦上管理員群組的成員。
登入至編目伺服器。
在文字編輯器中開啟一個新檔案。
根據上文建立自訂字典的規則中所述的規則,在自訂字典中輸入所需的單字。
在 [檔案] 功能表上,按一下 [另存新檔]。
在 [檔案類型] 清單中,選取 [所有檔案]。
在 [編碼] 清單中,選取 [Unicode]。
在 [檔案名稱] 方塊中,以下列格式輸入檔案名稱:CustomNNNN.lex,其中「Custom」是文字字串,NNNN 是為其建立自訂字典語言的四位數十六進位碼,lex 是副檔名。如需支援語言與方言的有效檔案名稱清單,請參閱下文中的<支援的語言>。
在 [儲存位置] 清單中,瀏覽至包含斷詞工具的資料夾。根據預設,此資料夾為 %ProgramFiles%\Microsoft Office Servers\14.0\Bin。
注意
僅當自訂字典文件儲存在本機文件系統上的此資料夾中時方可使用。若其僅儲存在 SharePoint 網站等其他位置,則無法使用。
按一下 [儲存]。
若伺服器陣列中沒有其他編目伺服器或查詢伺服器,請前往停止然後重新啟動 SharePoint Server Search 14 服務。否則,請跳至下一程序「將自訂字典複製至伺服器陣列中的每部應用程式伺服器」。
將自訂字典複製至每部應用程式伺服器
伺服器陣列中的每部應用程式伺服器都必須有一個自訂字典複本。
將自訂字典複製至每個應用程式
確認執行此程序的使用者帳戶是伺服器陣列中,每部應用程式伺服器 (即每部編目伺服器或查詢伺服器) 上的管理員群組成員。
在伺服器陣列中的每部應用程式伺服器上,將新自訂字典文件複製至包含斷詞工具的資料夾。根據預設,此資料夾為 %ProgramFiles%\Microsoft Office Servers\14.0\Bin。
注意
僅當自訂字典文件儲存在本機文件系統上的此資料夾中時方可使用。若其僅儲存在 SharePoint 網站等其他位置,則無法使用。
停止然後重新啟動每部應用程式伺服器上的 SharePoint Server Search 14 服務
必須重新啟動伺服器陣列中每部應用程式伺服器上的 SharePoint Server Search 14 服務。
重要
請勿使用管理中心中的 [伺服器上的服務] 頁面以停止並啟動該服務,因為這樣做會移除該服務並刪除索引及相關聯的設定。應使用下列步驟。
停止然後重新啟動每部應用程式伺服器上的 SharePoint Server Search 14 服務
確認執行此程序的使用者帳戶是本機電腦上管理員群組的成員。
在 [開始] 功能表上,依序指向 [所有程式] 與 [系統管理工具],然後按一下 [服務]。
在 [SharePoint Server Search 14] 服務上按一下滑鼠右鍵,然後按一下 [屬性]。[屬性] 對話方塊會隨即顯示。
按一下 [停止]。該服務停止後,按一下 [啟動]。
確認 [啟動類型] 未設定為 [停用]。
針對伺服器陣列中的每部應用程式伺服器 (即每部編目伺服器與每部查詢伺服器) 重複此程序。
執行完整編目
若要將自訂字典套用於內容索引,必須對包含已新增至自訂字典之 Token 的內容執行完整編目。如需執行完整編目的資訊,請參閱<管理編目 (SharePoint Server 2010)>。
支援的語言
下表顯示 SharePoint Server 2010 支援其自訂字典的語言與方言。不能為與語言相關的斷詞工具建立自訂字典。該表包含每種支援語言與方言的語言代碼識別碼 (LCID) 及語言十六進位碼。十六進位碼中的前兩位數字代表方言,後兩位數字代表語言。對於沒有為單獨的方言提供單獨斷詞工具的語言,語言十六進位碼中的前兩位數字一律為零。
表 2 - 支援的語言
語言/方言 | LCID | 語言十六進位碼 |
---|---|---|
阿拉伯文 |
1025 |
0001 |
孟加拉文 |
1093 |
0045 |
保加利亞文 |
1026 |
0002 |
卡達隆尼亞文 |
1027 |
0003 |
克羅埃西亞文 |
1050 |
001a |
丹麥文 |
1030 |
0006 |
荷蘭文 |
1043 |
0013 |
英文 |
1033 |
0009 |
法文 |
1036 |
000c |
德文 |
1031 |
0007 |
古吉拉特文 |
1095 |
0047 |
希伯來文 |
1037 |
000d |
印度文 |
1081 |
0039 |
冰島文 |
1039 |
000f |
印尼文 |
1057 |
0021 |
義大利文 |
1040 |
0010 |
日文 |
1041 |
0011 |
坎那達文 |
1099 |
004b |
拉脫維亞文 |
1062 |
0026 |
立陶宛文 |
1063 |
0027 |
馬來文 |
1086 |
003e |
馬來亞拉姆文 |
1100 |
004c |
馬拉提文 |
1102 |
004e |
挪威文 (巴克摩) |
1044 |
0414 |
葡萄牙文 |
2070 |
0816 |
葡萄牙文 (巴西) |
1046 |
0416 |
旁遮普文 |
1094 |
0046 |
羅馬尼亞文 |
1048 |
0018 |
俄文 |
1049 |
0019 |
塞爾維亞文 (斯拉夫) |
3098 |
0c1a |
塞爾維亞文 (拉丁) |
2074 |
081a |
斯洛伐克文 |
1051 |
001b |
斯洛維尼亞文 |
1060 |
0024 |
西班牙文 |
3082 |
000a |
瑞典文 |
1053 |
001d |
坦米爾文 |
1097 |
0049 |
特拉古文 |
1098 |
004a |
烏克蘭文 |
1058 |
0022 |
烏都文 |
1056 |
0020 |
越南文 |
1066 |
002a |