建置和管理定型文件
自訂翻譯工具可讓您組建翻譯模型,以反射您的業務、產業和網域特定術語和樣式。 訓練和部署自訂模型很簡單,不需要任何程式設計技能。 自訂翻譯工具可讓您上傳平行檔案、翻譯記憶體檔案或 ZIP 檔案。
平行文件是配對文件,其中的一份文件 (目標) 是另一份文件 (來源) 的翻譯。 該配對中的一份文件會包含來源語言的句子,而另一份文件會包含已翻譯成目標語言的這些句子。
上傳文件之前,請先檢閱文件格式和命名慣例指導,以確保自訂翻譯工具支援您的檔案格式。
如何建立文件集合
尋找網域內品質資料的工作會根據使用者分類而有所不同,通常是一項具有挑戰性的工作。 以下是一些在評估哪些資料可以使用時,您可以先詢問自己的問題:
貴公司是否有先前的翻譯資料可供使用? 企業通常會有豐富的翻譯資料,累積了數年來使用人工翻譯的結果。
您是否有大量的單一語言資料? 單一語言資料是只有一種語言的資料。 如果是,您可以取得此資料的翻譯嗎?
您可以搜耙線上入口網站來收集來源句子和目標合成句子嗎?
每個文件型別的訓練材質
來源 | 作用 | 要遵守的規則 |
---|---|---|
雙語定型文件 | 教系統學習您的術語和文風。 | 自由一點。 任何領域內的人工翻譯都比機器翻譯還要好。 在訓練的同時新增和移除文件,並試著改善 BLEU 分數。 |
微調文件 | 訓練神經機器翻譯參數。 | 嚴格一點。 以最能代表您未來要翻譯的內容來撰寫。 |
測試文件 | 計算 BLEU 分數。 |
嚴格一點。 以最能代表您未來預計要翻譯的內容來撰寫測試文件。 |
片語字典 | 一律強制使用指定的翻譯。 | 嚴格一點。 片語字典會區分大小寫,且會以您指定的方式對任何列出的單字或片語進行翻譯。 在許多情況下,讓系統學習會比使用片語字典還要好。 |
句子字典 | 一律強制使用指定的翻譯。 | 嚴格一點。 句子字典不會區分大小寫,比較適合在網域裡的簡短句子。 假設要比對句子字典,整個提交的句子就必須符合原始字典項目。 如果只有一部分的句子符合,則不會比對項目。 |
如何上傳文件
當您建立專案時,文件型別會與選取的語言配對相關聯。
登入自訂翻譯工具入口網站。 系統會載入預設工作區,並顯示先前建立的專案清單。
選取所需的專案 [名稱]。 系統會根據預設選取管理文件 刀鋒視窗,並顯示先前上傳的文件清單。
選取 [新增文件集合],然後選擇文件型別:
- 訓練集合
- 測試集合
- 微調集合
- 字典集合:
- 片語字典
- 句子字典
選取 [下一步]。
注意
選擇 [字典集合] 會啟動 [選擇字典型別] 對話方塊。 選擇一個,然後選取 [下一步]
從選項按鈕選取您的文件格式。
- 針對 [平行文件],請填滿
Document set name
並選取 [瀏覽檔案] 以選取來源和目標文件。 - 如需 翻譯記憶體 (TM) 檔案或使用 ZIP 上傳多個集合,請選取 [瀏覽檔案] 以選取檔案
- 針對 [平行文件],請填滿
選取上傳。
此時,自訂翻譯工具正在處理您的文件,並嘗試擷取如上傳通知中所述的句子。 處理完成之後,您會看到上傳成功的通知。
檢視上傳記錄
在工作區頁面中,您可以檢視所有文件上傳的詳細記錄,例如文件類型、語言組和上傳狀態等。
自訂翻譯工具入口網站工作區頁面的 [上傳歷程記錄] 索引標籤會顯示記錄。
此頁面會顯示所有過去的上傳狀態。 以最新到最舊的順序顯示上傳項目。 每次的上傳狀態會顯示的文件名稱、上傳狀態、上傳日期、上傳的檔案數目、上傳的檔案類型和語言組。 您可以使用篩選條件,依名稱、狀態、語言和日期範圍快速尋找文件。
在上傳歷程記錄的詳細資料頁面中,顯示該上傳作業中的上傳檔案、檔案上傳狀態、檔案語言及錯誤訊息 (如果上傳中有發生錯誤的話)。
下一步
- 了解如何定型模型。
- 了解如何測試和評估模型品質。
- 了解如何發佈模型。
- 了解如何使用自訂模型進行翻譯。