平行文件中的句子配對與對齊

發行項
09/03/2024

上傳文件之後，平行文件中的句子會配對或對齊。自訂翻譯工具會報告其可以在每個資料集中配對為「對齊句子」的數目。

配對和對齊程序

自訂翻譯工具會一次一個句子地學習句子翻譯。此工具會讀取來源文字中的句子，然後從目標文字讀取這個句子的翻譯。接著將這兩個句子中的字組和片語彼此對齊。此程序可讓自訂翻譯工具為一個句子中的單字和片語，以及此句子翻譯中的同等單字和片語建立對應。對齊功能會嘗試確保系統是在彼此的翻譯句子上進行訓練。

預先對齊的文件

如果您知道您有平行文件，您可能會提供預先對齊的文字檔案來覆寫句子對齊。您可以將這兩份文件中的所有句子擷取到文字檔，並組織成每一行一個句子，然後以 .align 副檔名來上傳檔案。 .align 副檔名會告知自訂翻譯工具應該略過句子對齊。

為了獲得最佳結果，請嘗試確定您的檔案內容是每行一個句子。句子中不要有換行字元，這會導致對齊不良。

建議的最小句子數目

為了成功定型，下表顯示了每個文件類型所需的最小句子數目。 這項限制是一種防護機制，可確保平行句子包含足夠的唯一字彙可成功定型翻譯模型。通用準則是，具有人工翻譯品質的領域內平行句子愈多，應該就愈能產生高品質的模型。

Document type	建議的最小句子計數	最大句子計數
訓練	10,000	沒有上限
調整	500	2,500
測試	500	2,500
Dictionary	0	250,000

注意

若未符合定型的最小句子計數 (10,000)，定型將不會啟動，且將會失敗。
微調和測試是選擇性的。若未提供，系統會從定型中移除適當的百分比，以用於驗證和測試。
您可以只使用字典資料來定型模型。請參閱什麼是字典。
如果您的字典包含超過 250,000 個句子，則文件翻譯功能將是較佳的選擇。請參閱文件翻譯。
免費 (F0) 訂用帳戶定型的字元數上限為 2,000,000。

下一步

瞭解如何使用字典