平行文件中的句子配對與對齊
上傳文件之後,平行文件中的句子會配對或對齊。 自訂翻譯工具會報告其可以在每個資料集中配對為「對齊句子」的數目。
配對和對齊程序
自訂翻譯工具會一次一個句子地學習句子翻譯。 此工具會讀取來源文字中的句子,然後從目標文字讀取這個句子的翻譯。 接著將這兩個句子中的字組和片語彼此對齊。 此程序可讓自訂翻譯工具為一個句子中的單字和片語,以及此句子翻譯中的同等單字和片語建立對應。 對齊功能會嘗試確保系統是在彼此的翻譯句子上進行訓練。
預先對齊的文件
如果您知道您有平行文件,您可能會提供預先對齊的文字檔案來覆寫句子對齊。 您可以將這兩份文件中的所有句子擷取到文字檔,並組織成每一行一個句子,然後以 .align
副檔名來上傳檔案。 .align
副檔名會告知自訂翻譯工具應該略過句子對齊。
為了獲得最佳結果,請嘗試確定您的檔案內容是每行一個句子。 句子中不要有換行字元,這會導致對齊不良。
建議的最小句子數目
為了成功定型,下表顯示了每個文件類型所需的最小句子數目。 這項限制是一種防護機制,可確保平行句子包含足夠的唯一字彙可成功定型翻譯模型。 通用準則是,具有人工翻譯品質的領域內平行句子愈多,應該就愈能產生高品質的模型。
Document type | 建議的最小句子計數 | 最大句子計數 |
---|---|---|
訓練 | 10,000 | 沒有上限 |
調整 | 500 | 2,500 |
測試 | 500 | 2,500 |
Dictionary | 0 | 250,000 |
注意