如何建立人工標記的轉譯

發行項
09/19/2024

人工標記的轉譯是音訊檔案的逐字轉譯。您可以使用人工標記的轉譯來提升模型的準確性，進而改善辨識精確度，尤其是在單字遭到刪除或誤植時。本指南可協助您建立高品質的轉譯。

建議使用代表性的轉譯資料樣本評估模型精確度。資料應該涵蓋代表使用者對應用程式所說內容的各種演講者和語句。針對測試資料，每個個別音訊檔案的最長持續時間為 2 小時。

需要大型的轉譯資料樣本，以改善辨識能力。建議提供介於 1 到 100 小時的音訊資料。語音服務會使用最多 100 小時的音訊進行訓練 (對於不收取訓練費用的較舊模型，最多為 20 小時)。每個個別的音訊檔案不應超過 40 秒 (對於 Whisper 自訂最多為 30 秒)。

此指南提供適用於美式英文、中文和德文的章節。

所有 WAV 檔案的轉錄內容皆應包含在單一純文字檔案中 (.txt or .tsv)。轉錄內容檔案的每一行皆應包含其中一個音訊檔案的名稱，後面加上對應的轉錄內容。檔案名稱和轉錄內容應以定位字元 (\t) 分隔。

例如：

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

將轉錄內容進行文字標準化，以便系統進行處理。不過，您必須先執行一些重要的標準化作業，才可上傳資料集。

英文和中文以外語言的人工標記轉譯必須以位元組順序標記進行 UTF-8 編碼。如需其他地區設定轉譯需求，請參閱下方各節。

zh-TW

英文音訊的人工標記轉譯必須以純文字形式提供，僅使用 ASCII 字元。請避免使用 Latin-1 或 Unicode 標點符號字元。從文字處理應用程式複製文字或從網頁抓取資料時，常會不慎加上這些字元。如果有這些字元，請務必將其更新為適當的 ASCII 替代項目。

以下是一些範例：

要避免的字元	Substitution	備註
"Hello world"	"Hello world"	開頭和結尾的引號都取代為適當的 ASCII 字元。
John’s day	John's day	單引號取代為適當的 ASCII 字元。
It was good—no, it was great!	it was good--no, it was great!	以兩個連字號取代長破折號。

美式英文的文字正規化

文字正規化是指將單字轉換成在定型模型時所使用的一致格式。某些正規化規則會自動套用至文字，不過，建議您在準備人工標記的轉譯資料時採用下列指導方針：

以單字寫出縮寫。
以單字寫出非標準的數值字串 (例如會計字詞)。
非字母字元或混合英數字元應按照發音轉譯。
讀為單字的縮寫不應進行編輯 (例如 "radar"、"laser"、"RAM" 或 "NATO")。
寫出讀為個別字母、並以空格分隔每個字母的縮寫。
如果您使用音訊，請將數字轉譯為符合音訊的單字 (例如，"101" 可讀為 "one oh one" 或 "one hundred and one")。
字元、單字或單字群組請避免重複超過三次，例如 "yeah yeah yeah yeah"。語音服務可能會遺漏幾行，如重複。

以下幾個範例說明您應對轉譯執行的正規化：

Original text	正規化之後的文字 (人工)
Dr.Bruce Banner	Doctor Bruce Banner
James Bond, 007	James Bond, double oh seven
Ke$ha	Kesha
How long is the 2x4	How long is the two by four
The meeting goes from 1-3pm	The meeting goes from one to three pm
My blood type is O+	My blood type is O positive
Water is H20	Water is H 2 O
Play OU812 by Van Halen	Play O U 8 1 2 by Van Halen
具有 BOM 的 UTF-8	U T F 8 with BOM
It costs $3.14	It costs three fourteen

下列正規化規則會自動套用至轉譯：

使用小寫字母。
移除單字內的所有標點符號 (單引號除外)。
將數字擴展為文字/口語形式，例如美元金額。

以下幾個範例說明會自動對轉譯執行的正規化：

Original text	正規化之後的文字 (自動)
"Holy cow!" said Batman.	holy cow said batman
"What?" said Batman's sidekick, Robin.	what said batman's sidekick robin
Go get -em!	go get em
I'm double-jointed	I'm double jointed
104 Elm Street	one oh four Elm street
Tune to 102.7	tune to one oh two point seven
Pi is about 3.14	pi is about three point one four

de-DE

德文音訊的人工標記轉譯必須以位元組順序標記進行 UTF-8 編碼。

德文的文字正規化

將小數點寫為 "," 而非 "."。
將時間分隔符號寫為 ":" 而非 "." (例如 12:00 Uhr)。
"ca." 之類的縮寫不會被取代。我們建議您使用完整口語形式。
已移除四個主要的數學運算子 (+、-、* 和 /)。建議您將其取代為書寫形式："plus"、"minus"、"mal" 和 "geteilt"。
移除比較運算子 (=、< 和 >)。建議並取代成 "gleich"、"kleiner als" 和 "grösser als"。
撰寫 3/4 這類分數時，採用書寫形式 (例如 "drei viertel"，而不採用 3/4)。
將 "€" 符號取代為書寫格式 "Euro"。

以下幾個範例說明您應對轉譯執行的正規化：

Original text	使用者正規化之後的文字	系統正規化之後的文字
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 minus 4	zwei plus drei minus vier

下列正規化規則會自動套用至轉譯：

所有文字皆使用小寫字母。
移除所有標點符號，包括各種類型的引號 (可接受 "test"、'test'、"test„ 和 «test»)。
捨棄包含下列任何特殊字元的資料列：¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬。
將數字擴展為口語形式，包括美元或歐元金額。
只接受 a、o 和 u 的變音符號。其他則由「th」取代或捨棄。

以下幾個範例說明會自動對轉譯執行的正規化：

Original text	正規化之後的文字
Frankfurter Ring	frankfurter ring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

在日文 (ja-JP) 中，每個句子的長度上限為 90 個字元。句子較長的字行會被捨棄。若要加入較長的文字，請在其間插入句號。

zh-CN

中文音訊的人工標記轉譯必須以位元組順序標記進行 UTF-8 編碼。請避免使用半形標點符號字元。在文字處理程式中準備資料，或是從網頁抓取資料時，可能會不慎納入這些字元。如果有這些字元，請務必將其更新為適當的全形替代項目。

以下是一些範例：

要避免的字元	Substitution	備註
"你好"	"你好"	開頭和結尾的引號都取代為適當的字元。
需要什么帮助?	需要什么帮助？	問號會使用適當的字元取代。

中文的文字正規化

以單字寫出縮寫。
將數值字串以口語形式寫出。

以下幾個範例說明您應對轉譯執行的正規化：

Original text	正規化之後的文字
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

下列正規化規則會自動套用至轉譯：

移除所有標點符號。
將數字擴展為口語形式。
將全形字母轉換成半形字母。
對於所有的英文字組使用大寫字母。

以下是自動轉譯正規化的一些範例：

Original text	正規化之後的文字
3.1415	三点一四一五
￥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

共用方式為

如何建立人工標記的轉譯

zh-TW

美式英文的文字正規化

de-DE

德文的文字正規化

ja-JP

zh-CN

中文的文字正規化

後續步驟

意見反應

其他資源