如何建立人工標記的轉譯
人工標記的轉譯是音訊檔案的逐字轉譯。 您可以使用人工標記的轉譯來提升模型的準確性,進而改善辨識精確度,尤其是在單字遭到刪除或誤植時。 本指南可協助您建立高品質的轉譯。
建議使用代表性的轉譯資料樣本評估模型精確度。 資料應該涵蓋代表使用者對應用程式所說內容的各種演講者和語句。 針對測試資料,每個個別音訊檔案的最長持續時間為 2 小時。
需要大型的轉譯資料樣本,以改善辨識能力。 建議提供介於 1 到 100 小時的音訊資料。 語音服務會使用最多 100 小時的音訊進行訓練 (對於不收取訓練費用的較舊模型,最多為 20 小時)。 每個個別的音訊檔案不應超過 40 秒 (對於 Whisper 自訂最多為 30 秒)。
此指南提供適用於美式英文、中文和德文的章節。
所有 WAV 檔案的轉錄內容皆應包含在單一純文字檔案中 (.txt or .tsv)。 轉錄內容檔案的每一行皆應包含其中一個音訊檔案的名稱,後面加上對應的轉錄內容。 檔案名稱和轉錄內容應以定位字元 (\t
) 分隔。
例如:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
將轉錄內容進行文字標準化,以便系統進行處理。 不過,您必須先執行一些重要的標準化作業,才可上傳資料集。
英文和中文以外語言的人工標記轉譯必須以位元組順序標記進行 UTF-8 編碼。 如需其他地區設定轉譯需求,請參閱下方各節。
zh-TW
英文音訊的人工標記轉譯必須以純文字形式提供,僅使用 ASCII 字元。 請避免使用 Latin-1 或 Unicode 標點符號字元。 從文字處理應用程式複製文字或從網頁抓取資料時,常會不慎加上這些字元。 如果有這些字元,請務必將其更新為適當的 ASCII 替代項目。
以下是一些範例:
要避免的字元 | Substitution | 備註 |
---|---|---|
"Hello world" | "Hello world" | 開頭和結尾的引號都取代為適當的 ASCII 字元。 |
John’s day | John's day | 單引號取代為適當的 ASCII 字元。 |
It was good—no, it was great! | it was good--no, it was great! | 以兩個連字號取代長破折號。 |
美式英文的文字正規化
文字正規化是指將單字轉換成在定型模型時所使用的一致格式。 某些正規化規則會自動套用至文字,不過,建議您在準備人工標記的轉譯資料時採用下列指導方針:
- 以單字寫出縮寫。
- 以單字寫出非標準的數值字串 (例如會計字詞)。
- 非字母字元或混合英數字元應按照發音轉譯。
- 讀為單字的縮寫不應進行編輯 (例如 "radar"、"laser"、"RAM" 或 "NATO")。
- 寫出讀為個別字母、並以空格分隔每個字母的縮寫。
- 如果您使用音訊,請將數字轉譯為符合音訊的單字 (例如,"101" 可讀為 "one oh one" 或 "one hundred and one")。
- 字元、單字或單字群組請避免重複超過三次,例如 "yeah yeah yeah yeah"。 語音服務可能會遺漏幾行,如重複。
以下幾個範例說明您應對轉譯執行的正規化:
Original text | 正規化之後的文字 (人工) |
---|---|
Dr.Bruce Banner | Doctor Bruce Banner |
James Bond, 007 | James Bond, double oh seven |
Ke$ha | Kesha |
How long is the 2x4 | How long is the two by four |
The meeting goes from 1-3pm | The meeting goes from one to three pm |
My blood type is O+ | My blood type is O positive |
Water is H20 | Water is H 2 O |
Play OU812 by Van Halen | Play O U 8 1 2 by Van Halen |
具有 BOM 的 UTF-8 | U T F 8 with BOM |
It costs $3.14 | It costs three fourteen |
下列正規化規則會自動套用至轉譯:
- 使用小寫字母。
- 移除單字內的所有標點符號 (單引號除外)。
- 將數字擴展為文字/口語形式,例如美元金額。
以下幾個範例說明會自動對轉譯執行的正規化:
Original text | 正規化之後的文字 (自動) |
---|---|
"Holy cow!" said Batman. | holy cow said batman |
"What?" said Batman's sidekick, Robin. | what said batman's sidekick robin |
Go get -em! | go get em |
I'm double-jointed | I'm double jointed |
104 Elm Street | one oh four Elm street |
Tune to 102.7 | tune to one oh two point seven |
Pi is about 3.14 | pi is about three point one four |
de-DE
德文音訊的人工標記轉譯必須以位元組順序標記進行 UTF-8 編碼。
德文的文字正規化
文字正規化是指將單字轉換成在定型模型時所使用的一致格式。 某些正規化規則會自動套用至文字,不過,建議您在準備人工標記的轉譯資料時採用下列指導方針:
- 將小數點寫為 "," 而非 "."。
- 將時間分隔符號寫為 ":" 而非 "." (例如 12:00 Uhr)。
- "ca." 之類的縮寫不會被取代。 我們建議您使用完整口語形式。
- 已移除四個主要的數學運算子 (+、-、* 和 /)。 建議您將其取代為書寫形式:"plus"、"minus"、"mal" 和 "geteilt"。
- 移除比較運算子 (=、< 和 >)。 建議並取代成 "gleich"、"kleiner als" 和 "grösser als"。
- 撰寫 3/4 這類分數時,採用書寫形式 (例如 "drei viertel",而不採用 3/4)。
- 將 "€" 符號取代為書寫格式 "Euro"。
以下幾個範例說明您應對轉譯執行的正規化:
Original text | 使用者正規化之後的文字 | 系統正規化之後的文字 |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
下列正規化規則會自動套用至轉譯:
- 所有文字皆使用小寫字母。
- 移除所有標點符號,包括各種類型的引號 (可接受 "test"、'test'、"test„ 和 «test»)。
- 捨棄包含下列任何特殊字元的資料列:¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬。
- 將數字擴展為口語形式,包括美元或歐元金額。
- 只接受 a、o 和 u 的變音符號。 其他則由「th」取代或捨棄。
以下幾個範例說明會自動對轉譯執行的正規化:
Original text | 正規化之後的文字 |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
在日文 (ja-JP) 中,每個句子的長度上限為 90 個字元。 句子較長的字行會被捨棄。 若要加入較長的文字,請在其間插入句號。
zh-CN
中文音訊的人工標記轉譯必須以位元組順序標記進行 UTF-8 編碼。 請避免使用半形標點符號字元。 在文字處理程式中準備資料,或是從網頁抓取資料時,可能會不慎納入這些字元。 如果有這些字元,請務必將其更新為適當的全形替代項目。
以下是一些範例:
要避免的字元 | Substitution | 備註 |
---|---|---|
"你好" | "你好" | 開頭和結尾的引號都取代為適當的字元。 |
需要什么帮助? | 需要什么帮助? | 問號會使用適當的字元取代。 |
中文的文字正規化
文字正規化是指將單字轉換成在定型模型時所使用的一致格式。 某些正規化規則會自動套用至文字,不過,建議您在準備人工標記的轉譯資料時採用下列指導方針:
- 以單字寫出縮寫。
- 將數值字串以口語形式寫出。
以下幾個範例說明您應對轉譯執行的正規化:
Original text | 正規化之後的文字 |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
下列正規化規則會自動套用至轉譯:
- 移除所有標點符號。
- 將數字擴展為口語形式。
- 將全形字母轉換成半形字母。
- 對於所有的英文字組使用大寫字母。
以下是自動轉譯正規化的一些範例:
Original text | 正規化之後的文字 |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |