Jak vytvořit přepisy označené člověkem
Přepisy označené člověkem jsou přepisy zvukových souborů po slovech. Pomocí přepisů označených člověkem můžete vyhodnotit přesnost modelu a zlepšit přesnost rozpoznávání, zejména pokud se slova odstraní nebo nesprávně nahradí. Tato příručka vám pomůže vytvořit vysoce kvalitní přepisy.
K vyhodnocení přesnosti modelu se doporučuje reprezentativní vzorek dat přepisu. Data by se měla týkat různých mluvčích a promluv, které představují zástupce toho, co uživatelé říkají aplikaci. U testovacích dat je maximální doba trvání každého jednotlivého zvukového souboru 2 hodiny.
K vylepšení rozpoznávání se vyžaduje velký vzorek dat přepisu. Doporučujeme poskytovat 1 až 100 hodin zvukových dat. Služba Speech používá k trénování až 100 hodin zvuku (až 20 hodin u starších modelů, které se neúčtují za trénování). Každý jednotlivý zvukový soubor by neměl být delší než 40 sekund (až 30 sekund pro přizpůsobení šeptu).
Tato příručka obsahuje oddíly pro americké angličtinu, mandarínštinu a německé národní prostředí.
Přepisy pro všechny soubory WAV jsou obsaženy v jednom souboru prostého textu (.txt nebo .tsv). Každý řádek souboru přepisu obsahuje název jednoho ze zvukových souborů, za kterými následuje odpovídající přepis. Název souboru a přepis jsou oddělené tabulátorem (\t
).
Příklad:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
Přepisy jsou normalizované, aby je systém mohl zpracovat. Před nahráním datové sady však musíte provést několik důležitých normalizací.
Přepisy označené člověkem pro jiné jazyky než angličtinu a mandarínštinu, musí být kódované UTF-8 se značkou pořadí bajtů. Další požadavky na přepis národních prostředí najdete v následujících částech.
cs
Přepisy anglického zvuku označené člověkem musí být poskytovány jako prostý text, a to pouze pomocí znaků ASCII. Nepoužívejte interpunkční znaky latinky a 1 nebo Unicode. Tyto znaky jsou často neúmyslně přidány při kopírování textu z aplikace pro zpracování textu nebo sešrotování dat z webových stránek. Pokud jsou tyto znaky přítomny, nezapomeňte je aktualizovat odpovídající náhradou ASCII.
Tady je pár příkladů:
Znaky, kterým se chcete vyhnout | Substituce | Notes |
---|---|---|
Hello world | Hello world | Levá a pravá uvozovka se nahradí odpovídajícími znaky ASCII. |
Den Johna | Den Johna | Apostrof se nahradí odpovídajícím znakem ASCII. |
Bylo to dobré- ne, bylo to skvělé! | Bylo to dobré- ne, bylo to skvělé! | Pomlčka je nahrazena dvěma spojovníky. |
Normalizace textu pro angličtinu v USA
Normalizace textu je transformace slov do konzistentního formátu používaného při trénování modelu. Některá pravidla normalizace se na text použijí automaticky, ale při přípravě dat přepisu označených lidmi doporučujeme použít tato pravidla:
- Napište zkratky slovy.
- Zapište nestandardní číselné řetězce ve slovech (například účetní termíny).
- Nealfabetické znaky nebo smíšené alfanumerické znaky by měly být přepisovány jako vyslovované.
- Zkratky, které jsou vyslovovány jako slova, by se neměly upravovat (například "radar", "laser", "RAM" nebo "NATO").
- Napište zkratky, které jsou vyslovovány jako samostatná písmena s každým písmenem odděleným mezerou.
- Pokud použijete zvuk, přepište čísla jako slova, která odpovídají zvuku (například "101" může být vyslovována jako "jedna oh jedna" nebo "jedna stovka a jedna").
- Vyhněte se opakování znaků, slov nebo skupin slov více než třikrát, například "ano ano ano". Služba Speech může zahodit řádky s takovým opakováním.
Tady je několik příkladů normalizace, které byste měli provést s přepisem:
Original text | Text po normalizaci (člověk) |
---|---|
Dr. Bruce Banner | Doktor Bruce Banner |
James Bond, 007 | James Bond, double oh sedm |
Ke$ha | Kesha |
Jak dlouho je 2x4 | Jak dlouho jsou dvě o čtyři |
Schůzka chodí od 13:00 | Schůzka jde od jednoho do tří hodin. |
Můj krevní typ je O+ | Můj krevní typ je O pozitivní |
Voda je H20 | Voda je H 2 O |
Play OU812 od Van Halen | Hrát O U 8 1 2 od Van Halen |
UTF-8 se značkou pořadí bajtů | U T F 8 s kusovníkem |
Stojí 3,14 USD | Stojí tři čtrnácti |
Následující pravidla normalizace se automaticky použijí na přepisy:
- Používejte malá písmena.
- Odeberte všechny interpunkce s výjimkou apostrofů ve slovech.
- Rozbalte čísla do slov nebo mluveného tvaru, například částky v dolarech.
Tady je několik příkladů normalizace, které se automaticky provádějí s přepisem:
Original text | Text po normalizaci (automatický) |
---|---|
"Svatá kráva!" řekl Batman. | Svatá kráva řekla batman |
"Co?" řekl Batmanův sidekick, Robine. | co řekl Batman's sidekick robin |
Jdi si -em! | go get em |
Jsem dvojitě zdvojený | Jsem dvojitě zdvojený |
104 Ulice Elm | jedna čtyři ulice Elm |
Ladění na verzi 102.7 | vyladit na jeden oh dva body sedm |
Pí je asi 3,14 | pí je asi tři body jedna čtyři |
de-DE
Přepisy označené člověkem pro německý zvuk musí být kódovány UTF-8 se značkou pořadí bajtů.
Normalizace textu pro němčinu
Normalizace textu je transformace slov do konzistentního formátu používaného při trénování modelu. Některá pravidla normalizace se na text použijí automaticky, ale při přípravě dat přepisu označených lidmi doporučujeme použít tato pravidla:
- Zapište desetinné čárky jako ", a ne ".".
- Zapište oddělovače času jako ":" a ne "." (například: 12:00 Uhr).
- Zkratky jako "ca" se nenahrazovat. Doporučujeme používat plně mluvený formulář.
- Odeberou se čtyři hlavní matematické operátory (+, -, *a /). Doporučujeme je nahradit psaným formulářem: "plus", "minus", "mal" a "geteilt".
- Relační operátory jsou odebrány (=, <a >). Doporučujeme je nahradit "gleich", "kleiner als" a "grösser als".
- Zápis zlomků, například 3/4, v písemné podobě (například : "drei viertel" místo 3/4).
- Nahraďte symbol "€" svým písemným tvarem "Euro".
Tady je několik příkladů normalizace, které byste měli provést s přepisem:
Original text | Text po normalizaci uživatele | Text po normalizaci systému |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
Následující pravidla normalizace se automaticky použijí na přepisy:
- Pro veškerý text používejte malá písmena.
- Odeberte všechny interpunkce včetně různých typů uvozovek ("test", "test", "test" a «test» jsou OK).
- Zahoďte řádky s libovolnými speciálními znaky z této sady: ! ° © ® ± ² μ × ø≉.
- Rozbalte čísla do mluveného formuláře, včetně částky v dolarech nebo eurech.
- Přijměte jen umlauty pro a, o a vy. Ostatní se nahradí slovem "th" nebo zahodí.
Tady je několik příkladů normalizace, které se automaticky provádějí s přepisem:
Original text | Text po normalizaci |
---|---|
Frankfurter Ring | frankfurter ring |
'Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
V japonštině (ja-JP) je maximální délka 90 znaků pro každou větu. Řádky s delšími větami se zahodí. Pokud chcete přidat delší text, vložte mezi něj tečku.
zh-CN
Přepisy označené člověkem pro mandarínštinu čínského zvuku musí být kódování UTF-8 se značkou pořadí bajtů. Nepoužívejte interpunkční znaky s poloviční šířkou. Tyto znaky je možné zahrnout neúmyslně při přípravě dat v programu pro zpracování slov nebo sešrotování dat z webových stránek. Pokud jsou tyto znaky přítomny, nezapomeňte je aktualizovat odpovídající náhradou za plnou šířku.
Tady je pár příkladů:
Znaky, kterým se chcete vyhnout | Substituce | Notes |
---|---|---|
"你好" | "你好" | Levá a pravá uvozovka se nahradí příslušnými znaky. |
需要什么帮助? | 需要什么帮助? | Otazník se nahradí odpovídajícím znakem. |
Normalizace textu pro mandarínštinu
Normalizace textu je transformace slov do konzistentního formátu používaného při trénování modelu. Některá pravidla normalizace se na text použijí automaticky, ale při přípravě dat přepisu označených lidmi doporučujeme použít tato pravidla:
- Napište zkratky slovy.
- Vypište číselné řetězce v mluvené podobě.
Tady je několik příkladů normalizace, které byste měli provést s přepisem:
Original text | Text po normalizaci |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
Následující pravidla normalizace se automaticky použijí na přepisy:
- Odeberte veškerou interpunkci.
- Rozbalte čísla do mluveného formuláře.
- Převeďte písmena s plnou šířkou na písmena s poloviční šířkou.
- Použití velkých písmen pro všechna anglická slova
Tady je několik příkladů automatické normalizace přepisu:
Original text | Text po normalizaci |
---|---|
3.1415 | 三 点 一 四 一 五 |
– 3,5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |