Transcripties met een menselijk label maken
Transcripties met een menselijk label zijn woord-op-woordtranscripties van een audiobestand. U gebruikt transcripties met een menselijk label om de nauwkeurigheid van het model te evalueren en om de nauwkeurigheid van de herkenning te verbeteren, met name wanneer woorden worden verwijderd of onjuist worden vervangen. Deze handleiding kan u helpen bij het maken van transcripties van hoge kwaliteit.
Een representatieve steekproef van transcriptiegegevens wordt aanbevolen om de nauwkeurigheid van het model te evalueren. De gegevens moeten betrekking hebben op verschillende sprekers en uitingen die representatief zijn voor wat gebruikers zeggen tegen de toepassing. Voor testgegevens is de maximale duur van elk afzonderlijk audiobestand 2 uur.
Er is een groot aantal transcriptiegegevens vereist om de herkenning te verbeteren. We raden u aan om tussen 1 en 100 uur audiogegevens op te geven. De Speech-service gebruikt maximaal 100 uur audio voor training (maximaal 20 uur voor oudere modellen die geen kosten in rekening brengen voor training). Elk afzonderlijk audiobestand mag niet langer zijn dan 40 seconden (tot 30 seconden voor de aanpassing van Whisper).
Deze gids bevat secties voor Amerikaans Engels, Mandarijn Chinees en Duitse landinstellingen.
De transcripties voor alle WAV-bestanden bevinden zich in één bestand met tekst zonder opmaak (.txt of .tsv). Elke regel van het transcriptiebestand bevat de naam van een van de audiobestanden, gevolgd door de bijbehorende transcriptie. De bestandsnaam en transcriptie worden gescheiden door een tabblad (\t
).
Voorbeeld:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
De transcripties zijn tekstgenormaliseerd, zodat het systeem ze kan verwerken. U moet echter enkele belangrijke normalisaties uitvoeren voordat u de gegevensset uploadt.
Transcripties met menselijk label voor andere talen dan Engels en Mandarijn Chinees moeten UTF-8 zijn gecodeerd met een bytevolgordemarkering. Zie de volgende secties voor andere transcriptievereisten voor landinstellingen.
nl
Transcripties met een menselijk label voor Engelse audio moeten worden geleverd als tekst zonder opmaak, alleen met ASCII-tekens. Vermijd het gebruik van Latijns-1 of Unicode-interpunctietekens. Deze tekens worden vaak per ongeluk toegevoegd bij het kopiëren van tekst uit een tekstverwerkingstoepassing of het scrapen van gegevens van webpagina's. Als deze tekens aanwezig zijn, moet u deze bijwerken met de juiste ASCII-vervanging.
Enkele voorbeelden:
Tekens om te voorkomen | Vervanging | Opmerkingen |
---|---|---|
"Hello world" | "Hello world" | De aanhalingstekens voor openen en sluiten worden vervangen door de juiste ASCII-tekens. |
John's dag | John's dag | De apostrof wordt vervangen door het juiste ASCII-teken. |
Het was goed, nee, het was geweldig! | het was goed, nee, het was geweldig! | Het em-streepje wordt vervangen door twee afbreekstreepjes. |
Tekstnormalisatie voor Amerikaans Engels
Tekstnormalisatie is de transformatie van woorden in een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normalisatieregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken bij het voorbereiden van uw door mensen gelabelde transcriptiegegevens:
- Schrijf afkortingen in woorden.
- Schrijf niet-standaard numerieke tekenreeksen in woorden (zoals boekhoudtermen).
- Niet-alfabetische tekens of gemengde alfanumerieke tekens moeten worden getranscribeerd als uitgesproken.
- Afkortingen die worden uitgesproken als woorden, mogen niet worden bewerkt (zoals 'radar', 'laser', 'RAM' of 'NAVO').
- Schrijf afkortingen uit die worden uitgesproken als afzonderlijke letters met elke letter gescheiden door een spatie.
- Als u audio gebruikt, transcribeert u getallen als woorden die overeenkomen met de audio (bijvoorbeeld '101' kan worden uitgesproken als 'één oh één' of 'honderd en één').
- Vermijd het herhalen van tekens, woorden of groepen woorden meer dan drie keer, zoals 'ja ja ja ja'. De Speech-service kan lijnen met een dergelijke herhaling verwijderen.
Hier volgen enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:
Original text | Tekst na normalisatie (menselijk) |
---|---|
Dr. Bruce Banner | Dokter Bruce Banner |
James Bond, 007 | James Bond, dubbel oh zeven |
Ke$ha | Kesha |
Hoe lang is de 2x4 | Hoe lang zijn de twee bij vier |
De vergadering gaat van 1 tot 13:00 uur | De vergadering gaat van één tot drie uur |
Mijn bloedtype is O+ | Mijn bloedtype is O positief |
Water is H20 | Water is H 2 O |
Ou812 spelen door Van Halen | Play O U 8 1 2 door Van Halen |
UTF-8 met BOM | U T F 8 met BOM |
Het kost $ 3,14 | Het kost drie veertien |
De volgende normalisatieregels worden automatisch toegepast op transcripties:
- Gebruik kleine letters.
- Verwijder alle interpunctie behalve apostrofs binnen woorden.
- Getallen uitbreiden in woorden/gesproken vorm, zoals dollarbedragen.
Hier volgen enkele voorbeelden van normalisatie die automatisch worden uitgevoerd op de transcriptie:
Original text | Tekst na normalisatie (automatisch) |
---|---|
"Heilige koe!" zei Batman. | heilige koe zei vleermuisman |
"Wat?" zei Batman's sidekick, Robin. | wat zei batman's sidekick robin |
Pak -em! | ga ze halen |
Ik ben dubbelgewricht | Ik ben dubbelgewricht |
104 Elm Street | een oh vier Elm straat |
Afstemmen op 102.7 | afstemmen op één oh twee punt zeven |
Pi is ongeveer 3.14 | pi is ongeveer drie punt één vier |
de-DE
Transcripties met menselijk label voor Duitse audio moeten UTF-8 zijn gecodeerd met een bytevolgordemarkering.
Tekstnormalisatie voor Duits
Tekstnormalisatie is de transformatie van woorden in een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normalisatieregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken bij het voorbereiden van uw door mensen gelabelde transcriptiegegevens:
- Schrijf decimalen als ',' en niet '.'
- Tijdscheidingstekens schrijven als ':' en niet '.' (bijvoorbeeld: 12:00 Uhr).
- Afkortingen zoals 'ca'. worden niet vervangen. U wordt aangeraden het volledige gesproken formulier te gebruiken.
- De vier belangrijkste wiskundige operatoren (+, -, *en /) worden verwijderd. U wordt aangeraden deze te vervangen door het geschreven formulier: 'plus', 'min', 'mal' en 'geteilt'.
- Vergelijkingsoperatoren worden verwijderd (=, <en >). We raden u aan ze te vervangen door "gleich", "kleiner als", en "grösser als."
- Schrijffracties, zoals 3/4, in geschreven vorm (bijvoorbeeld : "drei viertel" in plaats van 3/4).
- Vervang het symbool '€' door de geschreven vorm 'Euro'.
Hier volgen enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:
Original text | Tekst na normalisatie van gebruikers | Tekst na systeemnormalisatie |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 min 4 | zwei plus drei min vier |
De volgende normalisatieregels worden automatisch toegepast op transcripties:
- Gebruik kleine letters voor alle tekst.
- Verwijder alle interpunctie, inclusief verschillende typen aanhalingstekens ('test', 'test', 'test' en 'test').
- Verwijder rijen met speciale tekens uit deze set: ! ! ± ! © ® ² μ × Ø....).
- Vouw getallen uit naar gesproken vorm, inclusief dollar- of eurobedragen.
- Accepteer alleen umlauts voor een, o en u. Anderen worden vervangen door 'th' of verwijderd.
Hier volgen enkele voorbeelden van normalisatie die automatisch worden uitgevoerd op de transcriptie:
Original text | Tekst na normalisatie |
---|---|
Frankfurter Ring | frankfurterring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
In het Japans (ja-JP) is er een maximale lengte van 90 tekens voor elke zin. Regels met langere zinnen worden verwijderd. Als u langere tekst wilt toevoegen, voegt u een punt tussenin.
zh-CN
Door mensen gelabelde transcripties voor Mandarijn Chinese audio moeten UTF-8 zijn gecodeerd met een bytevolgordemarkering. Vermijd het gebruik van interpunctietekens met halve breedte. Deze tekens kunnen per ongeluk worden opgenomen wanneer u de gegevens voorbereidt in een tekstverwerkingsprogramma of gegevens van webpagina's scrapt. Als deze tekens aanwezig zijn, moet u deze bijwerken met de juiste vervanging van volledige breedte.
Enkele voorbeelden:
Tekens om te voorkomen | Vervanging | Opmerkingen |
---|---|---|
"你好" | "你好" | De aanhalingstekens voor openen en sluiten worden vervangen door de juiste tekens. |
需要什么帮助? | 需要什么帮助? | Het vraagteken wordt vervangen door het juiste teken. |
Tekstnormalisatie voor Mandarijn Chinees
Tekstnormalisatie is de transformatie van woorden in een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normalisatieregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken bij het voorbereiden van uw door mensen gelabelde transcriptiegegevens:
- Schrijf afkortingen in woorden.
- Schrijf numerieke tekenreeksen in gesproken vorm.
Hier volgen enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:
Original text | Tekst na normalisatie |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
De volgende normalisatieregels worden automatisch toegepast op transcripties:
- Verwijder alle leestekens.
- Vouw getallen uit naar gesproken vorm.
- Converteer letters met volledige breedte naar letters met halve breedte.
- Hoofdletters gebruiken voor alle Engelse woorden.
Hier volgen enkele voorbeelden van automatische transcriptienormalisatie:
Original text | Tekst na normalisatie |
---|---|
3.1415 | 三 点 一 四 一 五 |
● 3,5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |