Transcripties met een menselijk label maken

Artikel
10/16/2024

Transcripties met een menselijk label zijn woord-op-woordtranscripties van een audiobestand. U gebruikt transcripties met een menselijk label om de nauwkeurigheid van het model te evalueren en om de nauwkeurigheid van de herkenning te verbeteren, met name wanneer woorden worden verwijderd of onjuist worden vervangen. Deze handleiding kan u helpen bij het maken van transcripties van hoge kwaliteit.

Een representatieve steekproef van transcriptiegegevens wordt aanbevolen om de nauwkeurigheid van het model te evalueren. De gegevens moeten betrekking hebben op verschillende sprekers en uitingen die representatief zijn voor wat gebruikers zeggen tegen de toepassing. Voor testgegevens is de maximale duur van elk afzonderlijk audiobestand 2 uur.

Er is een groot aantal transcriptiegegevens vereist om de herkenning te verbeteren. We raden u aan om tussen 1 en 100 uur audiogegevens op te geven. De Speech-service gebruikt maximaal 100 uur audio voor training (maximaal 20 uur voor oudere modellen die geen kosten in rekening brengen voor training). Elk afzonderlijk audiobestand mag niet langer zijn dan 40 seconden (tot 30 seconden voor de aanpassing van Whisper).

Deze gids bevat secties voor Amerikaans Engels, Mandarijn Chinees en Duitse landinstellingen.

De transcripties voor alle WAV-bestanden bevinden zich in één bestand met tekst zonder opmaak (.txt of .tsv). Elke regel van het transcriptiebestand bevat de naam van een van de audiobestanden, gevolgd door de bijbehorende transcriptie. De bestandsnaam en transcriptie worden gescheiden door een tabblad (\t).

Voorbeeld:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

De transcripties zijn tekstgenormaliseerd, zodat het systeem ze kan verwerken. U moet echter enkele belangrijke normalisaties uitvoeren voordat u de gegevensset uploadt.

Transcripties met menselijk label voor andere talen dan Engels en Mandarijn Chinees moeten UTF-8 zijn gecodeerd met een bytevolgordemarkering. Zie de volgende secties voor andere transcriptievereisten voor landinstellingen.

nl

Transcripties met een menselijk label voor Engelse audio moeten worden geleverd als tekst zonder opmaak, alleen met ASCII-tekens. Vermijd het gebruik van Latijns-1 of Unicode-interpunctietekens. Deze tekens worden vaak per ongeluk toegevoegd bij het kopiëren van tekst uit een tekstverwerkingstoepassing of het scrapen van gegevens van webpagina's. Als deze tekens aanwezig zijn, moet u deze bijwerken met de juiste ASCII-vervanging.

Enkele voorbeelden:

Tekens om te voorkomen	Vervanging	Opmerkingen
"Hello world"	"Hello world"	De aanhalingstekens voor openen en sluiten worden vervangen door de juiste ASCII-tekens.
John's dag	John's dag	De apostrof wordt vervangen door het juiste ASCII-teken.
Het was goed, nee, het was geweldig!	het was goed, nee, het was geweldig!	Het em-streepje wordt vervangen door twee afbreekstreepjes.

Tekstnormalisatie voor Amerikaans Engels

Tekstnormalisatie is de transformatie van woorden in een consistente indeling die wordt gebruikt bij het trainen van een model. Sommige normalisatieregels worden automatisch toegepast op tekst, maar we raden u aan deze richtlijnen te gebruiken bij het voorbereiden van uw door mensen gelabelde transcriptiegegevens:

Schrijf afkortingen in woorden.
Schrijf niet-standaard numerieke tekenreeksen in woorden (zoals boekhoudtermen).
Niet-alfabetische tekens of gemengde alfanumerieke tekens moeten worden getranscribeerd als uitgesproken.
Afkortingen die worden uitgesproken als woorden, mogen niet worden bewerkt (zoals 'radar', 'laser', 'RAM' of 'NAVO').
Schrijf afkortingen uit die worden uitgesproken als afzonderlijke letters met elke letter gescheiden door een spatie.
Als u audio gebruikt, transcribeert u getallen als woorden die overeenkomen met de audio (bijvoorbeeld '101' kan worden uitgesproken als 'één oh één' of 'honderd en één').
Vermijd het herhalen van tekens, woorden of groepen woorden meer dan drie keer, zoals 'ja ja ja ja'. De Speech-service kan lijnen met een dergelijke herhaling verwijderen.

Hier volgen enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:

Original text	Tekst na normalisatie (menselijk)
Dr. Bruce Banner	Dokter Bruce Banner
James Bond, 007	James Bond, dubbel oh zeven
Ke$ha	Kesha
Hoe lang is de 2x4	Hoe lang zijn de twee bij vier
De vergadering gaat van 1 tot 13:00 uur	De vergadering gaat van één tot drie uur
Mijn bloedtype is O+	Mijn bloedtype is O positief
Water is H20	Water is H 2 O
Ou812 spelen door Van Halen	Play O U 8 1 2 door Van Halen
UTF-8 met BOM	U T F 8 met BOM
Het kost $ 3,14	Het kost drie veertien

De volgende normalisatieregels worden automatisch toegepast op transcripties:

Gebruik kleine letters.
Verwijder alle interpunctie behalve apostrofs binnen woorden.
Getallen uitbreiden in woorden/gesproken vorm, zoals dollarbedragen.

Hier volgen enkele voorbeelden van normalisatie die automatisch worden uitgevoerd op de transcriptie:

Original text	Tekst na normalisatie (automatisch)
"Heilige koe!" zei Batman.	heilige koe zei vleermuisman
"Wat?" zei Batman's sidekick, Robin.	wat zei batman's sidekick robin
Pak -em!	ga ze halen
Ik ben dubbelgewricht	Ik ben dubbelgewricht
104 Elm Street	een oh vier Elm straat
Afstemmen op 102.7	afstemmen op één oh twee punt zeven
Pi is ongeveer 3.14	pi is ongeveer drie punt één vier

de-DE

Transcripties met menselijk label voor Duitse audio moeten UTF-8 zijn gecodeerd met een bytevolgordemarkering.

Tekstnormalisatie voor Duits

Schrijf decimalen als ',' en niet '.'
Tijdscheidingstekens schrijven als ':' en niet '.' (bijvoorbeeld: 12:00 Uhr).
Afkortingen zoals 'ca'. worden niet vervangen. U wordt aangeraden het volledige gesproken formulier te gebruiken.
De vier belangrijkste wiskundige operatoren (+, -, *en /) worden verwijderd. U wordt aangeraden deze te vervangen door het geschreven formulier: 'plus', 'min', 'mal' en 'geteilt'.
Vergelijkingsoperatoren worden verwijderd (=, <en >). We raden u aan ze te vervangen door "gleich", "kleiner als", en "grösser als."
Schrijffracties, zoals 3/4, in geschreven vorm (bijvoorbeeld : "drei viertel" in plaats van 3/4).
Vervang het symbool '€' door de geschreven vorm 'Euro'.

Hier volgen enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:

Original text	Tekst na normalisatie van gebruikers	Tekst na systeemnormalisatie
Es ist 12.23 Uhr	Es ist 12:23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 plus 3 min 4	zwei plus drei min vier

De volgende normalisatieregels worden automatisch toegepast op transcripties:

Gebruik kleine letters voor alle tekst.
Verwijder alle interpunctie, inclusief verschillende typen aanhalingstekens ('test', 'test', 'test' en 'test').
Verwijder rijen met speciale tekens uit deze set: ! ! ± ! © ® ² μ × Ø....).
Vouw getallen uit naar gesproken vorm, inclusief dollar- of eurobedragen.
Accepteer alleen umlauts voor een, o en u. Anderen worden vervangen door 'th' of verwijderd.

Hier volgen enkele voorbeelden van normalisatie die automatisch worden uitgevoerd op de transcriptie:

Original text	Tekst na normalisatie
Frankfurter Ring	frankfurterring
¡Eine Frage!	eine frage
Wir, haben	wir haben

ja-JP

In het Japans (ja-JP) is er een maximale lengte van 90 tekens voor elke zin. Regels met langere zinnen worden verwijderd. Als u langere tekst wilt toevoegen, voegt u een punt tussenin.

zh-CN

Door mensen gelabelde transcripties voor Mandarijn Chinese audio moeten UTF-8 zijn gecodeerd met een bytevolgordemarkering. Vermijd het gebruik van interpunctietekens met halve breedte. Deze tekens kunnen per ongeluk worden opgenomen wanneer u de gegevens voorbereidt in een tekstverwerkingsprogramma of gegevens van webpagina's scrapt. Als deze tekens aanwezig zijn, moet u deze bijwerken met de juiste vervanging van volledige breedte.

Enkele voorbeelden:

Tekens om te voorkomen	Vervanging	Opmerkingen
"你好"	"你好"	De aanhalingstekens voor openen en sluiten worden vervangen door de juiste tekens.
需要什么帮助?	需要什么帮助？	Het vraagteken wordt vervangen door het juiste teken.

Tekstnormalisatie voor Mandarijn Chinees

Schrijf afkortingen in woorden.
Schrijf numerieke tekenreeksen in gesproken vorm.

Hier volgen enkele voorbeelden van normalisatie die u moet uitvoeren op de transcriptie:

Original text	Tekst na normalisatie
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

De volgende normalisatieregels worden automatisch toegepast op transcripties:

Verwijder alle leestekens.
Vouw getallen uit naar gesproken vorm.
Converteer letters met volledige breedte naar letters met halve breedte.
Hoofdletters gebruiken voor alle Engelse woorden.

Hier volgen enkele voorbeelden van automatische transcriptienormalisatie:

Original text	Tekst na normalisatie
3.1415	三点一四一五
● 3,5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

Delen via

Transcripties met een menselijk label maken

nl

Tekstnormalisatie voor Amerikaans Engels

de-DE

Tekstnormalisatie voor Duits

ja-JP

zh-CN

Tekstnormalisatie voor Mandarijn Chinees

Volgende stappen

Feedback

Aanvullende resources