Spraakvoorbeelden opnemen voor aangepaste neurale spraak

Artikel
09/23/2024

Dit artikel bevat instructies voor het voorbereiden van spraakvoorbeelden van hoge kwaliteit voor het maken van een professioneel spraakmodel met behulp van het aangepaste neurale spraak Pro-project.

Het maken van een aangepaste aangepaste neurale stem van hoge kwaliteit is geen ongedwongen onderneming. Het centrale onderdeel van een aangepaste neurale stem is een grote verzameling audiovoorbeelden van menselijke spraak. Het is essentieel dat deze audio-opnamen van hoge kwaliteit zijn. Kies een stemtalent die ervaring heeft met het maken van dit soort opnamen en laat ze opnemen door een opnametechnicus met professionele apparatuur.

Voordat u deze opnamen kunt maken, hebt u echter een script nodig: de woorden worden gesproken door uw stemtalent om de audiovoorbeelden te maken.

Veel kleine maar belangrijke details gaan over het maken van een professionele spraakopname. Deze handleiding is een roadmap voor een proces waarmee u goede, consistente resultaten krijgt.

Tips voor het voorbereiden van gegevens voor een spraak van hoge kwaliteit

Een zeer natuurlijke aangepaste neurale stem is afhankelijk van verschillende factoren, zoals de kwaliteit en grootte van uw trainingsgegevens.

De kwaliteit van uw trainingsgegevens is een primaire factor. Zo zijn in dezelfde trainingsset, consistent volume, spreeksnelheid, spreekhoogte en spreekstijl essentieel om een aangepaste neurale stem van hoge kwaliteit te maken. U moet ook achtergrondgeluiden in de opname voorkomen en ervoor zorgen dat het script en de opname overeenkomen. Om de kwaliteit van uw gegevens te waarborgen, moet u voldoen aan de criteria en vereisten voor het vastleggen van scripts.

Met betrekking tot de grootte van de trainingsgegevens kunt u in de meeste gevallen een redelijke aangepaste neurale stem bouwen met 500 utterances. Volgens onze tests verbetert het toevoegen van meer trainingsgegevens in de meeste talen niet noodzakelijkerwijs de natuurlijkheid van de stem zelf (getest met behulp van de MOS-score), maar met meer trainingsgegevens die betrekking hebben op meer woordexemplaren, hebt u een hogere mogelijkheid om de verhouding van ontevreden spraakonderdelen voor de stem te verminderen, zoals de glitches. Raadpleeg de GitHub-voorbeelden om te horen hoe ontevreden spraakonderdelen klinken.

In sommige gevallen wilt u mogelijk een spraakpersoon met unieke kenmerken. Een cartoon persona heeft bijvoorbeeld een stem nodig met een speciale spreekstijl of een stem die dynamisch intonatie is. Voor dergelijke gevallen raden we u aan ten minste 1000 uitingen (bij voorkeur 2000) voor te bereiden en op te nemen in een professionele opnamestudio. Zie de kenmerken en beperkingen voor het gebruik van aangepaste neurale spraak voor meer informatie over het verbeteren van de kwaliteit van uw spraakmodel.

Spraakopnamerollen

Er zijn vier basisrollen in een aangepast neurale spraakopnameproject:

Role	Doel
Spraaktalent	De stem van deze persoon vormt de basis van de aangepaste neurale stem.
Opnametechnicus	Houdt toezicht op de technische aspecten van de opname en beheert de opnameapparatuur.
Directeur	Bereidt het script voor en coacht de prestaties van het stemtalent.
Editor	Voltooit de audiobestanden en bereidt ze voor op uploaden naar Speech Studio

Een persoon kan meer dan één rol invullen. In deze handleiding wordt ervan uitgegaan dat u de rol van directeur vult en zowel een stemtalent als een opnametechnicus inhuurt. Als u de opnamen zelf wilt maken, bevat dit artikel enkele informatie over de rol opnametechnicus. De editorrol is pas nodig na de opnamesessie. Ondertussen kan de directeur of de opnametechnicus deze rol vervullen.

Kies uw stemtalent

Acteurs die ervaring hebben met voice-over, stempersagewerk, aankondigingen of nieuwslezing maken goed stemtalent. Kies stemtalent wiens natuurlijke stem u leuk vindt. Het is mogelijk om unieke karakterstemmen te maken, maar het is moeilijker voor het meeste talent om ze consistent uit te voeren en de inspanning kan spraakbelasting veroorzaken. De belangrijkste factor voor het kiezen van stemtalent is consistentie. Uw opnamen voor dezelfde stemstijl moeten allemaal klinken alsof ze op dezelfde dag in dezelfde ruimte zijn gemaakt. U kunt dit ideaal benaderen via goede opnameprocedures en engineering.

Uw stemtalent moeten kunnen spreken met consistente snelheid, volumeniveau, toonhoogte en toon met duidelijke dicteerfunctie. Ze moeten ook in staat zijn om hun toonhoogtevariatie, emotioneel effect en spraakmanieren te beheersen. Het opnemen van spraakvoorbeelden kan meer vetzinnig zijn dan andere soorten spraakwerk, dus de meeste stemtalenten kunnen slechts twee of drie uur per dag opnemen. Beperk sessies tot drie of vier dagen per week, met indien mogelijk een vrije dag.

Werk samen met uw stemtalent om een persona te ontwikkelen die de algehele geluids- en emotionele toon van de aangepaste neurale stem definieert. Definieer de spreekstijlen voor uw persona en vraag uw stemtalent om het script te lezen op een manier die overeenkomt met de gewenste stijlen. Zorg ervoor dat de spreekstijl consistent blijft gedurende de opnamen voor een set trainingsgegevens.

Een persona met een natuurlijke upbeat persoonlijkheid zou bijvoorbeeld een nota van optimistische stem bevatten. Deze persoonlijkheid moet echter consistent worden uitgedrukt in alle opnamen voor een set trainingsgegevens. Luister naar bestaande stemmen om een idee te krijgen van wat u zoekt.

Tip

Meestal wilt u de eigenaar zijn van de spraakopnamen die u maakt. Uw stemtalent moet geschikt zijn voor een werk-for-hire contract voor het project.

Een script maken

Het beginpunt van een aangepaste neurale spraakopnamesessie is het script, dat de uitingen bevat die door uw stemtalent moeten worden gesproken. De term 'utterances' omvat zowel volledige zinnen als kortere zinnen. Voor het bouwen van een aangepaste neurale stem zijn ten minste 300 opgenomen uitingen nodig als trainingsgegevens.

De uitingen in uw script kunnen overal vandaan komen: fictie, non-fictie, transcripties van speeches, nieuwsrapporten en alles wat er nog meer beschikbaar is in afgedrukte vorm. Zie de sectie Legalities voor een korte bespreking van mogelijke juridische kwesties. U kunt ook uw eigen tekst schrijven.

Uw uitingen hoeven niet afkomstig te zijn van dezelfde bron, hetzelfde soort bron of hebben iets met elkaar te maken. Als u echter setzinnen (bijvoorbeeld 'U bent aangemeld') gebruikt in uw spraaktoepassing, moet u deze opnemen in uw script. Het geeft uw aangepaste neurale stem een betere kans om deze zinnen goed aan te kondigen.

Het is raadzaam om de opnamescripts zowel algemene zinnen als domeinspecifieke zinnen te bevatten. Als u bijvoorbeeld van plan bent om 2.000 zinnen vast te leggen, kunnen 1.000 van deze zinnen algemene zinnen zijn, kunnen er nog 1000 zinnen uit uw doeldomein of het gebruiksvoorbeeld van uw toepassing zijn.

We bieden voorbeeldscripts in de domeinen 'Algemeen', 'Chat' en 'Klantenservice' voor elke taal om u te helpen uw opnamescripts voor te bereiden. U kunt deze gedeelde Microsoft-scripts voor uw opnamen rechtstreeks gebruiken of ze gebruiken als referentie om uw eigen scripts te maken.

Criteria voor scriptselectie

Hieronder vindt u enkele algemene richtlijnen die u kunt volgen om een goed corpus (opgenomen audiovoorbeelden) te maken voor aangepaste neurale spraaktraining.

Balanceer uw script om verschillende zinstypen in uw domein te behandelen, inclusief instructies, vragen, uitroeptekens, lange zinnen en korte zinnen.

Elke zin moet vier tot 30 woorden bevatten en er mogen geen dubbele zinnen worden opgenomen in uw script.
Raadpleeg de volgende tabel voor het verdelen van de verschillende zinstypen:

Zinstypen	Dekking
Instructiezinnen	Instructiezinnen moeten 70-80% van het script zijn.
Vraagzinnen	Vraagzinnen moeten ongeveer 10%-20% van uw domeinscript zijn, inclusief 5%-10% van stijgende en 5%-10% van de dalende tonen.
Uitroeptekens	Uitroeptekens moeten ongeveer 10%-20% van uw script zijn.
Kort woord/woordgroep	Korte woord-/woordgroepenscripts moeten ongeveer 10% van de totale uitingen zijn, met 5 tot 7 woorden per geval.

Notitie

Korte woorden/woordgroepen moeten worden gescheiden door komma's. Ze helpen je stemtalent eraan te herinneren om kort te pauzeren bij het lezen ervan.

Best practices zijn onder andere:

Evenwichtige dekking voor spraakonderdelen, zoals werkwoorden, zelfstandige naamwoorden, bijvoeglijke naamwoorden, enzovoort.
Evenwichtige dekking voor uitspraken. Neem alle letters van A tot Z op, zodat de tekst-naar-spraakengine leert hoe u elke letter in uw stijl uitspreekt.
Leesbare, begrijpelijke, veelvoorkomende scripts voor de spreker om te lezen.
Vermijd te veel vergelijkbare patronen voor woorden/woordgroepen, zoals 'eenvoudig' en 'eenvoudiger'.
Neem verschillende notaties van nummers op: adres, eenheid, telefoon, hoeveelheid, datum, enzovoort, in alle zinstypen.
Neem spellingzinnen op als dit iets is wat uw aangepaste neurale stem leest. Bijvoorbeeld: 'De spelling van Apple is A P L E'.

Plaats niet meerdere zinnen in één regel/één uiting. Scheid elke regel per uiting.
Zorg ervoor dat de zin schoon is. Over het algemeen moet u niet te veel niet-standaardwoorden, zoals getallen of afkortingen, niet opnemen omdat ze moeilijk te lezen zijn. Voor sommige toepassingen is mogelijk het lezen van veel getallen of acroniem nodig. In dergelijke gevallen kunt u deze woorden opnemen, maar ze normaliseren in hun gesproken vorm.

Hieronder volgen enkele aanbevolen procedures, bijvoorbeeld:
- Voor regels met afkortingen, in plaats van 'BTW', schrijft u 'trouwens'.
- Voor regels met cijfers, in plaats van '911', schrijft u 'negen één'.
- Voor lijnen met acroniemen, in plaats van 'ABC', schrijft u 'A B C'.
Zorg ervoor dat uw stemtalent deze woorden op een verwachte manier uitspreekt. Zorg ervoor dat uw script en opnamen overeenkomen tijdens het trainingsproces.
Uw script moet veel verschillende woorden en zinnen bevatten met verschillende soorten zinlengten, structuren en stemmingen.
Controleer het script zorgvuldig op fouten. Laat iemand anders het indien mogelijk ook controleren. Wanneer u het script uitvoert met uw stemtalent, kunt u meer fouten vangen.

Verschil tussen spraaktalentscript en trainingsscript

Het trainingsscript kan verschillen van het script voor spraaktalent, met name voor scripts die cijfers, symbolen, afkortingen, datum en tijd bevatten. Scripts die zijn voorbereid voor het spraaktalent moeten systeemeigen leesconventies volgen, zoals 50% en $ 45. De scripts die voor de training worden gebruikt, moeten worden genormaliseerd om overeen te komen met de audio-opname, zoals vijftig procent en veertig dollar.

Notitie

We bieden enkele voorbeeldscripts voor het spraaktalent op GitHub. Als u de voorbeeldscripts voor training wilt gebruiken, moet u ze normaliseren op basis van de opnamen van uw stemtalent voordat u het bestand uploadt.

In de volgende tabel ziet u het verschil tussen scripts voor spraaktalent en het genormaliseerde script voor training.

Categorie	Voorbeeld van spraaktalentscript	Voorbeeld van trainingsscript (genormaliseerd)
Cijfers	123	honderd en drieëntwintig
Symbolen	50%	vijftig procent
Afkorting	ZSM	Zo snel mogelijk
Datum en tijd	3 maart om 17:00 uur	Derde maart om vijf uur

Typische defecten van een script

De slechte kwaliteit van het script kan de trainingsresultaten nadelig beïnvloeden. Om hoogwaardige trainingsresultaten te behalen, is het van cruciaal belang om defecten te voorkomen.

Scriptfouten vallen over het algemeen in de volgende categorieën:

Categorie	Opmerking
Betekenisloze inhoud.	"Kleurloze groene ideeën slapen woedend."
Onvolledige zinnen.	- "Dit was mijn laatste vooravond" (geen onderwerp, geen specifieke betekenis) - "Ze zijn al grappig (geen aanhalingsteken aanhalingsteken, het is geen volledige zin)
Typ in de zinnen.	- Begin met een kleine letter - Geen einde interpunctie indien nodig -Spelfout - Gebrek aan interpunctie: geen punt aan het einde (behalve nieuwstitel) - Eindigen met symbolen, behalve komma, vraag, uitroepteken - Verkeerde indeling, zoals: - 45$ (moet $ 45 zijn) - Geen spatie of overtollige spatie tussen woord/interpunctie
Duplicatie in vergelijkbare indeling, één per patroon is voldoende.	- "Nu is 13:00 uur in New York" - "Nu is 2:00 uur in New York" - "Nu is 15:00 uur in New York" - "Nu is 13:00 uur in Seattle" - "Nu is 13:00 uur in Washington D.C."
Ongebruikelijke vreemde woorden: alleen veelgebruikte vreemde woorden zijn acceptabel in het script.	In het Engels kan men het Franse woord "faux" in gemeenschappelijke spraak gebruiken, maar een Franse uitdrukking zoals "coincer la bulle" zou ongebruikelijk zijn.
Emoji of andere ongebruikelijke symbolen

Scriptindeling

Het script is bedoeld voor gebruik tijdens opnamesessies, zodat u het op elke manier kunt instellen waarmee u gemakkelijk kunt werken. Maak het tekstbestand dat afzonderlijk door Speech Studio is vereist.

Een eenvoudige scriptindeling bevat drie kolommen:

Het nummer van de uiting, beginnend bij 1. Nummering maakt het voor iedereen in de studio gemakkelijk om te verwijzen naar een bepaalde uiting ('laten we nummer 356 opnieuw proberen'). U kunt de functie alineanummering van Microsoft Word gebruiken om de rijen van de tabel automatisch te nummeren.
Een lege kolom waarin u het aantal of de tijdcode van elke utterance schrijft, zodat u deze in de voltooide opname kunt vinden.
De tekst van de uiting zelf.

Voorbeeldscript

Notitie

De meeste studio's nemen op in korte segmenten die bekend staat als 'takes'. Elke take bevat doorgaans 10 tot 24 utterances. U hoeft alleen maar te noteren dat het take-nummer voldoende is om later een uiting te vinden. Als u opneemt in een studio die liever langere opnamen maakt, moet u in plaats daarvan de tijdcode noteren. De studio heeft een prominente tijdweergave.

Laat na elke rij voldoende ruimte over om notities te schrijven. Zorg ervoor dat er geen uiting tussen pagina's is verdeeld. Nummer de pagina's en druk het script af aan één kant van het papier.

Druk drie exemplaren van het script af: één voor het stemtalent, één voor de opnametechnicus en één voor de regisseur (u). Gebruik een paperclip in plaats van nietjes: een ervaren spraakkunstenaar scheidt de pagina's om ruis te voorkomen wanneer de pagina's worden omgedraaid.

Voice talent statement

Als u een neurale stem wilt trainen, moet u een spraaktalentprofiel maken met een audiobestand dat is opgenomen door de stemtalent die toestemming geven voor het gebruik van hun spraakgegevens om een aangepast spraakmodel te trainen. Zorg er bij het voorbereiden van het opnamescript voor dat u de instructiezin opneemt.

Wettigheid

Op grond van het auteursrecht kan het lezen van auteursrechtelijke tekst een prestatie zijn waarvoor de auteur van het werk moet worden gecompenseerd. Deze prestaties zijn niet herkenbaar in het eindproduct, de aangepaste neurale stem. Toch is de wettigheid van het gebruik van auteursrechtelijk beschermd werk voor dit doel niet goed tot stand gebracht. Microsoft kan geen juridisch advies geven over dit probleem; neem contact op met uw eigen juridische raadsman.

Gelukkig is het mogelijk om deze problemen volledig te voorkomen. Er zijn veel bronnen met tekst die u zonder toestemming of licentie kunt gebruiken.

Tekstbron	Beschrijving
CMU Arctic corpus	Ongeveer 1100 zinnen geselecteerd uit niet-auteursrechtelijke werken specifiek voor gebruik in spraaksyntheseprojecten. Een uitstekend startpunt.
Werkt niet meer onder copyright	Werkt doorgaans vóór 1923. Voor het Engels biedt Project Gutenberg tienduizenden van dergelijke werken aan. Misschien wilt u zich richten op nieuwere werken, omdat de taal dichter bij het moderne Engels ligt.
Overheid werkt	Werken die door de Verenigde Staten overheid worden gemaakt, vallen niet onder het auteursrecht van de Verenigde Staten, hoewel de overheid auteursrecht in andere landen/regio's kan claimen.
Openbaar domein	Werkt waarvoor copyright expliciet wordt afgewezen of toegewezen aan het openbare domein. Het is in sommige jurisdicties mogelijk niet mogelijk om het auteursrecht volledig af te zien.
Permissief gelicentieerde werken	Werkt gedistribueerd onder een licentie zoals Creative Commons of de GNU Free Documentation License (GFDL). Wikipedia maakt gebruik van de GFDL. Sommige licenties kunnen echter beperkingen opleggen voor de prestaties van de gelicentieerde inhoud die van invloed kunnen zijn op het maken van een aangepast neurale spraakmodel, dus lees de licentie zorgvuldig.

Uw script opnemen

Neem uw script op in een professionele opnamestudio die gespecialiseerd is in spraakwerk. Ze hebben een opnamecabine, de juiste apparatuur en de juiste mensen om het te bedienen. Het is raadzaam om niet te overslaan bij het opnemen.

Bespreek uw project met de opnametechnicus van de studio en luister naar hun advies. De opname moet weinig of geen dynamische bereikcompressie hebben (maximaal 4:1). Het is essentieel dat de audio consistent volume en een hoge signaal-naar-ruis-verhouding heeft, terwijl het geen ongewenste geluiden bevat.

Opnamevereisten

Volg de volgende vereisten tijdens het vastleggen of voorbereiden van gegevens om hoogwaardige trainingsresultaten te behalen:

Helder en goed uitgesproken
Natuurlijke snelheid: niet te langzaam of te snel tussen audiobestanden.
Geschikt volume, prosody en onderbreking: stabiel binnen dezelfde zin of tussen zinnen, juiste onderbreking voor interpunctie.
Geen ruis tijdens de opname
Aanpassen aan uw persona-ontwerp
Geen verkeerde accent: passend bij het doelontwerp
Geen verkeerde uitspraak

U kunt de onderstaande specificatie raadplegen om de audiovoorbeelden voor te bereiden als best practice.

Eigenschappen	Weergegeven als
File format	*.wav, Mono
Bemonsteringsfrequentie	24 KHz
Sample-indeling	16-bits, PCM
Piekvolumeniveaus	-3 dB tot -6 dB
SNR	> 35 dB
Geluid dempen	- Er moet enige stilte (aanbevelen 100 ms) aan het begin en einde, maar niet langer dan 200 ms - Stilte tussen woorden of woordgroepen < -30 dB - Stilte in de golf na laatste woord wordt gesproken <-60 dB
Omgevingsruis of echo	- Het ruisniveau aan het begin van de golf voordat u -70 dB spreekt <

Notitie

U kunt opnemen met een hogere samplingsnelheid en bitdiepte, bijvoorbeeld in de indeling van 48 KHz 24-bits PCM. Tijdens de aangepaste neurale spraaktraining nemen we het automatisch op tot 24 KHz 16-bits PCM.

Een hogere signaal-naar-ruisverhouding (SNR) geeft lagere ruis in uw audio aan. U kunt doorgaans een 35+ SNR bereiken door op te nemen in professionele studio's. Audio met een SNR onder de 20 kan leiden tot duidelijke ruis in uw gegenereerde stem.

Overweeg om utterances met lage uitspraakscores of slechte signaal-naar-ruis-verhoudingen opnieuw op te nemen. Als u deze uitingen niet opnieuw kunt opnemen, kunt u overwegen deze uitingen van uw gegevens uit te sluiten.

Typische audiofouten

Voor trainingsresultaten van hoge kwaliteit wordt het voorkomen van audiofouten ten zeerste aanbevolen. Audiofouten vallen meestal binnen de volgende categorieën:

De naam van het audiobestand komt niet overeen met de script-id.
WAR-bestand heeft een ongeldige indeling en kan niet worden gelezen.
Audiosampling is lager dan 16 KHz. Het wordt aanbevolen dat de .wav bestandssamplingsnelheid gelijk is aan of hoger is dan 24 KHz voor neurale spraak van hoge kwaliteit.
De piek van het volume ligt niet binnen het bereik van -3 dB (70% van het maximumvolume) tot -6 dB (50%).
Golfvormoverloop: de golfvorm wordt gesneden op de piekwaarde en is dus niet compleet.
De stille delen van de opname zijn niet schoon; u kunt geluiden horen zoals omgevingsgeluid, mondruis en echo.

De onderstaande audio bevat bijvoorbeeld de omgevingsruis tussen speeches.

Hieronder ziet u tekenen van dc-offset of echo.
Het totale volume is te laag. Uw gegevens worden gelabeld als een probleem als het volume lager is dan -18 dB (10% van het maximumvolume). Zorg ervoor dat alle audiobestanden consistent moeten zijn op hetzelfde volumeniveau.
Geen stilte voor het eerste woord of na het laatste woord. Ook mag de begin- of eindstilte niet langer zijn dan 200 ms of korter zijn dan 100 ms.

Doe het zelf

Als u de opname zelf wilt maken, in plaats van naar een opnamestudio te gaan, is hier een korte primer. Dankzij de opkomst van thuisopname en podcasting is het eenvoudiger dan ooit om goede opnameadvies en bronnen online te vinden.

Uw 'opnamecabine' moet een kleine ruimte zijn zonder merkbare echo of 'kamertoon'. Het moet zo rustig en geluidsdicht mogelijk zijn. Drapes op de muren kunnen worden gebruikt om echo en geneutraliseerd of "dood" het geluid van de kamer te verminderen.

Gebruik een hoogwaardige studiocondensatormicrofoon ('microfoon' kortom) die bedoeld is voor het opnemen van spraak. De microfoons van de Zoom, AKG en nog nieuwere zoomen kunnen goede resultaten opleveren. U kunt een microfoon kopen of een microfoon huren bij een lokaal audiovisual verhuurbedrijf. Zoek er een met een USB-interface. Dit type microfoon combineert het microfoonelement, de voorversterker en het analoog-naar-digitale conversieprogramma in één pakket, waardoor het koppelen wordt vereenvoudigd.

U kunt ook een analoge microfoon gebruiken. Veel verhuurhuizen bieden "vintage" microfoons die bekend staan om hun stem karakter. Professionele analoge versnelling maakt gebruik van evenwichtige XLR-connectors, in plaats van de 1/4-inch stekker die wordt gebruikt in consumentenapparatuur. Als u analoog gaat, hebt u ook een vooramp en een computeraudiointerface met deze connectors nodig.

Installeer de microfoon op een standaard of boom en installeer een popfilter voor de microfoon om ruis te elimineren van 'plosive' medeklinkers zoals 'p' en 'b'. Sommige microfoons worden geleverd met een ophangingsmontage waarmee ze worden geïsoleerd van trillingen in de standaard, wat handig is.

Het stemtalent moet op een consistente afstand van de microfoon blijven. Gebruik tape op de vloer om te markeren waar ze moeten staan. Als het talent liever zit, moet u speciale zorg dragen voor het bewaken van microfoonafstand en het vermijden van stoelgeluiden.

Gebruik een stand om het script vast te houden. Vermijd het angken van de stand, zodat het geluid naar de microfoon kan worden gespiegeld.

De persoon die de opnameapparatuur gebruikt ( de opnametechnicus) moet zich in een aparte ruimte bevinden van het talent, met een of andere manier om met het talent in de opnamecabine te praten (een talkbackcircuit).

De opname moet zo weinig mogelijk ruis bevatten, met een doel van -80 dB.

Luister goed naar een opname van stilte in uw 'stand', zoek uit waar ruis vandaan komt en verwijder de oorzaak. Veelvoorkomende bronnen van lawaai zijn luchtopeningen, fluorescerende lichtballasten, verkeer op nabijgelegen wegen en apparatuurventilatoren (zelfs notebook-pc's kunnen ventilatoren hebben). Microfoons en kabels kunnen elektrische ruis uit de nabijgelegen ac bedrading oppikken, meestal een hum of buzz. Een buzz kan ook worden veroorzaakt door een grondlus, die wordt veroorzaakt door het aansluiten van apparatuur op meer dan één elektrisch circuit.

Tip

In sommige gevallen kunt u mogelijk een equalizer of een softwareinvoegtoepassing voor ruisreductie gebruiken om ruis uit uw opnamen te verwijderen, hoewel het altijd het beste is om het te stoppen bij de bron.

Stel niveaus in zodat het grootste deel van het beschikbare dynamische bereik van digitale opnamen wordt gebruikt zonder te veel te worden afgeleid. Dat betekent dat de audio luid wordt ingesteld, maar niet zo luid dat het vervormd wordt. Een voorbeeld van de golfvorm van een goede opname wordt weergegeven in de volgende afbeelding:

Een goede opnamegolfvorm

Hier wordt het grootste deel van het bereik (hoogte) gebruikt, maar de hoogste pieken van het signaal bereiken niet de boven- of onderkant van het venster. U kunt ook zien dat de stilte in de opname bij benadering een dunne horizontale lijn aangeeft, wat een lage ruisvloer aangeeft. Deze opname heeft een acceptabel dynamisch bereik en een signaal-tot-ruisverhouding.

Neem rechtstreeks op de computer op via een audiointerface van hoge kwaliteit of een USB-poort, afhankelijk van de microfoon die u gebruikt. Voor analoog houdt u de audioketen eenvoudig: microfoon, vooramp, audio-interface, computer. U kunt zowel Avid Pro Tools als Adobe Audition maandelijks licenties toewijzen tegen een redelijke prijs. Als uw budget extreem krap is, kunt u de gratis Audacity proberen.

Neem op bij 44,1 KHz 16-bits monofonische (CD-kwaliteit) of beter. De huidige state-of-the-art is 48 KHz 24-bits, als uw apparatuur dit ondersteunt. U neemt een down-sample van uw audio naar 24 KHz 16-bits voordat u deze naar Speech Studio verzendt. Toch betaalt het om een originele opname van hoge kwaliteit te hebben in het geval dat bewerkingen nodig zijn.

Idealiter hebben verschillende mensen de rol van directeur, technicus en talent. Probeer het niet allemaal zelf te doen. In een knijp kan één persoon zowel de directeur als de technicus zijn.

Vóór de sessie

Om het verspillen van studiotijd te voorkomen, voert u het script uit met uw stemtalent voordat de opnamesessie begint. Terwijl het stemtalent bekend raakt met de tekst, kunnen ze de uitspraak van onbekende woorden verduidelijken.

Notitie

De meeste opnamestudio's bieden elektronische weergave van scripts in de opnamecabine. Typ in dit geval uw doorloopnotities rechtstreeks in het document van het script. U wilt echter nog steeds een papieren kopie maken om notities te maken tijdens de sessie. De meeste technici willen ook een harde kopie. En u wilt nog steeds een derde afgedrukte kopie als back-up voor het talent voor het geval de computer niet beschikbaar is.

Uw stemtalent kan vragen welk woord u wilt benadrukken in een uiting (het "operatieve woord"). Vertel hen dat u een natuurlijke lezing wilt zonder specifieke nadruk. Nadruk kan worden toegevoegd wanneer spraak wordt gesynthetiseerd; het mag geen deel uitmaken van de oorspronkelijke opname.

Het talent om woorden duidelijk uit te spreken. Elk woord van het script moet worden uitgesproken als geschreven. Geluiden mogen niet samen worden weggelaten of samengesleten, zoals gebruikelijk is in informele spraak, tenzij ze op die manier in het script zijn geschreven.

Geschreven tekst	Ongewenste ongedwongen uitspraak
geef je nooit op	geef je nooit op
er zijn vier lichten	er zijn vier lichten
hoe is het weer vandaag?	hoe is het weer vandaag?
Hallo zeggen tegen mijn kleine vriend	zeg hallo tegen mijn lil'-vriend

Het talent mag geen afzonderlijke pauzes tussen woorden toevoegen. De zin moet natuurlijk blijven stromen, zelfs als het een beetje formeel klinkt. Dit fijne onderscheid kan oefenen om goed te komen.

De opnamesessie

Maak een verwijzingsopname of overeenkomstbestand van een typische uiting aan het begin van de sessie. Vraag het talent om deze regel elke pagina of zo te herhalen. Vergelijk elke keer de nieuwe opname met de verwijzing. Deze praktijk helpt het talent consistent te blijven in volume, tempo, pitch en intonatie. Ondertussen kan de technicus het matchbestand gebruiken als referentie voor niveaus en algemene consistentie van geluid.

Het overeenkomende bestand is vooral belangrijk wanneer u de opname hervat na een onderbreking of op een andere dag. Speel het een paar keer voor het talent en laat ze het elke keer herhalen totdat ze goed overeenkomen.

Als u een corpus wilt opnemen met een specifieke stijl, kiest u zorgvuldig scripts die de gewenste stijl laten zien. Zorg er tijdens het opnemen voor dat het spraaktalent consistent blijft in volume, tempo, toonhoogte en toon om opnamen te maken die de beoogde stijl beslaan.

Coach je talent om diep adem te halen en even te pauzeren voor elke uiting. Noteer een paar seconden stilte tussen utterances. Woorden moeten op dezelfde manier worden uitgesproken wanneer ze worden weergegeven, rekening houdend met context. 'record' als werkwoord wordt bijvoorbeeld anders uitgesproken dan 'record' als zelfstandig naamwoord.

Neem ongeveer vijf seconden stilte op voordat de eerste opname de 'ruimtetoon' vastlegt. Deze oefening helpt Speech Studio om ruis in de opnamen te compenseren.

Tip

Alles wat u moet vastleggen is het stemtalent, zodat u een monofonische (single-channel) opname van alleen hun lijnen kunt maken. Als u echter in stereo opneemt, kunt u het tweede kanaal gebruiken om de chatter op te nemen in de controleruimte om de discussie over bepaalde lijnen vast te leggen of te nemen. Verwijder dit nummer uit de versie die is geüpload naar Speech Studio.

Luister goed, met behulp van een hoofdtelefoon, naar de prestaties van het stemtalent. Je bent op zoek naar goede maar natuurlijke woorden, juiste uitspraak en een gebrek aan ongewenste geluiden. Aarzel niet om uw talent te vragen een uiting opnieuw op te nemen die niet aan deze normen voldoet.

Tip

Als u een groot aantal uitingen gebruikt, heeft één uiting mogelijk geen merkbaar effect op de resulterende aangepaste neurale stem. Het kan handiger zijn om utterances met problemen te noteren, deze uit te sluiten van uw gegevensset en te zien hoe uw aangepaste neurale stem blijkt. U kunt altijd teruggaan naar de studio en de gemiste voorbeelden later opnemen.

Noteer het aantal of de tijdcode in uw script voor elke uiting. Vraag de technicus ook om elke uiting in het metagegevens- of cue-blad van de opname te markeren.

Neem regelmatig pauzes en geef een drankje om uw stemtalent te helpen hun stem in goede vorm te houden.

Na de sessie

Moderne opnamestudio's worden uitgevoerd op computers. Aan het einde van de sessie ontvangt u een of meer audiobestanden, geen tape. Deze bestanden zijn waarschijnlijk WAV- of AIFF-indeling in CD-kwaliteit (44,1 KHz 16-bits) of beter. 24 KHz 16-bits is gebruikelijk en wenselijk. De standaardsamplingfrequentie voor een aangepaste neurale stem is 24 KHz. Het is raadzaam om een steekproeffrequentie van 24 KHz en hoger te gebruiken voor uw trainingsgegevens. Hogere steekproeven, zoals 96 KHz, zijn meestal niet nodig.

Voor Speech Studio moet elke utterance zich in een eigen bestand hebben. Elk audiobestand dat door de studio wordt geleverd, bevat meerdere utterances. De primaire postproductietaak is dus om de opnamen op te splitsen en voor te bereiden op indiening. De opnametechnicus heeft mogelijk markeringen in het bestand geplaatst (of een apart cue-blad opgegeven) om aan te geven waar elke uiting begint.

Gebruik uw notities om de exacte gewenste stappen te vinden en gebruik vervolgens een hulpprogramma voor geluidsbewerking, zoals Avid Pro Tools, Adobe Audition of de gratis Audacity, om elke uiting naar een nieuw bestand te kopiëren.

Luister zorgvuldig naar elk bestand. In dit stadium kunt u kleine ongewenste geluiden die u tijdens de opname hebt gemist, bewerken, zoals een lichte lip-smack vóór een lijn, maar wees voorzichtig met het verwijderen van echte spraak. Als u een bestand niet kunt herstellen, verwijdert u het uit uw gegevensset en ziet u dat u dit hebt gedaan.

Converteer elk bestand naar 16 bits en een steekproefsnelheid van 24 KHz en hoger voordat u opslaat en als u de studiochatter hebt opgenomen, verwijdert u het tweede kanaal. Sla elk bestand op in WAV-indeling en geef de bestanden een naam met het utterancenummer van uw script.

Maak ten slotte het transcript dat elk WAV-bestand koppelt aan een tekstversie van de bijbehorende utterance. Train uw spraakmodel met details van de vereiste indeling. U kunt de tekst rechtstreeks vanuit uw script kopiëren. Maak vervolgens een Zip-bestand van de WAV-bestanden en het transcriptie.

Archiveer de oorspronkelijke opnamen op een veilige plaats voor het geval u ze later nodig hebt. Bewaar ook uw script en notities.

Volgende stappen

U bent klaar om uw opnamen te uploaden en uw aangepaste neurale stem te maken.

Uw spraakmodel trainen

Delen via

Spraakvoorbeelden opnemen voor aangepaste neurale spraak

Tips voor het voorbereiden van gegevens voor een spraak van hoge kwaliteit

Spraakopnamerollen

Kies uw stemtalent

Een script maken

Criteria voor scriptselectie

Verschil tussen spraaktalentscript en trainingsscript

Typische defecten van een script

Scriptindeling

Voice talent statement

Wettigheid

Uw script opnemen

Opnamevereisten

Typische audiofouten

Doe het zelf

Vóór de sessie

De opnamesessie

Na de sessie

Volgende stappen

Feedback

Aanvullende resources