Trainingsgegevens voor aangepaste neurale spraak

Artikel
09/29/2024

Wanneer u klaar bent om een aangepaste tekst-naar-spraak voor uw toepassing te maken, is de eerste stap het verzamelen van audio-opnamen en bijbehorende scripts om het spraakmodel te trainen. De Speech-service gebruikt deze gegevens om een unieke stem te maken die overeenkomt met de stem in de opnamen. Nadat u de stem hebt getraind, kunt u beginnen met het omzetten van spraak in uw toepassingen.

Tip

Als u een stem wilt maken voor productiegebruik, raden we u aan een professionele opnamestudio en spraaktalent te gebruiken. Zie Spraakvoorbeelden opnemen om een aangepaste neurale stem te maken voor meer informatie.

Typen trainingsgegevens

Een gegevensset voor spraaktraining bevat audio-opnamen en een tekstbestand met de bijbehorende transcripties. Elk audiobestand moet één uiting (één zin of één draai voor een dialoogvenstersysteem) bevatten en minder dan 15 seconden lang zijn.

In sommige gevallen hebt u mogelijk niet de juiste gegevensset gereed. U kunt de aangepaste neurale spraaktraining testen met beschikbare audiobestanden, kort of lang, met of zonder transcripties.

Deze tabel bevat gegevenstypen en hoe elk wordt gebruikt om een aangepast tekst-naar-spraakmodel te maken.

Gegevenstype	Beschrijving	Gebruik	Extra verwerking vereist
Afzonderlijke uitingen + overeenkomende transcriptie	Een verzameling (.zip) audiobestanden (.wav) als afzonderlijke uitingen. Elk audiobestand moet 15 seconden of minder lang zijn, gekoppeld aan een opgemaakt transcript (.txt).	Professionele opnamen met overeenkomende transcripties	Klaar voor training.
Lange audio en transcriptie	Een verzameling (.zip) lange, niet-gesegmenteerde audiobestanden (.wav of .mp3, langer dan 20 seconden, maximaal 1000 audiobestanden), gekoppeld aan een verzameling (.zip) transcripties die alle gesproken woorden bevatten.	U hebt audiobestanden en overeenkomende transcripties, maar ze worden niet gesegmenteerd in uitingen.	Segmentatie (met behulp van batchtranscriptie). Transformatie van audio-indeling waar nodig.
Alleen audio (preview)	Een verzameling (.zip) audiobestanden (.wav of .mp3, maximaal 1000 audiobestanden) zonder transcriptie.	U hebt alleen audiobestanden beschikbaar, zonder transcripties.	Segmentatie + transcriptie genereren (met behulp van batchtranscriptie). Transformatie van audio-indeling waar nodig.

Bestanden moeten worden gegroepeerd op type in een gegevensset en als zip-bestand worden geüpload. Elke gegevensset kan slechts één gegevenstype bevatten.

Notitie

Het maximum aantal gegevenssets dat per abonnement mag worden geïmporteerd, is 500 zip-bestanden voor standaardgebruikers van abonnementen (S0).

Afzonderlijke uitingen + overeenkomende transcriptie

U kunt opnamen van afzonderlijke uitingen en het overeenkomende transcript op twee manieren voorbereiden. Schrijf een script en laat het lezen door een stemtalent of gebruik openbaar beschikbare audio en transcribeer het naar tekst. Als u dit laatste doet, bewerkt u disfluenties uit de audiobestanden, zoals 'um' en andere fillergeluiden, stutters, gemopperde woorden of mispronuncties.

Als u een goed spraakmodel wilt produceren, maakt u de opnamen in een rustige ruimte met een microfoon van hoge kwaliteit. Consistent volume, spreeksnelheid, spreekhoogte en expressieve manieren van spraak zijn essentieel.

Raadpleeg de voorbeeldtrainingsset op GitHub voor voorbeelden van gegevensindelingen. De voorbeeldtrainingsset bevat het voorbeeldscript en de bijbehorende audio.

Audiogegevens voor afzonderlijke utterances + overeenkomende transcriptie

Elk audiobestand moet één uiting (één zin of één draai van een dialoogvenstersysteem) bevatten, minder dan 15 seconden lang. Alle bestanden moeten zich in dezelfde gesproken taal bevinden. Aangepaste tekst-naar-spraakstemmen in meerdere talen worden niet ondersteund, met uitzondering van het Chinees-Engels bi-lingual. Elk audiobestand moet een unieke bestandsnaam hebben met de bestandsnaamextensie .wav.

Volg deze richtlijnen bij het voorbereiden van audio.

Eigenschappen	Weergegeven als
File format	RIFF (.wav), gegroepeerd in een .zip-bestand
Bestandsnaam	Bestandsnaamtekens die worden ondersteund door het Windows-besturingssysteem, met .wav extensie. De tekens `\ / : * ? " < > \\|` zijn niet toegestaan. Het kan niet beginnen of eindigen met een spatie en kan niet beginnen met een punt. Er zijn geen dubbele bestandsnamen toegestaan.
Bemonsteringsfrequentie	Wanneer u een aangepaste neurale spraak maakt, is 24.000 Hz vereist.
Sample-indeling	PCM, ten minste 16-bits
Audiolengte	Korter dan 15 seconden
Archiefindeling	.zip
Maximale archiefgrootte	2048 MB

Notitie

De standaardsamplingfrequentie voor een aangepaste neurale stem is 24.000 Hz. Audiobestanden met een samplingfrequentie lager dan 16.000 Hz worden geweigerd. Als een .zip bestand .wav bestanden met verschillende steekproefsnelheden bevat, worden alleen bestanden geïmporteerd die gelijk zijn aan of hoger zijn dan 16.000 Hz. Uw audiobestanden met een steekproefsnelheid die hoger is dan 16.000 Hz en lager dan 24.000 Hz, worden naar 24.000 Hz gesampleerd om een neurale stem te trainen. Het is raadzaam om een steekproeffrequentie van 24.000 Hz te gebruiken voor uw trainingsgegevens.

Transcriptiegegevens voor afzonderlijke utterances + overeenkomende transcriptie

Het transcriptiebestand is een tekstbestand zonder opmaak. Gebruik deze richtlijnen om uw transcripties voor te bereiden.

Eigenschappen	Weergegeven als
File format	Tekst zonder opmaak (.txt)
Coderingsindeling	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE of UTF-16-BE. Voor zh-CN worden ANSI- en ASCII-codering niet ondersteund.
Aantal utterances per regel	Eén : elke regel van het transcriptiebestand moet de naam van een van de audiobestanden bevatten, gevolgd door de bijbehorende transcriptie. U moet een tabblad (\t) gebruiken om de bestandsnaam en transcriptie te scheiden.
Maximale bestandsgrootte	2048 MB

Hier volgt een voorbeeld van hoe de transcripties zijn geordend op utterance in één .txt bestand:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Het is belangrijk dat de transcripties 100% nauwkeurige transcripties van de bijbehorende audio zijn. Fouten in de transcripties veroorzaken kwaliteitsverlies tijdens de training.

Lange audio en transcriptie (preview)

Notitie

Voor Lange audio + transcriptie (preview), worden alleen deze talen ondersteund: Chinees (Mandarijn, Vereenvoudigd), Engels (Verenigd Koninkrijk), Engels (Verenigde Staten), Frans (Frankrijk), Duits (Duitsland), Italiaans (Italië), Japans (Japan), Portugees (Brazilië) en Spaans (Mexico).

In sommige gevallen hebt u mogelijk geen gesegmenteerde audio beschikbaar. Met Speech Studio kunt u lange audiobestanden segmenteren en transcripties maken. De service voor lange audiosegmentatie maakt gebruik van de batchtranscriptie-API-functie van spraak-naar-tekst.

Tijdens de verwerking van de segmentatie worden uw audiobestanden en transcripties ook verzonden naar de aangepaste spraakservice om het herkenningsmodel te verfijnen, zodat de nauwkeurigheid voor uw gegevens kan worden verbeterd. Er worden tijdens dit proces geen gegevens bewaard. Nadat de segmentatie is voltooid, worden alleen de uitingen gesegmenteerd en hun toewijzingtranscripties opgeslagen voor uw download en training.

Notitie

Deze service wordt in rekening gebracht voor het gebruik van uw spraak-naar-tekstabonnement. De service voor lange audiosegmentatie wordt alleen ondersteund met standaard spraakresources (S0).

Audiogegevens voor lange audio en transcriptie

Volg deze richtlijnen bij het voorbereiden van audio voor segmentatie.

Eigenschappen	Weergegeven als
File format	RIFF (.wav) of .mp3, gegroepeerd in een .zip-bestand
Bestandsnaam	Bestandsnaamtekens die worden ondersteund door het Windows-besturingssysteem, met .wav extensie. De tekens `\ / : * ? " < > \\|` zijn niet toegestaan. Het kan niet beginnen of eindigen met een spatie en kan niet beginnen met een punt. Er zijn geen dubbele bestandsnamen toegestaan.
Bemonsteringsfrequentie	Wanneer u een aangepaste neurale spraak maakt, is 24.000 Hz vereist.
Sample-indeling	RIFF(.wav): PCM, ten minste 16-bits. mp3: Minimaal 256 KBps-bitsnelheid.
Audiolengte	Langer dan 20 seconden
Archiefindeling	.zip
Maximale archiefgrootte	2048 MB, maximaal 1000 audiobestanden inbegrepen

Notitie

De standaardsamplingfrequentie voor een aangepaste neurale stem is 24.000 Hz. Audiobestanden met een samplingfrequentie lager dan 16.000 Hz worden geweigerd. Uw audiobestanden met een steekproefsnelheid die hoger is dan 16.000 Hz en lager dan 24.000 Hz, worden naar 24.000 Hz gesampleerd om een neurale stem te trainen. Het is raadzaam om een steekproeffrequentie van 24.000 Hz te gebruiken voor uw trainingsgegevens.

Alle audiobestanden moeten worden gegroepeerd in een zip-bestand. Het is oké om .wav bestanden en .mp3 bestanden in hetzelfde ZIP-bestand te plaatsen. U kunt bijvoorbeeld een audiobestand van 45 seconden uploaden met de naam 'kingstory.wav' en een lang audiobestand van 200 seconden met de naam 'queenstory.mp3' in hetzelfde zip-bestand. Alle .mp3 bestanden worden na verwerking omgezet in de .wav-indeling.

Transcriptiegegevens voor lange audio en transcriptie

Transcripties moeten worden voorbereid op de specificaties die in deze tabel worden vermeld. Elk audiobestand moet overeenkomen met een transcriptie.

Eigenschappen	Weergegeven als
File format	Tekst zonder opmaak (.txt), gegroepeerd in een .zip
Bestandsnaam	Gebruik dezelfde naam als het overeenkomende audiobestand
Coderingsindeling	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE of UTF-16-BE. Voor zh-CN worden ANSI- en ASCII-codering niet ondersteund.
Aantal utterances per regel	Geen limiet
Maximale bestandsgrootte	2048 MB

Alle transcripties van bestanden in dit gegevenstype moeten worden gegroepeerd in een zip-bestand. U kunt bijvoorbeeld een audiobestand van 45 seconden uploaden met de naam 'kingstory.wav' en een lang audiobestand van 200 seconden met de naam 'queenstory.mp3' in hetzelfde zip-bestand. U moet een ander zip-bestand met de bijbehorende twee transcripties uploaden, één met de naam 'kingstory.txt' en de andere met de naam 'queenstory.txt'. Binnen elk tekstbestand zonder opmaak geeft u de volledige juiste transcriptie op voor de overeenkomende audio.

Nadat uw gegevensset is geüpload, helpen we u het audiobestand te segmenteren in uitingen op basis van de opgegeven transcriptie. U kunt de gesegmenteerde uitingen en de overeenkomende transcripties controleren door de gegevensset te downloaden. Unieke id's worden automatisch toegewezen aan de gesegmenteerde utterances. Het is belangrijk dat u ervoor zorgt dat de transcripties die u opgeeft 100% nauwkeurig zijn. Fouten in de transcripties kunnen de nauwkeurigheid tijdens de audiosegmentatie verminderen en verder kwaliteitsverlies veroorzaken in de trainingsfase die later komt.

Alleen audio (preview)

Notitie

Alleen voor audio (preview)worden alleen deze talen ondersteund: Chinees (Mandarijn, Vereenvoudigd), Engels (India), Engels (Verenigd Koninkrijk), Engels (Verenigde Staten), Frans (Frankrijk), Duits (Duitsland), Italiaans (Italië), Japans (Japan), Portugees (Brazilië) en Spaans (Mexico).

Als u geen transcripties voor uw audio-opnamen hebt, gebruikt u de optie Alleen audio om uw gegevens te uploaden. Ons systeem kan u helpen uw audiobestanden te segmenteren en te transcriberen. Houd er rekening mee dat deze service in rekening wordt gebracht voor het gebruik van uw spraak-naar-tekstabonnement.

Volg deze richtlijnen bij het voorbereiden van audio.

Notitie

De service voor lange audiosegmentatie maakt gebruik van de batchtranscriptiefunctie van spraak-naar-tekst, die alleen ondersteuning biedt voor standaardabonnementsgebruikers (S0).

Eigenschappen	Weergegeven als
File format	RIFF (.wav) of .mp3, gegroepeerd in een .zip-bestand
Bestandsnaam	Bestandsnaamtekens die worden ondersteund door het Windows-besturingssysteem, met .wav extensie. De tekens `\ / : * ? " < > \\|` zijn niet toegestaan. Het kan niet beginnen of eindigen met een spatie en kan niet beginnen met een punt. Er zijn geen dubbele bestandsnamen toegestaan.
Bemonsteringsfrequentie	Wanneer u een aangepaste neurale spraak maakt, is 24.000 Hz vereist.
Sample-indeling	RIFF(.wav): PCM, ten minste 16-bits mp3: Minimaal 256 KBps-bitsnelheid.
Audiolengte	Geen limiet
Archiefindeling	.zip
Maximale archiefgrootte	2048 MB, maximaal 1000 audiobestanden inbegrepen

Notitie

De standaardsamplingfrequentie voor een aangepaste neurale stem is 24.000 Hz. Uw audiobestanden met een steekproefsnelheid die hoger is dan 16.000 Hz en lager dan 24.000 Hz, worden naar 24.000 Hz gesampleerd om een neurale stem te trainen. Het is raadzaam om een steekproeffrequentie van 24.000 Hz te gebruiken voor uw trainingsgegevens.

Alle audiobestanden moeten worden gegroepeerd in een zip-bestand. Zodra uw gegevensset is geüpload, helpt de Speech-service u het audiobestand te segmenteren in utterances op basis van onze spraakbatchtranscriptieservice. Unieke id's worden automatisch toegewezen aan de gesegmenteerde utterances. Overeenkomende transcripties worden gegenereerd via spraakherkenning. Alle .mp3 bestanden worden na verwerking omgezet in de .wav-indeling. U kunt de gesegmenteerde uitingen en de overeenkomende transcripties controleren door de gegevensset te downloaden.

Delen via

Trainingsgegevens voor aangepaste neurale spraak

Typen trainingsgegevens

Afzonderlijke uitingen + overeenkomende transcriptie

Audiogegevens voor afzonderlijke utterances + overeenkomende transcriptie

Transcriptiegegevens voor afzonderlijke utterances + overeenkomende transcriptie

Lange audio en transcriptie (preview)

Audiogegevens voor lange audio en transcriptie

Transcriptiegegevens voor lange audio en transcriptie

Alleen audio (preview)

Volgende stappen

Feedback

Aanvullende resources