Anpassad neural röstlitter (förhandsversion)

Artikel
03/10/2025

Azure AI Speech tillhandahåller två anpassade cnv-projekttyper (neural röst): CNV lite och CNV Professional.

Med anpassad neural röst (CNV) kan du ladda upp dina träningsdata som samlats in via professionella inspelningsstudior och skapa en röst av högre kvalitet som nästan inte kan skiljas från dess mänskliga exempel. CNV-professionell åtkomst är begränsad baserat på berättigande- och användningskriterier. Begär åtkomst i intagsformuläret.
Anpassad neural röst (CNV) lite är en projekttyp i offentlig förhandsversion. Du kan demonstrera och utvärdera anpassad neural röst innan du investerar i professionella inspelningar för att skapa en röst av högre kvalitet. Inget program krävs för demo- och utvärderingsändamål. Microsoft begränsar och väljer dock inspelnings- och testexemplen för användning med CNV lite. Du måste ansöka om fullständig åtkomst till CNV Professional för att kunna distribuera och använda CNV lite-modellen för affärsändamål. I så fall begär du åtkomst i intagsformuläret.

Med ett CNV lite-projekt spelar du in din röst online genom att läsa 20–50 fördefinierade skript från Microsoft. När du har spelat in minst 20 exempel kan du börja träna en modell. När modellen har tränats kan du granska modellen och kolla in 20 utdataexempel som skapats med en annan uppsättning fördefinierade skript.

Se språk som stöds för anpassad neural röst.

Jämföra projekttyper

I följande tabell sammanfattas viktiga skillnader mellan CNV lite- och CNV Professional-projekttyperna.

Artiklar	Lite (förhandsversion)	PRO
Målscenarier	Demonstration eller utvärdering	Professionella scenarier som varumärkes- och karaktärsröster för chattrobotar eller läsning av ljudinnehåll.
Träningsdata	Spela in online med Speech Studio	Ta med dina egna data. Inspelning i en professionell studio rekommenderas.
Skript för inspelning	Tillhandahålls i Speech Studio	Använd dina egna skript som matchar användningsfallsscenariot. Microsoft tillhandahåller exempelskript som referens.
Nödvändig datastorlek	20–50 yttranden	300–2 000 yttranden
Träningstid	Mindre än en beräkningstimmes	Cirka 20–40 beräkningstimmar
Röstkvalitet	Måttlig kvalitet	Hög kvalitet
Tillgänglighet	Vem som helst kan registrera exempel online och träna en modell för demo- och utvärderingssyfte. Fullständig åtkomst till anpassad neural röst krävs om du vill distribuera CNV Lite-modellen för företagsanvändning.	Dataöverföringen är inte begränsad, men du kan bara träna och distribuera en CNV-professionell modell när åtkomsten har godkänts. CNV-professionell åtkomst är begränsad baserat på berättigande- och användningskriterier. Begär åtkomst i intagsformuläret.
Prissättning	Priserna per enhet gäller lika för både CNV lite- och CNV-yrkesprojekten. Kontrollera prisinformationen här.	Priserna per enhet gäller lika för både CNV lite- och CNV-yrkesprojekten. Kontrollera prisinformationen här.

Skapa ett anpassat neuralt röst lite-projekt

Följ dessa steg för att skapa ett anpassat neuralt röst lite-projekt:

Logga in på Speech Studio.
Välj den prenumeration och talresurs som du vill arbeta med.
Välj Anpassad röst>Skapa ett projekt.
Välj Anpassad neural röst lite>Nästa. Information om hur du skapar ett anpassat professionellt projekt för neural röst finns i Skapa ett projekt för anpassad neural röst.
Följ anvisningarna i guiden för att skapa projektet.

Viktigt!

CNV lite-projektet upphör att gälla efter 90 dagar om inte det verbala uttalande som spelas in av rösttalangen skickas in.
Välj det nya projektet efter namn eller välj Gå till projekt. Du ser de här menyalternativen i den vänstra panelen: Spela in och skapa, Granska modell och Distribuera modell.

Registrera och skapa en CNV lite-modell

Spela in minst 20 röstexempel (upp till 50) med tillhandahållna skript online. Röstexempel som spelas in här används för att skapa en syntetisk version av din röst.

Kommentar

Anpassad neural röstträning är för närvarande endast tillgänglig i vissa regioner. Mer information finns i fotnoter i regionstabellen.

Här följer några tips som hjälper dig att spela in dina röstexempel:

Använd en bra mikrofon. Öka tydligheten i dina exempel med hjälp av en mikrofon av hög kvalitet. Tala om 8 inches bort från mikrofonen för att undvika munljud.
Undvik bakgrundsbrus. Spela in i ett tyst rum utan bakgrundsbrus eller eko.
Koppla av och tala naturligt. Tillåt dig själv att uttrycka känslor när du läser meningarna.
Spela in i en tagning. För att hålla en konsekvent energinivå registrerar du alla meningar i en session.
Uttala varje ord korrekt och tala tydligt.

Följ dessa steg för att registrera och skapa en CNV lite-modell:

Välj Anpassad röst> Projektets namn >Posta och skapa.
Välj Komma igång.
Läs användningsvillkoren för Voice-talang noggrant. Markera kryssrutan för att bekräfta användningsvillkoren.
Välj Acceptera
Tryck på mikrofonikonen för att starta bruskontrollen. Den här bruskontrollen tar bara några sekunder och du behöver inte tala under den.
Om brus har identifierats kan du välja Kontrollera igen för att upprepa bruskontrollen. Om inget brus har identifierats kan du välja Klar för att gå vidare till nästa steg.
Granska inspelningstipsen och välj Fick det. För bästa resultat går du till ett lugnt område utan bakgrundsbrus innan du spelar in dina röstexempel.
Tryck på mikrofonikonen för att starta inspelningen.
Tryck på stoppikonen för att stoppa inspelningen.
Granska kvalitetsmått. När du har spelat in varje exempel kontrollerar du dess kvalitetsmått innan du fortsätter till nästa.
Registrera fler exempel. Även om du kan skapa en modell med bara 20 exempel rekommenderar vi att du registrerar upp till 50 för att få bättre kvalitet.
Välj Träna modell för att starta träningsprocessen.

Träningsprocessen tar ungefär en beräkningstimmes. Du kan kontrollera förloppet för träningsprocessen på sidan Granska modell .

Granska modell

Följ dessa steg för att granska CNV lite-modellen och lyssna på din egen syntetiska röst:

Välj Anpassad röst> Projektnamnet >Granska modell. Här kan du granska röstmodellens namn, modellspråk, exempeldatastorlek och träningsframställning. Röstnamnet består av ordet "Neural" som läggs till i projektnamnet.
Välj röstmodellnamnet för att granska modellinformationen och lyssna på exempeltexten till talresultatet.
Välj uppspelningsikonen för att höra din röst tala varje skript.

Skicka verbalt uttalande

Ett verbalt uttalande som spelas in av rösttalangen krävs innan du kan distribuera modellen för ditt företags användning.

Följ dessa steg för att skicka in verbala rösttalanger:

Välj Anpassad röst> Projektnamnet >Distribuera modell>Hantera din rösttalang.
Välj modellen.
Ange rösttalangens namn och företagsnamn.
Läs och registrera -instruktionen. Välj mikrofonikonen för att starta inspelningen. Välj stoppikonen för att stoppa inspelningen.
Välj Skicka för att skicka instruktionen.
Kontrollera bearbetningsstatusen i skripttabellen längst ned på instrumentpanelen. När statusen har slutförts kan du distribuera modellen.

Distribuera en modell

Om du vill distribuera din röstmodell och använda den i dina program måste du få fullständig åtkomst till anpassad neural röst. Begär åtkomst i intagsformuläret. Inom cirka 10 arbetsdagar får du ett e-postmeddelande med godkännandestatus. Ett verbalt uttalande som spelas in av rösttalangen krävs också innan du kan distribuera modellen för ditt företags användning.

Följ dessa steg för att distribuera en CNV lite-modell:

Välj Anpassad röst> Projektnamnet >Distribuera modell>Distribuera modell.
Välj ett röstmodellnamn och välj sedan Nästa.
Ange ett namn och en beskrivning för slutpunkten och välj sedan Nästa.
Markera kryssrutan för att godkänna användningsvillkoren och välj sedan Nästa.
Välj Distribuera för att distribuera modellen.

Härifrån kan du använda CNV lite-röstmodellen på samma sätt som du skulle använda en CNV-professionell röstmodell. Du kan till exempel pausa eller återuppta en slutpunkt när den har skapats för att begränsa utgifter och spara resurser som inte används. Du kan också komma åt rösten i verktyget Skapa ljudinnehåll i Speech Studio.

Dela via