Vad är hd-röster? (Förhandsversion)
Kommentar
Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
Azure AI Speech fortsätter att utvecklas inom text till tal-teknik med introduktionen av neural text till HD-röster (high definition). HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. HD-röster upprätthåller en konsekvent röstpersona från sina neurala (och icke HD) motsvarigheter och levererar ännu mer värde genom förbättrade funktioner.
Viktiga funktioner i neural text till HD-talröster
Följande är de viktigaste funktionerna i Azure AI Speech HD-röster:
Nyckelfunktioner | beskrivning |
---|---|
Mänsklig talgenerering | Neural text till hd-talröster kan generera mycket naturligt och mänskligt tal. Modellen tränas på miljontals timmar flerspråkiga data, vilket gör det möjligt för den att korrekt tolka indatatext och generera tal med rätt känsla, takt och rytm utan manuella justeringar. |
Konversera | Neural text till HD-talröster kan replikera naturliga talmönster, inklusive spontana pauser och betoning. När du får konversationstext kan modellen återskapa vanliga fonem som pausar och fyllnadsord. Den genererade rösten låter som om någon samtalar direkt med dig. |
Prosodyvariationer | Neural text till TAL HD-röster introducerar små variationer i varje utdata för att förbättra realismen. Dessa variationer gör att talet låter mer naturligt, eftersom mänskliga röster naturligt uppvisar variation. |
Hög återgivning | Det primära målet med neural text till HD-talröster är att generera ljud med hög återgivning. Det syntetiska tal som produceras av vårt system kan nära efterlikna mänskligt tal i både kvalitet och naturlighet. |
Versionskontroll | Med neural text till hd-talröster släpper vi olika versioner av samma röst, var och en med en unik basmodellstorlek och recept. Detta ger dig möjlighet att uppleva nya röstvariationer eller fortsätta använda en specifik version av en röst. |
Jämförelse av Azure AI Speech HD-röster med annan Azure-text till talröster
Hur skiljer sig Azure AI Speech HD-röster från annan Azure-text till talröster? Hur skiljer de sig åt när det gäller funktioner?
Här är en jämförelse av funktioner mellan Azure AI Speech HD-röster, Azure OpenAI HD-röster och Azure AI Speech-röster:
Funktion | Azure AI Speech HD-röster | Azure OpenAI HD-röster | Azure AI Speech-röster (inte HD) |
---|---|---|---|
Region | USA, östra, Sydostasien, Europa, västra | USA, norra centrala, Sverige, centrala | Finns i dussintals regioner. Se regionlistan. |
Antal röster | 12 | 6 | Mer än 500 |
Flerspråkig | Nej (endast på primärt språk) | Ja | Ja (gäller endast för flerspråkiga röster) |
SSML-stöd | Stöd för en delmängd av SSML-element. | Stöd för en delmängd av SSML-element. | Stöd för den fullständiga uppsättningen SSML i Azure AI Speech. |
Utvecklingsalternativ | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
Distributionsalternativ | Endast moln | Endast moln | Moln, inbäddad, hybrid och containrar. |
Realtids- eller batchsyntes | Endast realtid | Realtids- och batchsyntes | Realtids- och batchsyntes |
Svarstider | Mindre än 300 ms | Större än 500 ms | Mindre än 300 ms |
Exempelfrekvens för syntetiserat ljud | 8, 16, 24 och 48 kHz | 8, 16, 24 och 48 kHz | 8, 16, 24 och 48 kHz |
Ljudformat för talutdata | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Azure AI Speech HD-röster som stöds
Röstvärdena för Azure AI Speech HD är i formatet voicename:basemodel:version
. Namnet före kolonet, till exempel en-US-Ava
, är röstpersonanamnet och dess ursprungliga språk. Basmodellen spåras av versioner i efterföljande uppdateringar.
DragonHD
Är för närvarande den enda basmodellen som är tillgänglig för Azure AI Speech HD-röster. Använd versionen för att se till att du använder den senaste versionen av basmodellen som vi tillhandahåller utan att behöva göra en kodändring LatestNeural
.
För persona en-US-Ava
kan du till exempel ange följande HD-röstvärden:
en-US-Ava:DragonHDLatestNeural
: Använder alltid den senaste versionen av basmodellen som vi tillhandahåller senare.
I följande tabell visas de Azure AI Speech HD-röster som för närvarande är tillgängliga.
Neural röstpersona | HD-röster |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Använda Azure AI Speech HD-röster
Du kan använda HD-röster med samma Speech SDK och REST-API:er som icke-HD-röster.
Här är några viktiga saker att tänka på när du använder Azure AI Speech HD-röster:
- Språkvariant: Språkvarianten i röstnamnet anger dess ursprungliga språk och region.
- Basmodeller:
- HD-röster levereras med en basmodell som förstår indatatexten och förutsäger talmönstret i enlighet med detta. Du kan ange önskad modell (till exempel DragonHDLatestNeural) enligt tillgängligheten för varje röst.
- SSML-användning: Om du vill referera till en röst i SSML använder du formatet
voicename:basemodel:version
. Namnet före kolonet, till exempelde-DE-Seraphina
, är röstpersonanamnet och dess ursprungliga språk. Basmodellen spåras av versioner i efterföljande uppdateringar. - Temperaturparameter:
- Temperaturvärdet är en flottör som sträcker sig från 0 till 1, vilket påverkar slumpmässigheten i utdata. Du kan också justera temperaturparametern för att styra variationen av utdata. Mindre slumpmässighet ger stabilare resultat, medan mer slumpmässighet erbjuder variation men mindre konsekvens.
- Lägre temperatur resulterar i mindre slumpmässighet, vilket leder till mer förutsägbara utdata. Högre temperatur ökar slumpmässigheten, vilket möjliggör mer varierande utdata. Standardtemperaturen anges till 1,0.
Här är ett exempel på hur du använder Azure AI Speech HD-röster i SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
SSML-element som stöds och som inte stöds för Azure AI Speech HD-röster
Talsyntesmarkeringsspråket (SSML) med indatatext avgör strukturen, innehållet och andra egenskaper för text till tal-utdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar som bokmärke eller viseme som programmet bearbetar senare.
Azure AI Speech HD-rösterna stöder inte alla SSML-element eller händelser som andra Azure AI Speech-röster stöder. Särskilt viktigt är att Azure AI Speech HD-röster inte stöder ordgränshändelser.
Detaljerad information om de SSML-element som stöds och inte stöds för Azure AI Speech HD-röster finns i följande tabell. Anvisningar om hur du använder SSML-element finns i dokumentationen för Speech Synthesis Markup Language (SSML).
SSML-element | beskrivning | Stöds i Azure AI Speech HD-röster |
---|---|---|
<voice> |
Anger röst- och valfria effekter (eq_car och eq_telecomhp8k ). |
Ja |
<mstts:express-as> |
Anger talarstilar och roller. | Nej |
<mstts:ttsembedding> |
Anger egenskapen speakerProfileId för en personlig röst. |
Nej |
<lang xml:lang> |
Anger talarspråket. | Ja |
<prosody> |
Justerar tonhöjd, kontur, intervall, hastighet och volym. | Nej |
<emphasis> |
Lägger till eller tar bort stress på ordnivå för texten. | Nej |
<audio> |
Bäddar in förinspelat ljud i ett SSML-dokument. | Nej |
<mstts:audioduration> |
Anger varaktigheten för utdataljudet. | Nej |
<mstts:backgroundaudio> |
Lägger till bakgrundsljud i dina SSML-dokument eller blandar en ljudfil med text till tal. | Nej |
<phoneme> |
Anger fonetisk uttal i SSML-dokument. | Nej |
<lexicon> |
Definierar hur flera entiteter läse i SSML. | Ja (stöder endast alias) |
<say-as> |
Anger innehållstypen, till exempel tal eller datum, för elementets text. | Ja |
<sub> |
Anger att aliasattributets textvärde ska uttalas i stället för elementets omslutna text. | Ja |
<math> |
Använder MathML som indatatext för att korrekt uttala matematiska noteringar i utdataljudet. | Nej |
<bookmark> |
Hämtar förskjutningen av varje markör i ljudströmmen. | Nej |
<break> |
Åsidosätter standardbeteendet för pauser eller pauser mellan ord. | Nej |
<mstts:silence> |
Infogar paus före eller efter text eller mellan två intilliggande meningar. | Nej |
<mstts:viseme> |
Definierar ansiktets och munnens position medan en person talar. | Nej |
<p> |
Anger stycken i SSML-dokument. | Ja |
<s> |
Anger meningar i SSML-dokument. | Ja |
Kommentar
Även om ett tidigare avsnitt i den här guiden även jämförde Azure AI Speech HD-röster med Azure OpenAI HD-röster, gäller inte de SSML-element som stöds av Azure AI Speech för Azure OpenAI-röster.