Dela via


Vad är hd-röster? (Förhandsversion)

Kommentar

Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Azure AI Speech fortsätter att utvecklas inom text till tal-teknik med introduktionen av neural text till HD-röster (high definition). HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. HD-röster upprätthåller en konsekvent röstpersona från sina neurala (och icke HD) motsvarigheter och levererar ännu mer värde genom förbättrade funktioner.

Viktiga funktioner i neural text till HD-talröster

Följande är de viktigaste funktionerna i Azure AI Speech HD-röster:

Nyckelfunktioner beskrivning
Mänsklig talgenerering Neural text till hd-talröster kan generera mycket naturligt och mänskligt tal. Modellen tränas på miljontals timmar flerspråkiga data, vilket gör det möjligt för den att korrekt tolka indatatext och generera tal med rätt känsla, takt och rytm utan manuella justeringar.
Konversera Neural text till HD-talröster kan replikera naturliga talmönster, inklusive spontana pauser och betoning. När du får konversationstext kan modellen återskapa vanliga fonem som pausar och fyllnadsord. Den genererade rösten låter som om någon samtalar direkt med dig.
Prosodyvariationer Neural text till TAL HD-röster introducerar små variationer i varje utdata för att förbättra realismen. Dessa variationer gör att talet låter mer naturligt, eftersom mänskliga röster naturligt uppvisar variation.
Hög återgivning Det primära målet med neural text till HD-talröster är att generera ljud med hög återgivning. Det syntetiska tal som produceras av vårt system kan nära efterlikna mänskligt tal i både kvalitet och naturlighet.
Versionskontroll Med neural text till hd-talröster släpper vi olika versioner av samma röst, var och en med en unik basmodellstorlek och recept. Detta ger dig möjlighet att uppleva nya röstvariationer eller fortsätta använda en specifik version av en röst.

Jämförelse av Azure AI Speech HD-röster med annan Azure-text till talröster

Hur skiljer sig Azure AI Speech HD-röster från annan Azure-text till talröster? Hur skiljer de sig åt när det gäller funktioner?

Här är en jämförelse av funktioner mellan Azure AI Speech HD-röster, Azure OpenAI HD-röster och Azure AI Speech-röster:

Funktion Azure AI Speech HD-röster Azure OpenAI HD-röster Azure AI Speech-röster (inte HD)
Region USA, östra, Sydostasien, Europa, västra USA, norra centrala, Sverige, centrala Finns i dussintals regioner. Se regionlistan.
Antal röster 12 6 Mer än 500
Flerspråkig Nej (endast på primärt språk) Ja Ja (gäller endast för flerspråkiga röster)
SSML-stöd Stöd för en delmängd av SSML-element. Stöd för en delmängd av SSML-element. Stöd för den fullständiga uppsättningen SSML i Azure AI Speech.
Utvecklingsalternativ Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
Distributionsalternativ Endast moln Endast moln Moln, inbäddad, hybrid och containrar.
Realtids- eller batchsyntes Endast realtid Realtids- och batchsyntes Realtids- och batchsyntes
Svarstider Mindre än 300 ms Större än 500 ms Mindre än 300 ms
Exempelfrekvens för syntetiserat ljud 8, 16, 24 och 48 kHz 8, 16, 24 och 48 kHz 8, 16, 24 och 48 kHz
Ljudformat för talutdata opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Azure AI Speech HD-röster som stöds

Röstvärdena för Azure AI Speech HD är i formatet voicename:basemodel:version. Namnet före kolonet, till exempel en-US-Ava, är röstpersonanamnet och dess ursprungliga språk. Basmodellen spåras av versioner i efterföljande uppdateringar.

DragonHD Är för närvarande den enda basmodellen som är tillgänglig för Azure AI Speech HD-röster. Använd versionen för att se till att du använder den senaste versionen av basmodellen som vi tillhandahåller utan att behöva göra en kodändring LatestNeural .

För persona en-US-Ava kan du till exempel ange följande HD-röstvärden:

  • en-US-Ava:DragonHDLatestNeural: Använder alltid den senaste versionen av basmodellen som vi tillhandahåller senare.

I följande tabell visas de Azure AI Speech HD-röster som för närvarande är tillgängliga.

Neural röstpersona HD-röster
de-DE-Seraphina de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2 en-US-Andrew2:DragonHDLatestNeural
en-US-Aria en-US-Aria:DragonHDLatestNeural
en-US-Ava en-US-Ava:DragonHDLatestNeural
en-US-Brian en-US-Brian:DragonHDLatestNeural
en-US-Davis en-US-Davis:DragonHDLatestNeural
en-US-Emma en-US-Emma:DragonHDLatestNeural
en-US-Emma2 en-US-Emma2:DragonHDLatestNeural
en-US-Jenny en-US-Jenny:DragonHDLatestNeural
en-US-Steffan en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen zh-CN-Xiaochen:DragonHDLatestNeural

Använda Azure AI Speech HD-röster

Du kan använda HD-röster med samma Speech SDK och REST-API:er som icke-HD-röster.

Här är några viktiga saker att tänka på när du använder Azure AI Speech HD-röster:

  • Språkvariant: Språkvarianten i röstnamnet anger dess ursprungliga språk och region.
  • Basmodeller:
    • HD-röster levereras med en basmodell som förstår indatatexten och förutsäger talmönstret i enlighet med detta. Du kan ange önskad modell (till exempel DragonHDLatestNeural) enligt tillgängligheten för varje röst.
  • SSML-användning: Om du vill referera till en röst i SSML använder du formatet voicename:basemodel:version. Namnet före kolonet, till exempel de-DE-Seraphina, är röstpersonanamnet och dess ursprungliga språk. Basmodellen spåras av versioner i efterföljande uppdateringar.
  • Temperaturparameter:
    • Temperaturvärdet är en flottör som sträcker sig från 0 till 1, vilket påverkar slumpmässigheten i utdata. Du kan också justera temperaturparametern för att styra variationen av utdata. Mindre slumpmässighet ger stabilare resultat, medan mer slumpmässighet erbjuder variation men mindre konsekvens.
    • Lägre temperatur resulterar i mindre slumpmässighet, vilket leder till mer förutsägbara utdata. Högre temperatur ökar slumpmässigheten, vilket möjliggör mer varierande utdata. Standardtemperaturen anges till 1,0.

Här är ett exempel på hur du använder Azure AI Speech HD-röster i SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

SSML-element som stöds och som inte stöds för Azure AI Speech HD-röster

Talsyntesmarkeringsspråket (SSML) med indatatext avgör strukturen, innehållet och andra egenskaper för text till tal-utdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar som bokmärke eller viseme som programmet bearbetar senare.

Azure AI Speech HD-rösterna stöder inte alla SSML-element eller händelser som andra Azure AI Speech-röster stöder. Särskilt viktigt är att Azure AI Speech HD-röster inte stöder ordgränshändelser.

Detaljerad information om de SSML-element som stöds och inte stöds för Azure AI Speech HD-röster finns i följande tabell. Anvisningar om hur du använder SSML-element finns i dokumentationen för Speech Synthesis Markup Language (SSML).

SSML-element beskrivning Stöds i Azure AI Speech HD-röster
<voice> Anger röst- och valfria effekter (eq_car och eq_telecomhp8k). Ja
<mstts:express-as> Anger talarstilar och roller. Nej
<mstts:ttsembedding> Anger egenskapen speakerProfileId för en personlig röst. Nej
<lang xml:lang> Anger talarspråket. Ja
<prosody> Justerar tonhöjd, kontur, intervall, hastighet och volym. Nej
<emphasis> Lägger till eller tar bort stress på ordnivå för texten. Nej
<audio> Bäddar in förinspelat ljud i ett SSML-dokument. Nej
<mstts:audioduration> Anger varaktigheten för utdataljudet. Nej
<mstts:backgroundaudio> Lägger till bakgrundsljud i dina SSML-dokument eller blandar en ljudfil med text till tal. Nej
<phoneme> Anger fonetisk uttal i SSML-dokument. Nej
<lexicon> Definierar hur flera entiteter läse i SSML. Ja (stöder endast alias)
<say-as> Anger innehållstypen, till exempel tal eller datum, för elementets text. Ja
<sub> Anger att aliasattributets textvärde ska uttalas i stället för elementets omslutna text. Ja
<math> Använder MathML som indatatext för att korrekt uttala matematiska noteringar i utdataljudet. Nej
<bookmark> Hämtar förskjutningen av varje markör i ljudströmmen. Nej
<break> Åsidosätter standardbeteendet för pauser eller pauser mellan ord. Nej
<mstts:silence> Infogar paus före eller efter text eller mellan två intilliggande meningar. Nej
<mstts:viseme> Definierar ansiktets och munnens position medan en person talar. Nej
<p> Anger stycken i SSML-dokument. Ja
<s> Anger meningar i SSML-dokument. Ja

Kommentar

Även om ett tidigare avsnitt i den här guiden även jämförde Azure AI Speech HD-röster med Azure OpenAI HD-röster, gäller inte de SSML-element som stöds av Azure AI Speech för Azure OpenAI-röster.