Vad är hd-röster? (Förhandsversion)

Artikel
10/23/2024

Kommentar

Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Azure AI Speech fortsätter att utvecklas inom text till tal-teknik med introduktionen av neural text till HD-röster (high definition). HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. HD-röster upprätthåller en konsekvent röstpersona från sina neurala (och icke HD) motsvarigheter och levererar ännu mer värde genom förbättrade funktioner.

Viktiga funktioner i neural text till HD-talröster

Följande är de viktigaste funktionerna i Azure AI Speech HD-röster:

Nyckelfunktioner	beskrivning
Mänsklig talgenerering	Neural text till hd-talröster kan generera mycket naturligt och mänskligt tal. Modellen tränas på miljontals timmar flerspråkiga data, vilket gör det möjligt för den att korrekt tolka indatatext och generera tal med rätt känsla, takt och rytm utan manuella justeringar.
Konversera	Neural text till HD-talröster kan replikera naturliga talmönster, inklusive spontana pauser och betoning. När du får konversationstext kan modellen återskapa vanliga fonem som pausar och fyllnadsord. Den genererade rösten låter som om någon samtalar direkt med dig.
Prosodyvariationer	Neural text till TAL HD-röster introducerar små variationer i varje utdata för att förbättra realismen. Dessa variationer gör att talet låter mer naturligt, eftersom mänskliga röster naturligt uppvisar variation.
Hög återgivning	Det primära målet med neural text till HD-talröster är att generera ljud med hög återgivning. Det syntetiska tal som produceras av vårt system kan nära efterlikna mänskligt tal i både kvalitet och naturlighet.
Versionskontroll	Med neural text till hd-talröster släpper vi olika versioner av samma röst, var och en med en unik basmodellstorlek och recept. Detta ger dig möjlighet att uppleva nya röstvariationer eller fortsätta använda en specifik version av en röst.

Jämförelse av Azure AI Speech HD-röster med annan Azure-text till talröster

Hur skiljer sig Azure AI Speech HD-röster från annan Azure-text till talröster? Hur skiljer de sig åt när det gäller funktioner?

Här är en jämförelse av funktioner mellan Azure AI Speech HD-röster, Azure OpenAI HD-röster och Azure AI Speech-röster:

Funktion	Azure AI Speech HD-röster	Azure OpenAI HD-röster	Azure AI Speech-röster (inte HD)
Region	USA, östra, Sydostasien, Europa, västra	USA, norra centrala, Sverige, centrala	Finns i dussintals regioner. Se regionlistan.
Antal röster	12	6	Mer än 500
Flerspråkig	Nej (endast på primärt språk)	Ja	Ja (gäller endast för flerspråkiga röster)
SSML-stöd	Stöd för en delmängd av SSML-element.	Stöd för en delmängd av SSML-element.	Stöd för den fullständiga uppsättningen SSML i Azure AI Speech.
Utvecklingsalternativ	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API	Speech SDK, Speech CLI, REST API
Distributionsalternativ	Endast moln	Endast moln	Moln, inbäddad, hybrid och containrar.
Realtids- eller batchsyntes	Endast realtid	Realtids- och batchsyntes	Realtids- och batchsyntes
Svarstider	Mindre än 300 ms	Större än 500 ms	Mindre än 300 ms
Exempelfrekvens för syntetiserat ljud	8, 16, 24 och 48 kHz	8, 16, 24 och 48 kHz	8, 16, 24 och 48 kHz
Ljudformat för talutdata	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Azure AI Speech HD-röster som stöds

Röstvärdena för Azure AI Speech HD är i formatet voicename:basemodel:version. Namnet före kolonet, till exempel en-US-Ava, är röstpersonanamnet och dess ursprungliga språk. Basmodellen spåras av versioner i efterföljande uppdateringar.

DragonHD Är för närvarande den enda basmodellen som är tillgänglig för Azure AI Speech HD-röster. Använd versionen för att se till att du använder den senaste versionen av basmodellen som vi tillhandahåller utan att behöva göra en kodändring LatestNeural .

För persona en-US-Ava kan du till exempel ange följande HD-röstvärden:

en-US-Ava:DragonHDLatestNeural: Använder alltid den senaste versionen av basmodellen som vi tillhandahåller senare.

I följande tabell visas de Azure AI Speech HD-röster som för närvarande är tillgängliga.

Neural röstpersona	HD-röster
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen	zh-CN-Xiaochen:DragonHDLatestNeural

Använda Azure AI Speech HD-röster

Du kan använda HD-röster med samma Speech SDK och REST-API:er som icke-HD-röster.

Här är några viktiga saker att tänka på när du använder Azure AI Speech HD-röster:

Språkvariant: Språkvarianten i röstnamnet anger dess ursprungliga språk och region.
Basmodeller:
- HD-röster levereras med en basmodell som förstår indatatexten och förutsäger talmönstret i enlighet med detta. Du kan ange önskad modell (till exempel DragonHDLatestNeural) enligt tillgängligheten för varje röst.
SSML-användning: Om du vill referera till en röst i SSML använder du formatet voicename:basemodel:version. Namnet före kolonet, till exempel de-DE-Seraphina, är röstpersonanamnet och dess ursprungliga språk. Basmodellen spåras av versioner i efterföljande uppdateringar.
Temperaturparameter:
- Temperaturvärdet är en flottör som sträcker sig från 0 till 1, vilket påverkar slumpmässigheten i utdata. Du kan också justera temperaturparametern för att styra variationen av utdata. Mindre slumpmässighet ger stabilare resultat, medan mer slumpmässighet erbjuder variation men mindre konsekvens.
- Lägre temperatur resulterar i mindre slumpmässighet, vilket leder till mer förutsägbara utdata. Högre temperatur ökar slumpmässigheten, vilket möjliggör mer varierande utdata. Standardtemperaturen anges till 1,0.

Här är ett exempel på hur du använder Azure AI Speech HD-röster i SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

SSML-element som stöds och som inte stöds för Azure AI Speech HD-röster

Talsyntesmarkeringsspråket (SSML) med indatatext avgör strukturen, innehållet och andra egenskaper för text till tal-utdata. Du kan till exempel använda SSML för att definiera ett stycke, en mening, en paus eller en paus eller tystnad. Du kan radbryta text med händelsetaggar som bokmärke eller viseme som programmet bearbetar senare.

Azure AI Speech HD-rösterna stöder inte alla SSML-element eller händelser som andra Azure AI Speech-röster stöder. Särskilt viktigt är att Azure AI Speech HD-röster inte stöder ordgränshändelser.

Detaljerad information om de SSML-element som stöds och inte stöds för Azure AI Speech HD-röster finns i följande tabell. Anvisningar om hur du använder SSML-element finns i dokumentationen för Speech Synthesis Markup Language (SSML).

SSML-element	beskrivning	Stöds i Azure AI Speech HD-röster
`<voice>`	Anger röst- och valfria effekter (`eq_car` och `eq_telecomhp8k`).	Ja
`<mstts:express-as>`	Anger talarstilar och roller.	Nej
`<mstts:ttsembedding>`	Anger egenskapen `speakerProfileId` för en personlig röst.	Nej
`<lang xml:lang>`	Anger talarspråket.	Ja
`<prosody>`	Justerar tonhöjd, kontur, intervall, hastighet och volym.	Nej
`<emphasis>`	Lägger till eller tar bort stress på ordnivå för texten.	Nej
`<audio>`	Bäddar in förinspelat ljud i ett SSML-dokument.	Nej
`<mstts:audioduration>`	Anger varaktigheten för utdataljudet.	Nej
`<mstts:backgroundaudio>`	Lägger till bakgrundsljud i dina SSML-dokument eller blandar en ljudfil med text till tal.	Nej
`<phoneme>`	Anger fonetisk uttal i SSML-dokument.	Nej
`<lexicon>`	Definierar hur flera entiteter läse i SSML.	Ja (stöder endast alias)
`<say-as>`	Anger innehållstypen, till exempel tal eller datum, för elementets text.	Ja
`<sub>`	Anger att aliasattributets textvärde ska uttalas i stället för elementets omslutna text.	Ja
`<math>`	Använder MathML som indatatext för att korrekt uttala matematiska noteringar i utdataljudet.	Nej
`<bookmark>`	Hämtar förskjutningen av varje markör i ljudströmmen.	Nej
`<break>`	Åsidosätter standardbeteendet för pauser eller pauser mellan ord.	Nej
`<mstts:silence>`	Infogar paus före eller efter text eller mellan två intilliggande meningar.	Nej
`<mstts:viseme>`	Definierar ansiktets och munnens position medan en person talar.	Nej
`<p>`	Anger stycken i SSML-dokument.	Ja
`<s>`	Anger meningar i SSML-dokument.	Ja

Kommentar

Även om ett tidigare avsnitt i den här guiden även jämförde Azure AI Speech HD-röster med Azure OpenAI HD-röster, gäller inte de SSML-element som stöds av Azure AI Speech för Azure OpenAI-röster.

Dela via

Vad är hd-röster? (Förhandsversion)

Viktiga funktioner i neural text till HD-talröster

Jämförelse av Azure AI Speech HD-röster med annan Azure-text till talröster

Azure AI Speech HD-röster som stöds

Använda Azure AI Speech HD-röster

SSML-element som stöds och som inte stöds för Azure AI Speech HD-röster

Feedback

Ytterligare resurser

Dela via

Vad är hd-röster? (Förhandsversion)

Viktiga funktioner i neural text till HD-talröster

Jämförelse av Azure AI Speech HD-röster med annan Azure-text till talröster

Azure AI Speech HD-röster som stöds

Använda Azure AI Speech HD-röster

SSML-element som stöds och som inte stöds för Azure AI Speech HD-röster

Relaterat innehåll

Feedback

Ytterligare resurser