Anpassa röst och ljud med SSML
Du kan använda Speech Synthesis Markup Language (SSML) för att ange text till talröst, språk, namn, stil och roll för dina talutdata. Du kan också använda flera röster i ett enda SSML-dokument och justera betoning, talfrekvens, tonhöjd och volym. Dessutom har SSML möjlighet att infoga förinspelat ljud, till exempel en ljudeffekt eller en musikalisk ton.
Artikeln visar hur du använder SSML-element för att ange röst och ljud. Mer information om SSML-syntax finns i SSML-dokumentstruktur och -händelser.
Använda röstelement
Minst ett voice
element måste anges i varje SSML-talelement. Det här elementet avgör vilken röst som används för text till tal.
Du kan inkludera flera voice
element i ett enda SSML-dokument. Varje voice
element kan ange en annan röst. Du kan också använda samma röst flera gånger med olika inställningar, till exempel när du ändrar varaktigheten för tystnad mellan meningar.
I följande tabell beskrivs användningen av voice
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
name |
Den röst som används för text till tal-utdata. En fullständig lista över fördefinierade röster som stöds finns i Språkstöd. | Obligatoriskt |
effect |
Ljudeffektprocessorn som används för att optimera kvaliteten på de syntetiserade talutdata för specifika scenarier på enheter. I vissa scenarier i produktionsmiljöer kan granskningsupplevelsen försämras på grund av uppspelningsförvrängningen på vissa enheter. Till exempel kan det syntetiserade talet från en bilhögtalare låta tråkigt och dämpat på grund av miljöfaktorer som talarsvar, rumsåterklang och bakgrundsbrus. Passageraren kan behöva skruva upp volymen för att höra tydligare. För att undvika manuella åtgärder i ett sådant scenario kan ljudeffektprocessorn göra ljudet tydligare genom att kompensera förvrängningen av uppspelningen. Följande värden stöds:
Om värdet saknas eller är ogiltigt ignoreras det här attributet och ingen effekt tillämpas. |
Valfritt |
Röstexempel
Information om de värden som stöds för elementets attribut finns i voice
Använda röstelement.
Exempel på en röst
I det en-US-AvaMultilingualNeural
här exemplet används rösten.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
This is the text that is spoken.
</voice>
</speak>
Exempel på flera röster
I elementet speak
kan du ange flera röster för text till tal-utdata. Dessa röster kan finnas på olika språk. För varje röst måste texten vara omsluten i ett voice
element.
Det här exemplet växlar mellan en-US-AvaMultilingualNeural
rösterna och en-US-AndrewMultilingualNeural
. Neurala flerspråkiga röster kan tala olika språk baserat på indatatexten.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Good morning!
</voice>
<voice name="en-US-AndrewMultilingualNeural">
Good morning to you too Ava!
</voice>
</speak>
Exempel på anpassad neural röst
Om du vill använda din anpassade neurala röst anger du modellnamnet som röstnamn i SSML.
I det här exemplet används en anpassad röst med namnet my-custom-voice.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="my-custom-voice">
This is the text that is spoken.
</voice>
</speak>
Exempel på ljudeffekt
Du använder effect
attributet för att optimera auditiv upplevelse för scenarier som bilar och telekommunikation. I följande SSML-exempel används effect
attributet med konfigurationen i bilscenarier.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural" effect="eq_car">
This is the text that is spoken.
</voice>
</speak>
Använda talformat och roller
Neurala röster har som standard en neutral talarstil. Du kan justera talstil, formatmall och roll på meningsnivå.
Kommentar
Speech-tjänsten stöder format, formatmallar och roller för en delmängd av neurala röster enligt beskrivningen i dokumentationen för röstformat och roller . Om du vill fastställa vilka format och roller som stöds för varje röst kan du också använda api:et liströster och webbprogrammet för att skapa ljudinnehåll.
I följande tabell beskrivs användningen av mstts:express-as
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
style |
Den röstspecifika talstilen. Du kan uttrycka känslor som glädje, empati och lugn. Du kan också optimera rösten för olika scenarier som kundtjänst, nyhetssändning och röstassistent. Om formatvärdet saknas eller är ogiltigt ignoreras hela mstts:express-as elementet och tjänsten använder standardneutralt tal. Mer information om anpassade neurala röstformat finns i exemplet med anpassat neuralt röstformat. |
Obligatoriskt |
styledegree |
Intensiteten i talstilen. Du kan ange ett starkare eller mjukare format för att göra talet mer uttrycksfullt eller dämpat. Intervallet för godkända värden är: 0.01 till 2 inkluderande. Standardvärdet är 1 , vilket innebär den fördefinierade formatintensiteten. Den minsta enheten är 0.01 , vilket resulterar i en liten tendens för målformatet. Ett värde för 2 resulterar i en fördubbling av standardstilintensiteten. Om formatgraden saknas eller inte stöds för din röst ignoreras det här attributet. |
Valfritt |
role |
Det talande rollspelet. Rösten kan imitera en annan ålder och ett annat kön, men röstnamnet ändras inte. Till exempel kan en manlig röst höja tonhöjden och ändra intonationen till att imitera en kvinnlig röst, men röstnamnet ändras inte. Om rollen saknas eller inte stöds för din röst ignoreras det här attributet. | Valfritt |
I följande tabell beskrivs varje attribut som stöds style
:
Format | beskrivning |
---|---|
style="advertisement_upbeat" |
Uttrycker en upphetsad och högenergiton för att främja en produkt eller tjänst. |
style="affectionate" |
Uttrycker en varm och tillgiven ton, med högre tonhöjd och röstenergi. Talaren är i ett tillstånd av att dra till sig lyssnarens uppmärksamhet. Talarens personlighet är ofta älskvärd i naturen. |
style="angry" |
Uttrycker en arg och irriterad ton. |
style="assistant" |
Uttrycker en varm och avslappnad ton för digitala assistenter. |
style="calm" |
Uttrycker en cool, samlad och sammansatt attityd när man talar. Ton, tonhöjd och prosodi är mer enhetliga jämfört med andra typer av tal. |
style="chat" |
Uttrycker en avslappnad och avslappnad ton. |
style="cheerful" |
Uttrycker en positiv och glad ton. |
style="customerservice" |
Uttrycker en vänlig och användbar ton för kundsupport. |
style="depressed" |
Uttrycker en melankolisk och förtvivlad ton med lägre tonhöjd och energi. |
style="disgruntled" |
Uttrycker en föraktfull och klagande ton. Tal av denna känsla visar missnöje och förakt. |
style="documentary-narration" |
Berättar dokumentärer i en avslappnad, intresserad och informativ stil som lämpar sig för dokumentärer, expertkommentarer och liknande innehåll. |
style="embarrassed" |
Uttrycker en osäker och tveksam ton när talaren känner sig obekväm. |
style="empathetic" |
Uttrycker en känsla av omsorg och förståelse. |
style="envious" |
Uttrycker en ton av beundran när du önskar något som någon annan har. |
style="excited" |
Uttrycker en optimistisk och hoppfull ton. Det låter som om något bra händer och talaren är glad över det. |
style="fearful" |
Uttrycker en rädd och nervös ton, med högre tonhöjd, högre röstenergi och snabbare takt. Talaren är i ett tillstånd av spänning och oro. |
style="friendly" |
Uttrycker en trevlig, inbjudande och varm ton. Det låter uppriktigt och omtänksamt. |
style="gentle" |
Uttrycker en mild, artig och trevlig ton, med lägre tonhöjd och röstenergi. |
style="hopeful" |
Uttrycker en varm och längtande ton. Det låter som om något bra kommer att hända med talaren. |
style="lyrical" |
Uttrycker känslor på ett melodiskt och sentimentalt sätt. |
style="narration-professional" |
Uttrycker en professionell, objektiv ton för innehållsläsning. |
style="narration-relaxed" |
Uttrycker en lugnande och melodiös ton för innehållsläsning. |
style="newscast" |
Uttrycker en formell och professionell ton för att berätta nyheter. |
style="newscast-casual" |
Uttrycker en mångsidig och avslappnad ton för allmän nyhetsleverans. |
style="newscast-formal" |
Uttrycker en formell, säker och auktoritativ ton för nyhetsleverans. |
style="poetry-reading" |
Uttrycker en känslomässig och rytmisk ton när du läser en dikt. |
style="sad" |
Uttrycker en sorgsen ton. |
style="serious" |
Uttrycker en strikt och befallande ton. Högtalare låter ofta styvare och mycket mindre avslappnad med fast kadens. |
style="shouting" |
Uttrycker en ton som låter som om rösten är avlägsen eller på en annan plats och anstränger sig för att bli tydligt hörd. |
style="sports_commentary" |
Uttrycker en avslappnad och intresserad ton för att sända ett sportevenemang. |
style="sports_commentary_excited" |
Uttrycker en intensiv och energisk ton för att sända spännande stunder i ett sportevenemang. |
style="whispering" |
Uttrycker en mjuk ton som försöker göra ett tyst och mjukt ljud. |
style="terrified" |
Uttrycker en rädd ton, med snabbare takt och en skakigare röst. Det låter som om talaren är i en ostadig och frenetisk status. |
style="unfriendly" |
Uttrycker en kall och likgiltig ton. |
Följande tabell innehåller beskrivningar av varje attribut som stöds role
:
Roll | beskrivning |
---|---|
role="Girl" |
Rösten imiterar en flicka. |
role="Boy" |
Rösten imiterar en pojke. |
role="YoungAdultFemale" |
Rösten imiterar en ung vuxen kvinna. |
role="YoungAdultMale" |
Rösten imiterar en ung vuxen man. |
role="OlderAdultFemale" |
Rösten imiterar en äldre vuxen kvinna. |
role="OlderAdultMale" |
Rösten imiterar en äldre vuxen man. |
role="SeniorFemale" |
Rösten imiterar en äldre kvinna. |
role="SeniorMale" |
Rösten imiterar en äldre man. |
mstts express-as-exempel
Information om de värden som stöds för elementets attribut finns i mstts:express-as
Använda talformat och roller.
Formatmall och examensexempel
Du använder elementet mstts:express-as
för att uttrycka känslor som glädje, empati och lugn. Du kan också optimera rösten för olika scenarier som kundtjänst, nyhetssändning och röstassistent.
I följande SSML-exempel används elementet med stilgraden <mstts:express-as>
sad
2
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
<mstts:express-as style="sad" styledegree="2">
快走吧,路上一定要注意安全,早去早回。
</mstts:express-as>
</voice>
</speak>
Rollexempel
Förutom att justera talstilarna och stilgraden kan du också justera parametern role
så att rösten imiterar en annan ålder och ett annat kön. Till exempel kan en manlig röst höja tonhöjden och ändra intonationen till att imitera en kvinnlig röst, men röstnamnet ändras inte.
Det här SSML-kodfragmentet illustrerar hur role
attributet används för att ändra rollspelet för zh-CN-XiaomoNeural
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="zh-CN">
<voice name="zh-CN-XiaomoNeural">
女儿看见父亲走了进来,问道:
<mstts:express-as role="YoungAdultFemale" style="calm">
“您来的挺快的,怎么过来的?”
</mstts:express-as>
父亲放下手提包,说:
<mstts:express-as role="OlderAdultMale" style="calm">
“刚打车过来的,路上还挺顺畅。”
</mstts:express-as>
</voice>
</speak>
Exempel på anpassat neuralt röstformat
Du kan träna din anpassade neurala röst att tala med vissa förinställda format, till exempel cheerful
, sad
och whispering
. Du kan också träna en anpassad neural röst att tala i ett anpassat format enligt dina träningsdata. Om du vill använda ditt anpassade neurala röstformat i SSML anger du formatmallsnamnet som du tidigare angav i Speech Studio.
I det här exemplet används en anpassad röst med namnet my-custom-voice. Den anpassade rösten talar med den förinställda stil- cheerful
och formatgraden 2
, och sedan med ett anpassat format med namnet my-custom-style och style degree of 0.01
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="my-custom-voice">
<mstts:express-as style="cheerful" styledegree="2">
That'd be just amazing!
</mstts:express-as>
<mstts:express-as style="my-custom-style" styledegree="0.01">
What's next?
</mstts:express-as>
</voice>
</speak>
Talarprofil-ID
Du använder elementet mstts:ttsembedding
för att ange speakerProfileId
egenskapen för en personlig röst. Personlig röst är en anpassad neural röst som tränas på din egen röst eller kundens röst. Mer information finns i skapa en personlig röst.
I följande SSML-exempel används elementet <mstts:ttsembedding>
med röstnamn och talarprofil-ID.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice xml:lang='en-US' xml:gender='Male' name='PhoenixV2Neural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 我很高兴听到你觉得我很了不起,我让你的旅行计划更轻松、更有趣。Je suis heureux d'apprendre que vous me trouvez incroyable et que j'ai rendu la planification de votre voyage plus facile et plus amusante.
</mstts:ttsembedding>
</voice>
</speak>
Justera talspråk
Som standard kan flerspråkiga röster identifiera språket i indatatexten automatiskt och tala på språket för standardspråket för indatatexten utan att använda SSML. Du kan också använda elementet <lang xml:lang>
för att justera talarspråket för dessa röster för att ange önskad accent, till exempel en-GB
för brittisk engelska. Du kan justera talarspråket på både meningsnivå och ordnivå. Information om språk som stöds för flerspråkig röst finns i Flerspråkiga röster med lang-elementet för en tabell som visar syntax- <lang>
och attributdefinitionerna.
I följande tabell beskrivs användningen av <lang xml:lang>
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
xml:lang |
Det språk som du vill att den neurala rösten ska tala. | Krävs för att justera talarspråket för den neurala rösten. Om du använder lang xml:lang måste nationella inställningar anges. |
Kommentar
Elementet <lang xml:lang>
är inte kompatibelt med elementen prosody
och break
. Du kan inte justera paus och prosody som tonhöjd, kontur, hastighet eller volym i det här elementet.
Icke-flerspråkiga röster stöder inte elementet <lang xml:lang>
avsiktligt.
Flerspråkiga röster med lang-elementet
Använd avsnittet flerspråkiga röster för att avgöra vilka talspråk som Speech-tjänsten stöder för varje neural röst, vilket visas i följande exempeltabell. Om rösten inte talar indatatextens språk matar taltjänsten inte ut syntetiserat ljud.
Röst | Automatiskt identifierat språknummer | Automatiskt identifierat språk (språkvariant) | Alla nationella inställningar | Alla språk (språk) som stöds från SSML |
---|---|---|---|---|
en-US-AndrewMultilingualNeural 1 (man)en-US-AvaMultilingualNeural 1 (kvinna)en-US-BrianMultilingualNeural 1 (man)en-US-EmmaMultilingualNeural 1 (kvinna) |
77 | Afrikaaner (af-ZA ), albanska (sq-AL ), amhariska (am-ET ), arabiska (ar-EG ), armeniska (hy-AM ), azerbajdzjanska (az-AZ ), bahasa indonesiska (id-ID ), bangla (bn-BD ), baskiska (eu-ES ), bengali (), bosniska (bs-BA bn-IN ), bulgariska (bg-BG ), burmesiska (), katalanska (my-MM ca-ES ), kinesiska kantonesiska (zh-HK ), kinesiska mandarin (zh-CN ), kinesiska taiwanesiska (zh-TW ), kroatiska (), tjeckiska (cs-CZ hr-HR ), danska (da-DK ), nederländska (nl-NL ), engelska (en-US ), estniska (et-EE ), filippinska (fil-PH ), finska (fi-FI ), franska (fr-FR ), galiciska (gl-ES ), georgiska (ka-GE ), tyska (de-DE ), grekiska (el-GR ), hebreiska (he-IL ), hindi (hi-IN ), ungerska (hu-HU ), isländska (is-IS ), irländska (ga-IE ), italienska (it-IT ), japanska (ja-JP ), javanesiska (jv-ID ), Kannada (kn-IN ), kazakiska (kk-KZ ), khmer (km-KH ), koreanska (ko-KR ), Lao (lo-LA ), lettiska (lv-LV ), litauiska (lt-LT ), makedonska (), Malajiska (mk-MK ms-MY ), Malayalam (), maltesiska (ml-IN mt-MT ), mongoliska (mn-MN ), nepalesiska (ne-NP ), norska Bokmål (nb-NO ), Pashto (ps-AF ), persiska (fa-IR ), polska (pl-PL ), portugisiska (pt-BR ), rumänska (ro-RO ), ryska (ru-RU ), serbiska (sr-RS ), Sinhala (si-LK ), slovakiska (sk-SK ), slovenska (sl-SI ), somaliska (so-SO ), spanska (es-ES ), sundanese (su-ID ), swahili (sw-KE ), svenska (sv-SE ), tamil (ta-IN ), telugu (te-IN ), thailändska (th-TH ), turkiska (tr-TR ), ukrainska (uk-UA ), Urdu (ur-PK ), uzbekiska (), vietnamesiska (uz-UZ vi-VN ), walesiska (cy-GB ), Zulu (zu-ZA ) |
91 | Afrikaaner (Sydafrika) (af-ZA ), albanska (Albanien) (sq-AL ), amhariska (Etiopien) (am-ET ), arabiska (Egypten) (ar-EG ), arabiska (Saudiarabien) (ar-SA ), armeniska (Armenien) (hy-AM ), azerbajdzjanska (Azerbajdzjan) (az-AZ ), baskiska (baskiska) (eu-ES ), bengali (Indien) (bn-IN ), bosniska (Bosnien och Hercegovina) (bs-BA ), bulgariska (Bulgarien) (bg-BG ), burmesiska (Myanmar) (my-MM ), katalanska (Spanien) (ca-ES ), kinesiska (kantonesiska, Traditionell) (zh-HK ), kinesiska (mandarin, förenklad) (zh-CN ), kinesiska (taiwanesisk mandarin) ( zh-TW ), kroatiska (Kroatien) (hr-HR ), tjeckiska (tjeckiska) (cs-CZ ), danska (Danmark) (da-DK ), nederländska (Belgien) (nl-BE ), nederländska (Nederländerna) (nl-NL ), engelska (Australien) (en-AU ), engelska (Kanada) (en-CA ), engelska (Hong Kong SAR) (en-HK ), engelska (Indien) (en-IN ), engelska (Irland) (en-IE ), engelska (Storbritannien) (en-GB ), engelska (USA) (en-US ), estniska (Estland) (et-EE ), filippinska (Filippinerna) (fil-PH ), finska (Finland) (fi-FI ), franska (Belgien) ( (fr-BE ), franska (Kanada) (fr-CA ), franska (Frankrike) (fr-FR ), franska (Schweiz) (fr-CH ), galiciska (galiciska) (gl-ES ), georgiska (Georgien) (ka-GE ), tyska (Österrike) (de-AT ), tyska (Tyskland) (de-DE ), tyska (Schweiz) (de-CH ), grekiska (Grekland) (el-GR ), Hebreiska (Israel) (he-IL ), hindi (Indien) (hi-IN ), ungerska (Ungern) (hu-HU ), isländska (Island) (is-IS ), indonesiska (Indonesien) (id-ID ), irländska (Irland) (ga-IE ), italienska (Italien) (it-IT ), japanska (Japan) (ja-JP ), javanesiska (Indonesien) ( jv-ID ), Kannada (Indien) (kn-IN ), kazakiska (Kazakstan) (kk-KZ ), Khmer (Kambodja) (km-KH ), koreanska (Korea) (ko-KR ), Lao (Laos) (lo-LA ), lettiska (Lettland) (lv-LV ), litauiska (Litauen) (lt-LT ), makedonska (Nordmakedonien) (mk-MK ), Malajiska (Malaysia) (ms-MY ), Malayalam (Indien) (ml-IN ), maltesiska (Malta) (mt-MT ), mongoliska (Mongoliet) (mn-MN ), Nepali (Nepal) (ne-NP ), norska (Bokmål, Norge) (nb-NO ), Pashto (Afghanistan) (ps-AF ), persiska (Iran) (fa-IR ), polska (Polen) (pl-PL ), portugisiska (Brasilien) (pt-BR ), portugisiska (Portugal) (pt-PT ), rumänska (Rumänien) (ro-RO ), ryska (Ryssland) (ru-RU ), serbiska (kyrillisk, Serbien) (sr-RS ), Sinhala (Sri Lanka) (si-LK ), Slovakiska (Slovakien) (sk-SK ), slovenska (Slovenien) (sl-SI ), somaliska (Somalia) (so-SO ), spanska (Mexiko) (es-MX ), spanska (Spanien) (es-ES ), Sundanese (Indonesien) (su-ID ), Swahili (Kenya) (sw-KE ), svenska (Sverige) (sv-SE ), tamil (Indien) (ta-IN ), Telugu (Indien) (te-IN ), thailändska (Thailand) (th-TH ), turkiska (Türkiye) (tr-TR ), ukrainska (Ukraina) (uk-UA ), Urdu (Pakistan) (ur-PK ), uzbekiska (Uzbekistan) (uz-UZ ), vietnamesiska (Vietnam) (vi-VN ), walesiska (Storbritannien) (cy-GB ), Zulu (Sydafrika) (zu-ZA ) |
1 Det är neurala flerspråkiga röster i Azure AI Speech. Alla flerspråkiga röster kan tala på språket i standardspråket för indatatexten utan att använda SSML. Du kan dock fortfarande använda elementet <lang xml:lang>
för att justera talande accent för varje språk för att ange önskad accent, till exempel brittisk accent (en-GB
) för engelska. Det primära språket för varje röst anges med prefixet i dess namn, till exempel rösten en-US-AndrewMultilingualNeural
, dess primära språk är en-US
.
Kommentar
Flerspråkiga röster stöder inte helt vissa SSML-element, till exempel break
, emphasis
, silence
och sub
.
Lang-exempel
Information om de värden som stöds för elementets attribut finns i lang
Justera talande språk.
Du måste ange en-US
som standardspråk i elementet speak
, oavsett om språket justeras någon annanstans eller inte. I det här exemplet är en-US
det primära språket för en-US-AvaMultilingualNeural
.
Det här SSML-kodavsnittet visar hur du använder <lang xml:lang>
för att tala de-DE
med neural en-US-AvaMultilingualNeural
röst.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="de-DE">
Wir freuen uns auf die Zusammenarbeit mit Ihnen!
</lang>
</voice>
</speak>
I elementet speak
kan du ange flera språk, inklusive en-US
för text till tal-utdata. För varje justerat språk måste texten matcha språket och omslutas i ett voice
element. Det här SSML-kodavsnittet visar hur du använder <lang xml:lang>
för att ändra talspråken till es-MX
, en-US
och fr-FR
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<lang xml:lang="es-MX">
¡Esperamos trabajar con usted!
</lang>
<lang xml:lang="en-US">
We look forward to working with you!
</lang>
<lang xml:lang="fr-FR">
Nous avons hâte de travailler avec vous!
</lang>
</voice>
</speak>
Justera prosodi
Du kan använda elementet prosody
för att ange ändringar i tonhöjd, kontur, intervall, hastighet och volym för text-till-tal-utdata. Elementet prosody
kan innehålla text och följande element: audio
, break
, p
, phoneme
, prosody
, say-as
, och sub
s
.
Eftersom prosomatiska attributvärden kan variera över ett brett intervall tolkar taligenkänningen de tilldelade värdena som ett förslag på vad de faktiska prosomada värdena för den valda rösten ska vara. Text till tal begränsar eller ersätter värden som inte stöds. Exempel på värden som inte stöds är en tonhöjd på 1 MHz eller en volym på 120.
I följande tabell beskrivs användningen av prosody
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
contour |
Kontur representerar ändringar i tonhöjd. Dessa ändringar representeras som en matris med mål vid angiven tidpunkt positioner i talutdata. Uppsättningar med parameterpar definierar varje mål. Till exempel: <prosody contour="(0%,+20Hz) (10%,-2st) (40%,+10Hz)"> Det första värdet i varje uppsättning parametrar anger platsen för tonhöjdsändringen som en procentandel av textens varaktighet. Det andra värdet anger hur mycket som ska höjas eller sänka tonhöjden med hjälp av ett relativt värde eller ett uppräkningsvärde för tonhöjd (se pitch ). Tonhöjdskontur fungerar inte på enkla ord och korta fraser. Vi rekommenderar att du justerar tonhöjdskonturen på hela meningar eller långa fraser. |
Valfritt |
pitch |
Anger originalplan för texten. Tonhöjdsändringar kan tillämpas på meningsnivå. Tonhöjdsändringarna ska vara mellan 0,5 och 1,5 gånger det ursprungliga ljudet. Du kan uttrycka tonhöjden som:
|
Valfritt |
range |
Ett värde som representerar tonhöjdsintervallet för texten. Du kan uttrycka range med samma absoluta värden, relativa värden eller uppräkningsvärden som används för att beskriva pitch . |
Valfritt |
rate |
Anger talhastigheten för texten. Talfrekvens kan tillämpas på ord- eller meningsnivå. Hastighetsändringarna bör vara inom 0.5 tidsintervallet för 2 det ursprungliga ljudet. Du kan uttrycka rate som:
|
Valfritt |
volume |
Anger talröstens volymnivå. Volymändringar kan tillämpas på meningsnivå. Du kan uttrycka volymen som:
|
Valfritt |
Prosody-exempel
Information om de värden som stöds för elementets attribut finns i prosody
Justera prosody.
Ändra talfrekvensexempel
Det här SSML-kodavsnittet illustrerar hur rate
attributet används för att ändra talfrekvensen till 30 % högre än standardfrekvensen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody rate="+30.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Ändra volymexempel
Det här SSML-kodavsnittet illustrerar hur volume
attributet används för att ändra volymen till 20 % större än standardvolymen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody volume="+20.00%">
Enjoy using text to speech.
</prosody>
</voice>
</speak>
Ändra tonhöjdsexempel
Det här SSML-kodavsnittet illustrerar hur pitch
attributet används så att rösten talar i hög tonhöjd.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
Welcome to <prosody pitch="high">Enjoy using text to speech.</prosody>
</voice>
</speak>
Ändra lutningskonturexempel
Det här SSML-kodavsnittet illustrerar hur contour
attributet används för att ändra konturen.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<prosody contour="(60%,-60%) (100%,+80%)" >
Were you the only person in the room?
</prosody>
</voice>
</speak>
Justera betoning
Du kan använda det valfria emphasis
elementet för att lägga till eller ta bort stress på ordnivå för texten. Det här elementet kan bara innehålla text och följande element: audio
, break
, emphasis
, lang
, phoneme
, prosody
, say-as
, sub
och voice
.
Kommentar
Betoningsjusteringen på ordnivå är endast tillgänglig för dessa neurala röster: en-US-GuyNeural
, en-US-DavisNeural
och en-US-JaneNeural
.
För ord som har låg tonhöjd och kort varaktighet kanske tonhöjden inte höjs tillräckligt för att märkas.
I följande tabell beskrivs elementets emphasis
attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
level |
Anger styrkan i den betoning som ska tillämpas:
När attributet level inte har angetts är moderate standardnivån . Mer information om varje attribut finns i betoningselementet. |
Valfritt |
Exempel på betoning
Information om de värden som stöds för elementets attribut finns emphasis
i Justera betoning.
Det här SSML-kodfragmentet visar hur du kan använda elementet emphasis
för att lägga till måttlig nivåbetoning för ordet "möten".
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AndrewMultilingualNeural">
I can help you join your <emphasis level="moderate">meetings</emphasis> fast.
</voice>
</speak>
Lägg till inspelat ljud
Elementet audio
är valfritt. Du kan använda den för att infoga förinspelat ljud i ett SSML-dokument. Elementets audio
brödtext kan innehålla oformaterad text eller SSML-markering som talas om ljudfilen inte är tillgänglig eller inte går att spela upp. Elementet audio
kan också innehålla text och följande element: audio
, break
, p
, s
, phoneme
, prosody
, , say-as
och sub
.
Ljud som ingår i SSML-dokumentet måste uppfylla följande krav:
- Ljudfilen måste vara giltig *.mp3, *.wav, *.opus, *.ogg, *.flac eller *.wma filer.
- Den sammanlagda totala tiden för alla text- och ljudfiler i ett enda svar får inte överstiga 600 sekunder.
- Ljudet får inte innehålla någon kundspecifik eller annan känslig information.
Kommentar
Elementet audio
stöds inte av API:et för långt ljud. Använd batchsyntes-API:et i stället för långformatstext till tal.
I följande tabell beskrivs användningen av audio
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
src |
URI-platsen för ljudfilen. Ljudet måste finnas på en Internettillgänglig HTTPS-slutpunkt. HTTPS krävs. Domänen som är värd för filen måste innehålla ett giltigt, betrott TLS/SSL-certifikat. Du bör placera ljudfilen i Blob Storage i samma Azure-region som text till talslutpunkt för att minimera svarstiden. | Obligatoriskt |
Ljudexempel
Information om de värden som stöds för elementets attribut finns i audio
Lägga till inspelat ljud.
Det här SSML-kodavsnittet visar hur du använder src
attributet för att infoga ljud från två .wav filer.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<p>
<audio src="https://contoso.com/opinionprompt.wav"/>
Thanks for offering your opinion. Please begin speaking after the beep.
<audio src="https://contoso.com/beep.wav">
Could not play the beep, please voice your opinion now.
</audio>
</p>
</voice>
</speak>
Justera ljudvaraktigheten
Använd elementet mstts:audioduration
för att ange varaktigheten för utdataljudet. Använd det här elementet för att synkronisera tidpunkten för slutförande av ljudutdata. Ljudvaraktigheten kan minskas eller ökas mellan 0.5
tidsintervallet 2
för det ursprungliga ljudet. Det ursprungliga ljudet är ljudet utan andra frekvensinställningar. Talhastigheten saktas ned eller ökas i enlighet med detta baserat på det angivna värdet.
Inställningen för ljudvaraktighet gäller för all indatatext i dess omslutande voice
element. Om du vill återställa eller ändra inställningen för ljudvaraktighet igen måste du använda ett nytt voice
element med antingen samma röst eller en annan röst.
I följande tabell beskrivs användningen av mstts:audioduration
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
value |
Den begärda varaktigheten för utdataljudet på några sekunder, till exempel 2s , eller millisekunder, till exempel 2000ms .Det maximala värdet för utdataljudets varaktighet är 300 sekunder. Det här värdet ska vara inom 0.5 tid till 2 det ursprungliga ljudet utan några andra hastighetsinställningar. Om den begärda varaktigheten för ljudet till exempel är 30s måste det ursprungliga ljudet annars vara mellan 15 och 60 sekunder. Om du anger ett värde utanför dessa gränser anges varaktigheten enligt respektive minsta eller högsta multipel. För utdataljud längre än 300 sekunder genererar du först det ursprungliga ljudet utan andra frekvensinställningar och beräknar sedan hastigheten för att justera med hjälp av prosodyhastigheten för att uppnå önskad varaktighet. |
Obligatoriskt |
exempel på mstts-ljudvaraktighet
Information om de värden som stöds för elementets mstts:audioduration
attribut finns i Justera ljudvaraktigheten.
I det här exemplet är det ursprungliga ljudet cirka 15 sekunder. Elementet mstts:audioduration
används för att ange ljudvaraktigheten till 20 sekunder eller 20s
.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" xml:lang="en-US">
<voice name="en-US-AvaMultilingualNeural">
<mstts:audioduration value="20s"/>
If we're home schooling, the best we can do is roll with what each day brings and try to have fun along the way.
A good place to start is by trying out the slew of educational apps that are helping children stay happy and smash their schooling at the same time.
</voice>
</speak>
Lägg till bakgrundsljud
Du kan använda elementet mstts:backgroundaudio
för att lägga till bakgrundsljud i dina SSML-dokument eller blanda en ljudfil med text till tal. Med mstts:backgroundaudio
kan du loopa en ljudfil i bakgrunden, tona in i början av text till tal och tona ut i slutet av text till tal.
Om bakgrundsljudet som tillhandahålls är kortare än texten till tal eller tona ut, loopar det. Om den är längre än text till tal stoppas den när toningen är klar.
Endast en bakgrundsljudfil tillåts per SSML-dokument. Du kan interspersera audio
taggar i elementet voice
för att lägga till mer ljud i ditt SSML-dokument.
Kommentar
Elementet mstts:backgroundaudio
ska placeras framför alla voice
element. Om det anges måste det vara det första underordnade elementet speak
.
Elementet mstts:backgroundaudio
stöds inte av API:et för långt ljud. För långformatstext till tal använder du batchsyntes-API:et (förhandsversion) i stället.
I följande tabell beskrivs användningen av mstts:backgroundaudio
elementets attribut:
Attribut | beskrivning | Obligatorisk eller valfri |
---|---|---|
src |
URI-platsen för bakgrundsljudfilen. | Obligatoriskt |
volume |
Volymen för bakgrundsljudfilen. Accepterade värden: 0 till 100 inkluderande. Standardvärdet är 1 . |
Valfritt |
fadein |
Varaktigheten för bakgrundsljudet tonas in som millisekunder. Standardvärdet är 0 , vilket motsvarar ingen toning. Accepterade värden: 0 till 10000 inkluderande. |
Valfritt |
fadeout |
Varaktigheten för bakgrundsljudet tonas ut i millisekunder. Standardvärdet är 0 , vilket motsvarar ingen toning. Accepterade värden: 0 till 10000 inkluderande. |
Valfritt |
mstss backgroundaudio-exempel
Information om de värden som stöds för elementets attribut finns i mstts:backgroundaudi
Lägg till bakgrundsljud.
<speak version="1.0" xml:lang="en-US" xmlns:mstts="http://www.w3.org/2001/mstts">
<mstts:backgroundaudio src="https://contoso.com/sample.wav" volume="0.7" fadein="3000" fadeout="4000"/>
<voice name="en-US-AvaMultilingualNeural">
The text provided in this document will be spoken over the background audio.
</voice>
</speak>