Persoonlijke stem gebruiken in uw toepassing
U kunt de sprekerprofiel-id voor uw persoonlijke stem gebruiken om spraak te synthetiseren in een van de 91 talen die worden ondersteund op meer dan 100 landinstellingen. Er is geen landinstellingstag vereist. Persoonlijke stem maakt gebruik van automatische taaldetectie op zinsniveau.
Persoonlijke stem integreren in uw toepassing
U moet SSML (Speech Synthesis Markup Language) gebruiken om persoonlijke spraak in uw toepassing te gebruiken. SSML is een op XML gebaseerde opmaaktaal die een standaardmethode biedt voor het markeren van tekst voor het genereren van synthetische spraak. SSML-tags worden gebruikt om de uitspraak, het volume, de toonhoogte, de snelheid en andere kenmerken van de uitvoer van de spraaksynthese te bepalen.
De
speakerProfileId
eigenschap in SSML wordt gebruikt om de id van het sprekerprofiel voor de persoonlijke stem op te geven.De spraaknaam wordt opgegeven in de
name
eigenschap in SSML. Voor persoonlijke stem moet de naam van de stem een van de ondersteunde basismodelstemnamen zijn. Als u een lijst met ondersteunde basismodelstemnamen wilt ophalen, gebruikt u de BaseModels_List bewerking van de aangepaste spraak-API.Notitie
De spraaknamen met het
Latest
label , zoalsDragonLatestNeural
ofPhoenixLatestNeural
, worden van tijd tot tijd bijgewerkt. De prestaties kunnen variëren met updates voor doorlopende verbeteringen. Als u een vaste versie wilt gebruiken, selecteert u er een met een versienummer, zoalsPhoenixV2Neural
.DragonLatestNeural
is een basismodel met superieure overeenkomsten voor het klonen van stem vergeleken metPhoenixLatestNeural
.PhoenixLatestNeural
is een basismodel met nauwkeurigere uitspraak en lagere latentie danDragonLatestNeural
.Voor persoonlijke stem kunt u het
<lang xml:lang>
element gebruiken om de spreektaal aan te passen. Het is hetzelfde als bij meertalige stemmen. Lees hoe u het lang-element gebruikt om verschillende talen te spreken.
Hier volgt een voorbeeld van SSML in een aanvraag voor tekst naar spraak met de spraaknaam en de id van het sprekerprofiel. In het voorbeeld ziet u ook hoe u overschakelt van en-US
talen naar zh-HK
het gebruik van het <lang xml:lang>
element.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='DragonLatestNeural'>
<mstts:ttsembedding speakerProfileId='your speaker profile ID here'>
I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun.
<lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起,我讓你的旅行計劃更輕鬆、更有趣。</lang>
</mstts:ttsembedding>
</voice>
</speak>
U kunt de SSML gebruiken via de Speech SDK of REST API.
- Realtime spraaksynthese: gebruik de Speech SDK of REST API om tekst naar spraak te converteren.
- Wanneer u speech-SDK gebruikt, moet u geen eindpunt-id instellen, net zoals prebuild voice.
- Wanneer u REST API gebruikt, gebruikt u een vooraf samengesteld eindpunt voor neurale stemmen.
Ondersteunde en niet-ondersteunde SSML-elementen voor persoonlijke spraak
Raadpleeg de volgende tabel voor gedetailleerde informatie over de ondersteunde en niet-ondersteunde SSML-elementen voor Phoenix- en Dragon-modellen. Raadpleeg de SSML-documentstructuur en -gebeurtenissen voor instructies over het gebruik van SSML-elementen.
Element | Beschrijving | Ondersteund in Phoenix | Ondersteund in Dragon |
---|---|---|---|
<voice> |
Hiermee geeft u de stem en optionele effecten (eq_car en eq_telecomhp8k ). |
Ja | Ja |
<mstts:express-as> |
Hiermee geeft u spreekstijlen en -rollen op. | Nee | Nr. |
<mstts:ttsembedding> |
Hiermee geeft u de speakerProfileId eigenschap voor een persoonlijke stem. |
Ja | Ja |
<lang xml:lang> |
Hiermee geeft u de spreektaal op. | Ja | Ja |
<prosody> |
Hiermee past u de toonhoogte, contour, bereik, snelheid en volume aan. | ||
pitch |
Geeft de basislijnhoogte voor de tekst aan. | Nee | Nr. |
contour |
Vertegenwoordigt wijzigingen in pitch. | Nee | Nr. |
range |
Vertegenwoordigt het bereik van de toonhoogte voor de tekst. | Nee | Nr. |
rate |
Geeft de spreeksnelheid van de tekst aan. | Ja | Ja |
volume |
Geeft het volumeniveau van de gesproken stem aan. | Nee | Nr. |
<emphasis> |
Hiermee wordt stress op woordniveau voor de tekst toegevoegd of verwijderd. | Nee | Nr. |
<audio> |
Hiermee wordt vooraf opgenomen audio in een SSML-document ingesloten. | Ja | Nr. |
<mstts:audioduration> |
Hiermee geeft u de duur van de uitvoeraudio. | Nee | Nr. |
<mstts:backgroundaudio> |
Hiermee voegt u achtergrondaudio toe aan uw SSML-documenten of mengt u een audiobestand met tekst naar spraak. | Ja | Nr. |
<phoneme> |
Hiermee geeft u de fonetische uitspraak in SSML-documenten op. | ||
ipa |
Een van de fonetische alfabetten. | Ja | Nr. |
sapi |
Een van de fonetische alfabetten. | Nee | Nr. |
ups |
Een van de fonetische alfabetten. | Ja | Nr. |
x-sampa |
Een van de fonetische alfabetten. | Ja | Nr. |
<lexicon> |
Definieert hoe meerdere entiteiten worden gelezen in SSML. | Ja | Ja (alleen ondersteuningsalias) |
<say-as> |
Geeft het inhoudstype, zoals getal of datum, van de tekst van het element aan. | Ja | Ja |
<sub> |
Geeft aan dat de tekstwaarde van het aliaskenmerk moet worden uitgesproken in plaats van de ingesloten tekst van het element. | Ja | Ja |
<math> |
Hiermee gebruikt u MathML als invoertekst om wiskundige notaties correct uit te spreken in de uitvoeraudio. | Ja | Nr. |
<bookmark> |
Hiermee haalt u de offset van elke markering in de audiostream op. | Ja | Nr. |
<break> |
Overschrijft het standaardgedrag van pauzes of pauzes tussen woorden. | Ja | Ja |
<mstts:silence> |
Hiermee worden pauzes voor of na tekst ingevoegd, of tussen twee aangrenzende zinnen. | Ja | Nr. |
<mstts:viseme> |
Definieert de positie van het gezicht en de mond terwijl een persoon spreekt. | Ja | Nr. |
<p> |
Geeft alinea's in SSML-documenten aan. | Ja | Ja |
<s> |
Geeft zinnen in SSML-documenten aan. | Ja | Ja |
Ondersteunde en niet-ondersteunde SDK-functies voor persoonlijke spraak
In de volgende tabel ziet u welke SDK-functies worden ondersteund voor Phoenix- en Dragon-modellen. Raadpleeg Abonneren op synthesizer-gebeurtenissen voor meer informatie over het gebruik van deze SDK-functies in uw toepassingen.
SDK-functies | Beschrijving | Ondersteund in Phoenix | Ondersteund in Dragon |
---|---|---|---|
Woordgrens | Signalen dat een woordgrens is ontvangen tijdens de synthese, waardoor de timing van woorden tijdens het spraaksyntheseproces nauwkeurig is. | Ja | Nr. |
Viseme-gebeurtenissen | Biedt informatie over viseme (lippen, kaak en tongverplaatsing) tijdens de synthese, waardoor visuele synchronisatie mogelijk is. | Ja | Nr. |