Persoonlijke stem gebruiken in uw toepassing

Artikel
03/10/2025

U kunt de sprekerprofiel-id voor uw persoonlijke stem gebruiken om spraak te synthetiseren in een van de 91 talen die worden ondersteund op meer dan 100 landinstellingen. Er is geen landinstellingstag vereist. Persoonlijke stem maakt gebruik van automatische taaldetectie op zinsniveau.

Persoonlijke stem integreren in uw toepassing

U moet SSML (Speech Synthesis Markup Language) gebruiken om persoonlijke spraak in uw toepassing te gebruiken. SSML is een op XML gebaseerde opmaaktaal die een standaardmethode biedt voor het markeren van tekst voor het genereren van synthetische spraak. SSML-tags worden gebruikt om de uitspraak, het volume, de toonhoogte, de snelheid en andere kenmerken van de uitvoer van de spraaksynthese te bepalen.

De speakerProfileId eigenschap in SSML wordt gebruikt om de id van het sprekerprofiel voor de persoonlijke stem op te geven.
De spraaknaam wordt opgegeven in de name eigenschap in SSML. Voor persoonlijke stem moet de naam van de stem een van de ondersteunde basismodelstemnamen zijn. Als u een lijst met ondersteunde basismodelstemnamen wilt ophalen, gebruikt u de BaseModels_List bewerking van de aangepaste spraak-API.

Notitie

De spraaknamen met het Latestlabel , zoals DragonLatestNeural of PhoenixLatestNeural, worden van tijd tot tijd bijgewerkt. De prestaties kunnen variëren met updates voor doorlopende verbeteringen. Als u een vaste versie wilt gebruiken, selecteert u er een met een versienummer, zoals PhoenixV2Neural.
DragonLatestNeural is een basismodel met superieure overeenkomsten voor het klonen van stem vergeleken met PhoenixLatestNeural. PhoenixLatestNeural is een basismodel met nauwkeurigere uitspraak en lagere latentie dan DragonLatestNeural.
Voor persoonlijke stem kunt u het <lang xml:lang> element gebruiken om de spreektaal aan te passen. Het is hetzelfde als bij meertalige stemmen. Lees hoe u het lang-element gebruikt om verschillende talen te spreken.

Hier volgt een voorbeeld van SSML in een aanvraag voor tekst naar spraak met de spraaknaam en de id van het sprekerprofiel. In het voorbeeld ziet u ook hoe u overschakelt van en-US talen naar zh-HK het gebruik van het <lang xml:lang> element.

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
    <voice name='DragonLatestNeural'> 
        <mstts:ttsembedding speakerProfileId='your speaker profile ID here'> 
            I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
            <lang xml:lang='zh-HK'>我很高興聽到你覺得我很了不起，我讓你的旅行計劃更輕鬆、更有趣。</lang>
        </mstts:ttsembedding> 
    </voice> 
</speak>

U kunt de SSML gebruiken via de Speech SDK of REST API.

Realtime spraaksynthese: gebruik de Speech SDK of REST API om tekst naar spraak te converteren.
- Wanneer u speech-SDK gebruikt, moet u geen eindpunt-id instellen, net zoals prebuild voice.
- Wanneer u REST API gebruikt, gebruikt u een vooraf samengesteld eindpunt voor neurale stemmen.

Ondersteunde en niet-ondersteunde SSML-elementen voor persoonlijke spraak

Raadpleeg de volgende tabel voor gedetailleerde informatie over de ondersteunde en niet-ondersteunde SSML-elementen voor Phoenix- en Dragon-modellen. Raadpleeg de SSML-documentstructuur en -gebeurtenissen voor instructies over het gebruik van SSML-elementen.

Element	Beschrijving	Ondersteund in Phoenix	Ondersteund in Dragon
`<voice>`	Hiermee geeft u de stem en optionele effecten (`eq_car` en `eq_telecomhp8k`).	Ja	Ja
`<mstts:express-as>`	Hiermee geeft u spreekstijlen en -rollen op.	Nee	Nr.
`<mstts:ttsembedding>`	Hiermee geeft u de `speakerProfileId` eigenschap voor een persoonlijke stem.	Ja	Ja
`<lang xml:lang>`	Hiermee geeft u de spreektaal op.	Ja	Ja
`<prosody>`	Hiermee past u de toonhoogte, contour, bereik, snelheid en volume aan.
`pitch`	Geeft de basislijnhoogte voor de tekst aan.	Nee	Nr.
`contour`	Vertegenwoordigt wijzigingen in pitch.	Nee	Nr.
`range`	Vertegenwoordigt het bereik van de toonhoogte voor de tekst.	Nee	Nr.
`rate`	Geeft de spreeksnelheid van de tekst aan.	Ja	Ja
`volume`	Geeft het volumeniveau van de gesproken stem aan.	Nee	Nr.
`<emphasis>`	Hiermee wordt stress op woordniveau voor de tekst toegevoegd of verwijderd.	Nee	Nr.
`<audio>`	Hiermee wordt vooraf opgenomen audio in een SSML-document ingesloten.	Ja	Nr.
`<mstts:audioduration>`	Hiermee geeft u de duur van de uitvoeraudio.	Nee	Nr.
`<mstts:backgroundaudio>`	Hiermee voegt u achtergrondaudio toe aan uw SSML-documenten of mengt u een audiobestand met tekst naar spraak.	Ja	Nr.
`<phoneme>`	Hiermee geeft u de fonetische uitspraak in SSML-documenten op.
`ipa`	Een van de fonetische alfabetten.	Ja	Nr.
`sapi`	Een van de fonetische alfabetten.	Nee	Nr.
`ups`	Een van de fonetische alfabetten.	Ja	Nr.
`x-sampa`	Een van de fonetische alfabetten.	Ja	Nr.
`<lexicon>`	Definieert hoe meerdere entiteiten worden gelezen in SSML.	Ja	Ja (alleen ondersteuningsalias)
`<say-as>`	Geeft het inhoudstype, zoals getal of datum, van de tekst van het element aan.	Ja	Ja
`<sub>`	Geeft aan dat de tekstwaarde van het aliaskenmerk moet worden uitgesproken in plaats van de ingesloten tekst van het element.	Ja	Ja
`<math>`	Hiermee gebruikt u MathML als invoertekst om wiskundige notaties correct uit te spreken in de uitvoeraudio.	Ja	Nr.
`<bookmark>`	Hiermee haalt u de offset van elke markering in de audiostream op.	Ja	Nr.
`<break>`	Overschrijft het standaardgedrag van pauzes of pauzes tussen woorden.	Ja	Ja
`<mstts:silence>`	Hiermee worden pauzes voor of na tekst ingevoegd, of tussen twee aangrenzende zinnen.	Ja	Nr.
`<mstts:viseme>`	Definieert de positie van het gezicht en de mond terwijl een persoon spreekt.	Ja	Nr.
`<p>`	Geeft alinea's in SSML-documenten aan.	Ja	Ja
`<s>`	Geeft zinnen in SSML-documenten aan.	Ja	Ja

Ondersteunde en niet-ondersteunde SDK-functies voor persoonlijke spraak

In de volgende tabel ziet u welke SDK-functies worden ondersteund voor Phoenix- en Dragon-modellen. Raadpleeg Abonneren op synthesizer-gebeurtenissen voor meer informatie over het gebruik van deze SDK-functies in uw toepassingen.

SDK-functies	Beschrijving	Ondersteund in Phoenix	Ondersteund in Dragon
Woordgrens	Signalen dat een woordgrens is ontvangen tijdens de synthese, waardoor de timing van woorden tijdens het spraaksyntheseproces nauwkeurig is.	Ja	Nr.
Viseme-gebeurtenissen	Biedt informatie over viseme (lippen, kaak en tongverplaatsing) tijdens de synthese, waardoor visuele synchronisatie mogelijk is.	Ja	Nr.

Referentiedocumentatie

Naslagdocumentatie voor custom voice REST API

Volgende stappen

Meer informatie over aangepaste neurale spraak vindt u in het overzicht.
Meer informatie over Speech Studio vindt u in het overzicht.

Delen via