Che cosa sono le voci ad alta definizione? (anteprima)

Articolo
10/23/2024

Nota

Questa funzionalità è attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Riconoscimento vocale di Intelligenza artificiale di Azure continua ad avanzare nel campo della tecnologia di sintesi vocale con l'introduzione di voci neurali di sintesi vocale (HD). Le voci HD possono comprendere il contenuto, rilevare automaticamente le emozioni nel testo di input e regolare il tono di pronuncia in tempo reale in modo che corrisponda al sentiment. Le voci HD mantengono un utente vocale coerente dalle controparti neurali (e non HD) e offrono un valore ancora maggiore grazie a funzionalità avanzate.

Funzionalità principali del testo neurale per le voci HD vocali

Di seguito sono elencate le funzionalità principali delle voci Di Azure AI Speech HD:

Funzionalità principali	Descrizione
Generazione di riconoscimento vocale simile a quella umana	Il testo neurale per le voci HD può generare voce altamente naturale e simile a quella umana. Il modello viene sottoposto a training su milioni di ore di dati multilingue, consentendo di interpretare con precisione il testo di input e generare il parlato con l'emozione, il ritmo e il ritmo appropriati senza regolazioni manuali.
Colloquiale	Il testo neurale per le voci HD vocali può replicare modelli di riconoscimento vocale naturale, incluse pause spontanee ed enfasi. Quando viene specificato testo conversazionale, il modello può riprodurre fonemi comuni, ad esempio pause e parole di riempimento. La voce generata suona come se qualcuno stia conversando direttamente con te.
Varianti di prosodia	Le voci Neural Text to Speech HD introducono lievi variazioni in ogni output per migliorare il realismo. Queste variazioni rendono il suono del parlato più naturale, poiché le voci umane presentano naturalmente variazioni.
Alta fedeltà	L'obiettivo principale del testo neurale per le voci HD consiste nel generare audio ad alta fedeltà. Il parlato sintetico prodotto dal nostro sistema può simulare attentamente il parlato umano sia in qualità che in naturalezza.
Controllo della versione	Con il testo neurale per la voce HD, vengono rilasciate versioni diverse della stessa voce, ognuna con una dimensione e una ricetta univoche del modello di base. In questo modo è possibile sperimentare nuove varianti vocali o continuare a usare una versione specifica di una voce.

Confronto tra le voci hd di Riconoscimento vocale di Azure per intelligenza artificiale e altre voci vocali di Azure

In che modo le voci HD di Riconoscimento vocale di Azure per intelligenza artificiale vengono confrontate con altre voci vocali di Azure? In che modo differiscono in termini di funzionalità e funzionalità?

Di seguito è riportato un confronto tra le funzionalità tra le voci di Azure AI Speech HD, le voci HD openAI di Azure e le voci di Riconoscimento vocale di Intelligenza artificiale di Azure:

Funzionalità	Voce HD di Riconoscimento vocale di Azure per intelligenza artificiale	Voci HD openAI di Azure	Voci vocali di Riconoscimento vocale di Intelligenza artificiale di Azure (non HD)
Area	Stati Uniti orientali, Asia sud-orientale, Europa occidentale	Stati Uniti centro-settentrionali, Svezia centrale	Disponibile in decine di aree. Vedere l'elenco delle aree.
Numero di voci	12	6	Più di 500
Multilingue	No (solo in lingua primaria)	Sì	Sì (applicabile solo alle voci multilingue)
Supporto SSML	Supporto per un subset di elementi SSML.	Supporto per un subset di elementi SSML.	Supporto per il set completo di SSML in Voce di Azure AI.
Opzioni di sviluppo	Speech SDK, interfaccia della riga di comando di Voce, API REST	Speech SDK, interfaccia della riga di comando di Voce, API REST	Speech SDK, interfaccia della riga di comando di Voce, API REST
Opzioni di distribuzione	Solo nel cloud	Solo nel cloud	Cloud, embedded, ibrido e contenitori.
Sintesi in tempo reale o batch	Solo in tempo reale	Sintesi batch e in tempo reale	Sintesi batch e in tempo reale
Latenza	Minore di 300 ms	Maggiore di 500 ms	Minore di 300 ms
Frequenza di campionamento dell'audio sintetizzato	8, 16, 24 e 48 kHz	8, 16, 24 e 48 kHz	8, 16, 24 e 48 kHz
Formato audio di output vocale	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Voci HD supportate per Riconoscimento vocale di Intelligenza artificiale di Azure

I valori vocali di Azure AI Speech HD sono nel formato voicename:basemodel:version. Il nome prima dei due punti, ad esempio en-US-Ava, è il nome dell'utente vocale e le impostazioni locali originali. Il modello di base viene monitorato dalle versioni negli aggiornamenti successivi.

Attualmente, DragonHD è l'unico modello di base disponibile per le voci Di Azure AI Speech HD. Per assicurarsi di usare la versione più recente del modello di base fornito senza dover apportare una modifica al codice, usare la LatestNeural versione.

Ad esempio, per l'utente utente en-US-Ava è possibile specificare i valori vocali HD seguenti:

en-US-Ava:DragonHDLatestNeural: usa sempre la versione più recente del modello di base fornito in un secondo momento.

La tabella seguente elenca le voci di Azure AI Speech HD attualmente disponibili.

Persona voce neurale	Voci HD
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xichen	zh-CN-Typechen:DragonHDLatestNeural

Come usare le voci di Azure AI Speech HD

È possibile usare le voci HD con le stesse API SPEECH SDK e REST delle voci non HD.

Ecco alcuni punti chiave da considerare quando si usano le voci di Azure AI Speech HD:

Impostazioni locali voce: le impostazioni locali nel nome della voce indicano la lingua e l'area originali.
Modelli di base:
- Le voci HD sono dotate di un modello di base che comprende il testo di input e stima il modello di pronuncia di conseguenza. È possibile specificare il modello desiderato ,ad esempio DragonHDLatestNeural, in base alla disponibilità di ogni voce.
Utilizzo di SSML: per fare riferimento a una voce in SSML, usare il formato voicename:basemodel:version. Il nome prima dei due punti, ad esempio de-DE-Seraphina, è il nome dell'utente vocale e le impostazioni locali originali. Il modello di base viene monitorato dalle versioni negli aggiornamenti successivi.
Parametro Temperature:
- Il valore della temperatura è un valore float compreso tra 0 e 1, influenzando la casualità dell'output. È anche possibile modificare il parametro temperature per controllare la variazione degli output. Meno casualità produce risultati più stabili, mentre più casualità offre varietà ma meno coerenza.
- Una temperatura inferiore comporta una minore casualità, causando output più prevedibili. Una temperatura più elevata aumenta la casualità, consentendo output più diversificati. La temperatura predefinita è impostata su 1,0.

Di seguito è riportato un esempio di come usare le voci di Azure AI Speech HD in SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Elementi SSML supportati e non supportati per le voci di Azure AI Speech HD

Speech Synthesis Markup Language (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output di sintesi vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa, o il silenzio. È possibile eseguire il wrapping del testo con tag di evento, ad esempio segnalibro o viseme, elaborati in un secondo momento dall'applicazione.

Le voci di Azure AI Speech HD non supportano tutti gli elementi O gli eventi SSML supportati da altre voci voce di Riconoscimento vocale di Azure per intelligenza artificiale. Di particolare nota, le voci di Azure AI Speech HD non supportano gli eventi limite delle parole.

Per informazioni dettagliate sugli elementi SSML supportati e non supportati per le voci di Azure AI Speech HD, vedere la tabella seguente. Per istruzioni su come usare gli elementi SSML, vedere la documentazione di Speech Synthesis Markup Language (SSML).

Elemento SSML	Descrizione	Supportato nelle voci HD di Riconoscimento vocale di Azure per intelligenza artificiale
`<voice>`	Specifica gli effetti vocali e facoltativi (`eq_car` e `eq_telecomhp8k`).	Sì
`<mstts:express-as>`	Specifica gli stili di pronuncia e i ruoli.	No
`<mstts:ttsembedding>`	Specifica la proprietà `speakerProfileId` per una voce personale.	No
`<lang xml:lang>`	Specifica la lingua parlante.	Sì
`<prosody>`	Regola il passo, il contorno, l'intervallo, la frequenza e il volume.	No
`<emphasis>`	Aggiunge o rimuove l’accento a livello di parola per il testo.	No
`<audio>`	Incorpora audio pre-registrato in un documento SSML.	No
`<mstts:audioduration>`	Specifica la durata dell'audio di output.	No
`<mstts:backgroundaudio>`	Aggiunge audio in background ai documenti SSML o combina un file audio con testo vocale.	No
`<phoneme>`	Specifica la pronuncia fonetica nei documenti SSML.	No
`<lexicon>`	Definisce la modalità di lettura di più entità in SSML.	Sì (supporta solo alias)
`<say-as>`	Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento.	Sì
`<sub>`	Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento.	Sì
`<math>`	Usa MathML come testo di input per pronunciare correttamente le notazioni matematiche nell'audio di output.	No
`<bookmark>`	Ottiene l'offset di ogni marcatore nel flusso audio.	No
`<break>`	Esegue l'override del comportamento predefinito di interruzioni o pause tra le parole.	No
`<mstts:silence>`	Inserisce una pausa prima o dopo il testo o tra due frasi adiacenti.	No
`<mstts:viseme>`	Definisce la posizione del viso e della bocca mentre una persona sta parlando.	No
`<p>`	Indica i paragrafi nei documenti SSML.	Sì
`<s>`	Indica le frasi nei documenti SSML.	Sì

Nota

Anche se una sezione precedente di questa guida ha confrontato le voci di Azure AI Speech HD con le voci HD openAI di Azure, gli elementi SSML supportati da Riconoscimento vocale di Intelligenza artificiale di Azure non sono applicabili alle voci OpenAI di Azure.

Condividi tramite

Che cosa sono le voci ad alta definizione? (anteprima)

Funzionalità principali del testo neurale per le voci HD vocali

Confronto tra le voci hd di Riconoscimento vocale di Azure per intelligenza artificiale e altre voci vocali di Azure

Voci HD supportate per Riconoscimento vocale di Intelligenza artificiale di Azure

Come usare le voci di Azure AI Speech HD

Elementi SSML supportati e non supportati per le voci di Azure AI Speech HD

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Che cosa sono le voci ad alta definizione? (anteprima)

Funzionalità principali del testo neurale per le voci HD vocali

Confronto tra le voci hd di Riconoscimento vocale di Azure per intelligenza artificiale e altre voci vocali di Azure

Voci HD supportate per Riconoscimento vocale di Intelligenza artificiale di Azure

Come usare le voci di Azure AI Speech HD

Elementi SSML supportati e non supportati per le voci di Azure AI Speech HD

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive