Che cosa sono le voci ad alta definizione? (anteprima)
Nota
Questa funzionalità è attualmente in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.
Riconoscimento vocale di Intelligenza artificiale di Azure continua ad avanzare nel campo della tecnologia di sintesi vocale con l'introduzione di voci neurali di sintesi vocale (HD). Le voci HD possono comprendere il contenuto, rilevare automaticamente le emozioni nel testo di input e regolare il tono di pronuncia in tempo reale in modo che corrisponda al sentiment. Le voci HD mantengono un utente vocale coerente dalle controparti neurali (e non HD) e offrono un valore ancora maggiore grazie a funzionalità avanzate.
Funzionalità principali del testo neurale per le voci HD vocali
Di seguito sono elencate le funzionalità principali delle voci Di Azure AI Speech HD:
Funzionalità principali | Descrizione |
---|---|
Generazione di riconoscimento vocale simile a quella umana | Il testo neurale per le voci HD può generare voce altamente naturale e simile a quella umana. Il modello viene sottoposto a training su milioni di ore di dati multilingue, consentendo di interpretare con precisione il testo di input e generare il parlato con l'emozione, il ritmo e il ritmo appropriati senza regolazioni manuali. |
Colloquiale | Il testo neurale per le voci HD vocali può replicare modelli di riconoscimento vocale naturale, incluse pause spontanee ed enfasi. Quando viene specificato testo conversazionale, il modello può riprodurre fonemi comuni, ad esempio pause e parole di riempimento. La voce generata suona come se qualcuno stia conversando direttamente con te. |
Varianti di prosodia | Le voci Neural Text to Speech HD introducono lievi variazioni in ogni output per migliorare il realismo. Queste variazioni rendono il suono del parlato più naturale, poiché le voci umane presentano naturalmente variazioni. |
Alta fedeltà | L'obiettivo principale del testo neurale per le voci HD consiste nel generare audio ad alta fedeltà. Il parlato sintetico prodotto dal nostro sistema può simulare attentamente il parlato umano sia in qualità che in naturalezza. |
Controllo della versione | Con il testo neurale per la voce HD, vengono rilasciate versioni diverse della stessa voce, ognuna con una dimensione e una ricetta univoche del modello di base. In questo modo è possibile sperimentare nuove varianti vocali o continuare a usare una versione specifica di una voce. |
Confronto tra le voci hd di Riconoscimento vocale di Azure per intelligenza artificiale e altre voci vocali di Azure
In che modo le voci HD di Riconoscimento vocale di Azure per intelligenza artificiale vengono confrontate con altre voci vocali di Azure? In che modo differiscono in termini di funzionalità e funzionalità?
Di seguito è riportato un confronto tra le funzionalità tra le voci di Azure AI Speech HD, le voci HD openAI di Azure e le voci di Riconoscimento vocale di Intelligenza artificiale di Azure:
Funzionalità | Voce HD di Riconoscimento vocale di Azure per intelligenza artificiale | Voci HD openAI di Azure | Voci vocali di Riconoscimento vocale di Intelligenza artificiale di Azure (non HD) |
---|---|---|---|
Area | Stati Uniti orientali, Asia sud-orientale, Europa occidentale | Stati Uniti centro-settentrionali, Svezia centrale | Disponibile in decine di aree. Vedere l'elenco delle aree. |
Numero di voci | 12 | 6 | Più di 500 |
Multilingue | No (solo in lingua primaria) | Sì | Sì (applicabile solo alle voci multilingue) |
Supporto SSML | Supporto per un subset di elementi SSML. | Supporto per un subset di elementi SSML. | Supporto per il set completo di SSML in Voce di Azure AI. |
Opzioni di sviluppo | Speech SDK, interfaccia della riga di comando di Voce, API REST | Speech SDK, interfaccia della riga di comando di Voce, API REST | Speech SDK, interfaccia della riga di comando di Voce, API REST |
Opzioni di distribuzione | Solo nel cloud | Solo nel cloud | Cloud, embedded, ibrido e contenitori. |
Sintesi in tempo reale o batch | Solo in tempo reale | Sintesi batch e in tempo reale | Sintesi batch e in tempo reale |
Latenza | Minore di 300 ms | Maggiore di 500 ms | Minore di 300 ms |
Frequenza di campionamento dell'audio sintetizzato | 8, 16, 24 e 48 kHz | 8, 16, 24 e 48 kHz | 8, 16, 24 e 48 kHz |
Formato audio di output vocale | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Voci HD supportate per Riconoscimento vocale di Intelligenza artificiale di Azure
I valori vocali di Azure AI Speech HD sono nel formato voicename:basemodel:version
. Il nome prima dei due punti, ad esempio en-US-Ava
, è il nome dell'utente vocale e le impostazioni locali originali. Il modello di base viene monitorato dalle versioni negli aggiornamenti successivi.
Attualmente, DragonHD
è l'unico modello di base disponibile per le voci Di Azure AI Speech HD. Per assicurarsi di usare la versione più recente del modello di base fornito senza dover apportare una modifica al codice, usare la LatestNeural
versione.
Ad esempio, per l'utente utente en-US-Ava
è possibile specificare i valori vocali HD seguenti:
en-US-Ava:DragonHDLatestNeural
: usa sempre la versione più recente del modello di base fornito in un secondo momento.
La tabella seguente elenca le voci di Azure AI Speech HD attualmente disponibili.
Persona voce neurale | Voci HD |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xichen | zh-CN-Typechen:DragonHDLatestNeural |
Come usare le voci di Azure AI Speech HD
È possibile usare le voci HD con le stesse API SPEECH SDK e REST delle voci non HD.
Ecco alcuni punti chiave da considerare quando si usano le voci di Azure AI Speech HD:
- Impostazioni locali voce: le impostazioni locali nel nome della voce indicano la lingua e l'area originali.
- Modelli di base:
- Le voci HD sono dotate di un modello di base che comprende il testo di input e stima il modello di pronuncia di conseguenza. È possibile specificare il modello desiderato ,ad esempio DragonHDLatestNeural, in base alla disponibilità di ogni voce.
- Utilizzo di SSML: per fare riferimento a una voce in SSML, usare il formato
voicename:basemodel:version
. Il nome prima dei due punti, ad esempiode-DE-Seraphina
, è il nome dell'utente vocale e le impostazioni locali originali. Il modello di base viene monitorato dalle versioni negli aggiornamenti successivi. - Parametro Temperature:
- Il valore della temperatura è un valore float compreso tra 0 e 1, influenzando la casualità dell'output. È anche possibile modificare il parametro temperature per controllare la variazione degli output. Meno casualità produce risultati più stabili, mentre più casualità offre varietà ma meno coerenza.
- Una temperatura inferiore comporta una minore casualità, causando output più prevedibili. Una temperatura più elevata aumenta la casualità, consentendo output più diversificati. La temperatura predefinita è impostata su 1,0.
Di seguito è riportato un esempio di come usare le voci di Azure AI Speech HD in SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Elementi SSML supportati e non supportati per le voci di Azure AI Speech HD
Speech Synthesis Markup Language (SSML) con testo di input determina la struttura, il contenuto e altre caratteristiche dell'output di sintesi vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o una pausa, o il silenzio. È possibile eseguire il wrapping del testo con tag di evento, ad esempio segnalibro o viseme, elaborati in un secondo momento dall'applicazione.
Le voci di Azure AI Speech HD non supportano tutti gli elementi O gli eventi SSML supportati da altre voci voce di Riconoscimento vocale di Azure per intelligenza artificiale. Di particolare nota, le voci di Azure AI Speech HD non supportano gli eventi limite delle parole.
Per informazioni dettagliate sugli elementi SSML supportati e non supportati per le voci di Azure AI Speech HD, vedere la tabella seguente. Per istruzioni su come usare gli elementi SSML, vedere la documentazione di Speech Synthesis Markup Language (SSML).
Elemento SSML | Descrizione | Supportato nelle voci HD di Riconoscimento vocale di Azure per intelligenza artificiale |
---|---|---|
<voice> |
Specifica gli effetti vocali e facoltativi (eq_car e eq_telecomhp8k ). |
Sì |
<mstts:express-as> |
Specifica gli stili di pronuncia e i ruoli. | No |
<mstts:ttsembedding> |
Specifica la proprietà speakerProfileId per una voce personale. |
No |
<lang xml:lang> |
Specifica la lingua parlante. | Sì |
<prosody> |
Regola il passo, il contorno, l'intervallo, la frequenza e il volume. | No |
<emphasis> |
Aggiunge o rimuove l’accento a livello di parola per il testo. | No |
<audio> |
Incorpora audio pre-registrato in un documento SSML. | No |
<mstts:audioduration> |
Specifica la durata dell'audio di output. | No |
<mstts:backgroundaudio> |
Aggiunge audio in background ai documenti SSML o combina un file audio con testo vocale. | No |
<phoneme> |
Specifica la pronuncia fonetica nei documenti SSML. | No |
<lexicon> |
Definisce la modalità di lettura di più entità in SSML. | Sì (supporta solo alias) |
<say-as> |
Indica il tipo di contenuto, ad esempio numero o data, del testo dell'elemento. | Sì |
<sub> |
Indica che il valore di testo dell'attributo alias deve essere pronunciato al posto del testo racchiuso dell'elemento. | Sì |
<math> |
Usa MathML come testo di input per pronunciare correttamente le notazioni matematiche nell'audio di output. | No |
<bookmark> |
Ottiene l'offset di ogni marcatore nel flusso audio. | No |
<break> |
Esegue l'override del comportamento predefinito di interruzioni o pause tra le parole. | No |
<mstts:silence> |
Inserisce una pausa prima o dopo il testo o tra due frasi adiacenti. | No |
<mstts:viseme> |
Definisce la posizione del viso e della bocca mentre una persona sta parlando. | No |
<p> |
Indica i paragrafi nei documenti SSML. | Sì |
<s> |
Indica le frasi nei documenti SSML. | Sì |
Nota
Anche se una sezione precedente di questa guida ha confrontato le voci di Azure AI Speech HD con le voci HD openAI di Azure, gli elementi SSML supportati da Riconoscimento vocale di Intelligenza artificiale di Azure non sono applicabili alle voci OpenAI di Azure.