Comprendere il riconoscimento e la sintesi vocale
Il riconoscimento vocale acquisisce le parole pronunciate e le converte in dati che è possibile elaborare, spesso trascrivendoli in testo. Le parole pronunciate possono essere sotto forma di voce registrata in un file audio o di audio live da un microfono. I modelli vocali vengono analizzati nell'audio per determinare modelli riconoscibili di cui viene eseguito il mapping in parole. A tal fine, il software in genere usa diversi modelli, tra cui:
- Un modello acustico che converte il segnale audio in fonemi (rappresentazioni di suoni specifici).
- Un modello linguistico che esegue il mapping dei fonemi in parole, in genere usando un algoritmo statistico che prevede la sequenza di parole più probabile in base ai fonemi.
Le parole riconosciute vengono in genere convertite in testo, che è possibile usare per vari scopi, ad esempio:
- Fornire sottotitoli codificati per video registrati o live
- Creare una trascrizione di una telefonata o di una riunione
- Dettare automaticamente appunti
- Determinare l'input utente previsto per un'ulteriore elaborazione
La sintesi vocale si occupa della vocalizzazione dei dati, in genere convertendo il testo in voce. Una soluzione di sintesi vocale richiede in genere le informazioni seguenti:
- Il testo da pronunciare
- La voce da usare per vocalizzare il discorso
Per sintetizzare la voce, il sistema in genere suddivide in token il testo per scomporlo in singole parole e assegna suoni fonetici a ogni parola. Quindi suddivide la trascrizione fonetica in unità prosodiche (ad esempio sintagmi, proposizioni o frasi), per creare fonemi che verranno convertiti nel formato audio. Questi fonemi vengono quindi sintetizzati come audio ed è possibile assegnarli a una voce, velocità di pronuncia, passo e volume personalizzati.
È possibile usare l'output della sintesi vocale per molti scopi, tra cui:
- Generazione di risposte vocali all'input dell'utente
- Creazione di menu vocali per sistemi telefonici
- Lettura di e-mail o SMS in scenari vivavoce
- Trasmissione di annunci in luoghi pubblici, ad esempio stazioni ferroviarie o aeroporti