Riproduzione di audio in chiamata
L'azione di riproduzione fornita tramite Servizi di comunicazione di Azure Call Automation SDK consente di riprodurre richieste audio ai partecipanti nella chiamata. È possibile accedere a questa azione tramite l'implementazione lato server dell'applicazione. Puoi riprodurre audio per chiamare i partecipanti tramite uno dei due metodi;
- Fornire Servizi di comunicazione di Azure accesso ai file audio preregistrati di formato WAV, a cui Servizi di comunicazione di Azure possibile accedere con il supporto per l'autenticazione
- Testo normale che può essere convertito in output vocale tramite l'integrazione con i servizi di intelligenza artificiale di Azure.
È possibile usare l'integrazione appena annunciata tra Servizi di comunicazione di Azure e i servizi di intelligenza artificiale di Azure per riprodurre risposte personalizzate usando Sintesi vocale di Azure. È possibile usare voci neurali predefinite come le voci neurali predefinite oppure creare voci neurali personalizzate univoche per il prodotto o il marchio. Per altre informazioni su voci, lingue e impostazioni locali supportate, vedere Lingua e supporto vocale per il servizio Voce.
Nota
Servizi di comunicazione di Azure supporta attualmente due formati di file, file MP3 con file ID3V2TAG e WAV formattati come audio mono a 16 bit PCM registrato a 16 KHz. È possibile creare file audio personalizzati usando la sintesi vocale con lo strumento Di creazione di contenuti audio.
Sintesi vocale neurale predefinita
Microsoft usa reti neurali profonde per superare i limiti della sintesi vocale tradizionale in relazione allo stress e all'intonazione nel linguaggio parlato. La previsione prosodia e la sintesi vocale si verificano simultaneamente, ottenendo un output di suono più fluido e naturale. È possibile usare queste voci neurali per fare interazioni con i chatbot e gli assistenti vocali più naturali e coinvolgenti. Sono disponibili più di 100 voci predefinite tra cui scegliere. Altre informazioni sulle voci di Sintesi vocale di Azure.
Casi d'uso comuni
L'azione di gioco può essere usata in molti modi, alcuni esempi di come gli sviluppatori potrebbero voler usare l'azione di gioco nelle applicazioni sono elencati qui.
Annunci
L'applicazione potrebbe voler riprodurre un certo tipo di annuncio quando un partecipante partecipa o lascia la chiamata, per notificare ad altri utenti.
Clienti self-service
Negli scenari con ivr e assistenti virtuali, è possibile usare l'applicazione o i bot per riprodurre richieste audio ai chiamanti, questa richiesta può essere sotto forma di un menu per guidare il chiamante attraverso l'interazione.
Tenere la musica
L'azione di riproduzione può essere usata anche per riprodurre musica per i chiamanti. Questa azione può essere configurata in un ciclo in modo che la musica continui a suonare fino a quando un agente non è disponibile per assistere il chiamante.
Riproduzione di messaggi di conformità
Nell'ambito dei requisiti di conformità in vari settori, i fornitori devono riprodurre messaggi legali o di conformità ai chiamanti, ad esempio "Questa chiamata viene registrata per scopi di qualità".
Architettura di esempio per la riproduzione di audio in chiamata con Sintesi vocale
Architettura di esempio per la riproduzione di audio in una chiamata
Limitazioni note
- Le richieste di testo di sintesi vocale supportano un massimo di 400 caratteri, se la richiesta è più lunga di questa, è consigliabile usare SSML per le azioni di riproduzione basate su sintesi vocale.
- Per gli scenari in cui si supera il limite di quota del servizio Voce, è possibile richiedere di aumentare questo limite seguendo la procedura descritta qui.
Passaggi successivi
- Vedere la guida pratica per imparare a riprodurre richieste vocali personalizzate agli utenti.
- Informazioni sull'utilizzo e sui log operativi pubblicati dall'automazione delle chiamate.
- Informazioni su come raccogliere l'input del cliente.