Panoramica dello streaming audio - Sottoscrizione audio

Articolo
01/03/2025

Importante

Attualmente la funzionalità descritta in questo articolo è disponibile in anteprima pubblica. Questa versione di anteprima viene fornita senza contratto di servizio, pertanto se ne sconsiglia l’uso per i carichi di lavoro in ambienti di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Servizi di comunicazione di Azure offre funzionalità di streaming audio bidirezionale, offrendo agli sviluppatori potenti strumenti per acquisire, analizzare ed elaborare contenuti audio durante le chiamate attive. Questo sviluppo apre la strada alle nuove possibilità di comunicazione in tempo reale per sviluppatori e aziende.

Integrando lo streaming audio bidirezionale con servizi come Azure OpenAI e altre API vocali in tempo reale, le aziende possono ottenere comunicazioni senza problemi e a bassa latenza. Questo migliora significativamente lo sviluppo e la distribuzione di soluzioni di intelligenza artificiale conversazionale, consentendo interazioni più coinvolgenti ed efficienti.

Con lo streaming bidirezionale, le aziende possono ora elevare le proprie soluzioni vocali a bassa latenza, agenti di intelligenza artificiale conversazionali interattivi simili a umani. Le API di streaming bidirezionali consentono agli sviluppatori di trasmettere audio da una chiamata in corso a Servizi di comunicazione di Azure ai server Web in tempo reale e di trasmettere l'audio alla chiamata. Mentre l'obiettivo iniziale di queste funzionalità è aiutare le aziende a creare agenti di intelligenza artificiale conversazionale, altri casi d'uso includono elaborazione del linguaggio naturale per l'analisi della conversazione o fornire informazioni dettagliate e suggerimenti in tempo reale agli agenti mentre sono in interazione attiva con gli utenti finali.

Questa anteprima pubblica supporta la possibilità per gli sviluppatori di accedere ai flussi audio in tempo reale su un WebSocket da Servizi di comunicazione di Azure e trasmettere di nuovo l'audio alla chiamata.

Assistenza per chiamate in tempo reale

Sfruttare le soluzioni di intelligenza artificiale conversazionale: sviluppare agenti virtuali sofisticati di supporto clienti che possono interagire con i clienti in tempo reale, fornendo risposte e soluzioni immediate.
Esperienze personalizzate dei clienti: sfruttando i dati in tempo reale, le aziende possono offrire interazioni più personalizzate e dinamiche dei clienti in tempo reale, con conseguente maggiore soddisfazione e fedeltà.
Ridurre i tempi di attesa per i clienti: usando flussi audio bidirezionali con modelli di linguaggio di grandi dimensioni è possibile creare agenti virtuali che fungono da primo punto di contatto per i clienti, riducendo il tempo di attesa per un agente umano.

Autenticazione

Autenticazione biometrica: usare i flussi audio per eseguire l'autenticazione vocale, eseguendo l'audio dalla chiamata tramite il motore/strumento di riconoscimento vocale/corrispondenza.

Architettura di esempio che illustra come usare lo streaming audio bidirezionale per gli agenti di intelligenza artificiale conversazionale

Formati supportati

Mista

Contiene audio misto di tutti i partecipanti alla chiamata. Tutto l'audio viene appiattito in un unico flusso.

Non mescolato

Contiene audio per partecipante per canale, con supporto per un massimo di quattro canali per i quattro altoparlanti più dominanti in qualsiasi momento in una chiamata. Ottieni anche un partecipanteRawID che puoi usare per determinare l'altoparlante.

Informazioni aggiuntive

Gli sviluppatori possono usare le informazioni seguenti sull'audio inviato da Servizi di comunicazione di Azure per convertire i pacchetti audio in contenuti acustici per le applicazioni.

Framerate: 50 fotogrammi al secondo
Frequenza del flusso di pacchetti: frequenza di 20 ms
Dimensioni del pacchetto di dati: 640 byte per 16.000 hz e 960 byte per 24.000 hz
Metrica audio: PCM a 16 bit mono a 16.000 hz e 24.000 hz
I dati di stringa pubblica sono una stringa base64 che deve essere convertita in una matrice di byte per creare un file PCM non elaborato.

Fatturazione

Per informazioni sulla fatturazione dello streaming audio, vedere la pagina dei prezzi Servizi di comunicazione di Azure. I prezzi sono disponibili nella categoria chiamante in streaming audio.

Passaggi successivi

Per altre informazioni, vedere la guida introduttiva per lo streaming audio.

Condividi tramite