Översikt över ljudströmning – ljudprenumeration

Artikel
01/03/2025

Viktigt!

Funktioner som beskrivs i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Azure Communication Services tillhandahåller dubbelriktade funktioner för ljudströmning, vilket ger utvecklare kraftfulla verktyg för att samla in, analysera och bearbeta ljudinnehåll under aktiva samtal. Den här utvecklingen banar väg för nya möjligheter i realtidskommunikation för både utvecklare och företag.

Genom att integrera dubbelriktad ljudströmning med tjänster som Azure OpenAI och andra röst-API:er i realtid kan företag uppnå sömlös kommunikation med låg latens. Detta förbättrar avsevärt utvecklingen och distributionen av konversations-AI-lösningar, vilket möjliggör mer engagerande och effektiva interaktioner.

Med dubbelriktad strömning kan företag nu höja sina röstlösningar till AI-agenter med låg latens och mänskligt innehåll. Våra dubbelriktade API:er för direktuppspelning gör det möjligt för utvecklare att strömma ljud från ett pågående anrop i Azure Communication Services till sina webbservrar i realtid och strömma ljud tillbaka till samtalet. Medan det första fokuset för dessa funktioner är att hjälpa företag att skapa konversations-AI-agenter, kan andra användningsfall vara bearbetning av naturligt språk för konversationsanalys eller tillhandahålla insikter och förslag i realtid till agenter medan de interagerar aktivt med slutanvändarna.

Den här offentliga förhandsversionen stöder möjligheten för utvecklare att få åtkomst till realtidsljudströmmar via en WebSocket från Azure Communication Services och strömma tillbaka ljud till samtalet.

Samtalshjälp i realtid

Utnyttja konversations-AI-lösningar: Utveckla avancerade virtuella kundsupportagenter som kan interagera med kunder i realtid, vilket ger omedelbara svar och lösningar.
Personliga kundupplevelser: Genom att utnyttja realtidsdata kan företag erbjuda mer personliga och dynamiska kundinteraktioner i realtid, vilket leder till ökad tillfredsställelse och lojalitet.
Minska väntetiderna för kunder: Med dubbelriktade ljudströmmar med stora språkmodeller (LLM) kan du skapa virtuella agenter som fungerar som den första kontaktpunkten för kunder, vilket minskar deras väntetid för en mänsklig agent.

Autentisering

Biometrisk autentisering – Använd ljudströmmarna för att utföra röstautentisering genom att köra ljudet från samtalet via din röstigenkänning/matchande motor/verktyg.

Exempelarkitektur som visar hur dubbelriktad ljudströmning kan användas för konversations-AI-agenter

Format som stöds

Blandat

Innehåller blandat ljud för alla deltagare i samtalet. Allt ljud plattas ut till en ström.

Raffinera

Innehåller ljud per deltagare per kanal, med stöd för upp till fyra kanaler för de fyra mest dominerande talarna när som helst i ett samtal. Du får också ett participantRawID som du kan använda för att fastställa talaren.

Ytterligare information

Utvecklare kan använda följande information om ljud som skickas från Azure Communication Services för att konvertera ljudpaketen till hörbart innehåll för sina program.

Framerate: 50 bildrutor per sekund
Paketströmhastighet: 20 ms-hastighet
Datapaketstorlek: 640 byte för 16 000 hz och 960 byte för 24 000 hz
Ljudmått: 16-bitars PCM mono vid 16 000 hz och 24 000 hz
Offentliga strängdata är en base64-sträng som ska konverteras till en bytematris för att skapa en rå PCM-fil.

Fakturering

Se prissättningssidan för Azure Communication Services för information om hur ljuduppspelning faktureras. Priserna finns i samtalskategorin under ljudströmning.

Nästa steg

Läs snabbstarten för ljuduppspelning om du vill veta mer.

Dela via