Visão geral do streaming de áudio - assinatura de áudio
Importante
A funcionalidade descrita neste artigo está atualmente em visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
Os Serviços de Comunicação do Azure fornecem recursos de streaming de áudio bidirecional, oferecendo aos desenvolvedores ferramentas poderosas para capturar, analisar e processar conteúdo de áudio durante chamadas ativas. Este desenvolvimento abre caminho para novas possibilidades de comunicação em tempo real para desenvolvedores e empresas.
Ao integrar o streaming de áudio bidirecional com serviços como o Azure OpenAI e outras APIs de voz em tempo real, as empresas podem obter uma comunicação perfeita e de baixa latência. Isso melhora significativamente o desenvolvimento e a implantação de soluções de IA conversacional, permitindo interações mais envolventes e eficientes.
Com o streaming bidirecional, as empresas agora podem elevar suas soluções de voz para agentes de IA conversacional interativos, semelhantes a humanos e de baixa latência. Nossas APIs de streaming bidirecionais permitem que os desenvolvedores transmitam áudio de uma chamada contínua nos Serviços de Comunicação do Azure para seus servidores Web em tempo real e transmitam áudio de volta para a chamada. Embora o foco inicial desses recursos seja ajudar as empresas a criar agentes de IA conversacional, outros casos de uso incluem o Processamento de Linguagem Natural para análise de conversação ou o fornecimento de insights e sugestões em tempo real aos agentes enquanto eles estão em interação ativa com os usuários finais.
Esta pré-visualização pública suporta a capacidade de os programadores acederem a fluxos de áudio em tempo real através de um WebSocket a partir dos Serviços de Comunicação do Azure e transmitirem áudio de volta para a chamada.
Assistência de chamadas em tempo real
Aproveite as soluções de IA conversacional: desenvolva agentes virtuais sofisticados de suporte ao cliente que possam interagir com os clientes em tempo real, fornecendo respostas e soluções imediatas.
Experiências personalizadas do cliente: Ao aproveitar dados em tempo real, as empresas podem oferecer interações mais personalizadas e dinâmicas com os clientes em tempo real, levando a uma maior satisfação e fidelização.
Reduza os tempos de espera para os clientes: Usando fluxos de áudio bidirecionais com LLMs (Large Language Models), você pode criar agentes virtuais que servem como o primeiro ponto de contato para os clientes, reduzindo o tempo de espera para um agente humano.
Autenticação
- Autenticação biométrica – Use os fluxos de áudio para realizar a autenticação de voz, executando o áudio da chamada através do seu mecanismo / ferramenta de reconhecimento de voz / correspondência.
Exemplo de arquitetura mostrando como o streaming de áudio bidirecional pode ser usado para agentes de IA conversacionais
Formatos suportados
Misto
Contém áudio misto de todos os participantes na chamada. Todo o áudio é nivelado em um fluxo.
Não misturado
Contém áudio por participante e por canal, com suporte para até quatro canais para os quatro alto-falantes mais dominantes em qualquer ponto de uma chamada. Você também recebe um participantRawID que você pode usar para determinar o orador.
Informações adicionais
Os desenvolvedores podem usar as seguintes informações sobre áudio enviado dos Serviços de Comunicação do Azure para converter os pacotes de áudio em conteúdo audível para seus aplicativos.
- Taxa de quadros: 50 quadros por segundo
- Taxa de fluxo de pacotes: taxa de 20 ms
- Tamanho do pacote de dados: 640 bytes para 16.000 hz e 960 bytes para 24.000 hz
- Métrica de áudio: mono PCM de 16 bits a 16.000 hz e 24.000 hz
- Dados de cadeia de caracteres pública é uma cadeia de caracteres base64 que deve ser convertida em uma matriz de bytes para criar um arquivo PCM bruto.
Faturação
Consulte a página de preços dos Serviços de Comunicação do Azure para obter informações sobre como o streaming de áudio é cobrado. Os preços podem ser encontrados na categoria de chamadas em streaming de áudio.
Passos Seguintes
Confira o guia de início rápido do streaming de áudio para saber mais.