Compartilhar via


Visão geral do streaming de áudio - assinatura de áudio

Importante

A funcionalidade descrita neste artigo está atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

Os Serviços de Comunicação do Azure fornecem funcionalidades bidirecionais de streaming de áudio, oferecendo aos desenvolvedores ferramentas avançadas para capturar, analisar e processar conteúdo de áudio durante chamadas ativas. Esse desenvolvimento abre caminho para novas possibilidades na comunicação em tempo real para desenvolvedores e empresas.

Ao integrar o streaming de áudio bidirecional com serviços como o Azure OpenAI e outras APIs de voz em tempo real, as empresas podem obter uma comunicação perfeita e de baixa latência. Isso aprimora significativamente o desenvolvimento e a implantação de soluções de IA conversacional, permitindo interações mais envolventes e eficientes.

Com o streaming bidirecional, as empresas agora podem elevar suas soluções de voz para agentes de IA de conversa interativa e de baixa latência, semelhantes a humanos. Nossas APIs de streaming bidirecional permitem que os desenvolvedores transmitam áudio de uma chamada contínua nos Serviços de Comunicação do Azure para seus servidores Web em tempo real e transmitam áudio de volta para a chamada. Embora o foco inicial desses recursos seja ajudar as empresas a criar agentes de IA de conversação, outros casos de uso incluem o Processamento de Linguagem Natural para análise de conversa ou o fornecimento de insights e sugestões em tempo real aos agentes enquanto eles estão em interação ativa com os usuários finais.

Esta visualização pública dá suporte à capacidade dos desenvolvedores de acessar fluxos de áudio em tempo real por meio de um WebSocket dos Serviços de Comunicação do Azure e transmitir áudio de volta para a chamada.

Assistência de chamada em tempo real

  • Aproveitar soluções de IA de conversação: Desenvolver agentes virtuais sofisticados de suporte ao cliente que podem interagir com os clientes em tempo real, fornecendo respostas e soluções imediatas.

  • Experiências personalizadas do cliente: Aproveitando dados em tempo real, as empresas podem oferecer interações mais personalizadas e dinâmicas do cliente em tempo real, levando a maior satisfação e fidelidade.

  • Reduzir os tempos de espera para os clientes: Usando fluxos de áudio bidirecionais com LLMs (Modelos de Linguagem Grande), você pode criar agentes virtuais que servem como o primeiro ponto de contato para os clientes, reduzindo o tempo de espera de um agente humano.

Autenticação

  • Autenticação biométrica: Use os fluxos de áudio para realizar a autenticação por voz, executando o áudio da chamada por meio de seu mecanismo/ferramenta de correspondência/reconhecimento de fala.

Arquitetura de exemplo mostrando como o streaming de áudio bidirecional pode ser usado para agentes de IA de conversa

Captura de tela do diagrama de arquitetura para streaming de áudio.

Formatos com suporte

Misto

Contém áudio misto de todos os participantes da chamada. Todo o áudio é nivelado em um único fluxo.

Não misto

Contém áudio por participante e por canal, com suporte para até quatro canais para os quatro oradores mais dominantes em qualquer ponto de uma chamada. Você também obtém um participantRawID que pode ser usado para determinar o alto-falante.

Informações adicionais

Os desenvolvedores podem usar as informações a seguir sobre o áudio enviado dos Serviços de Comunicação do Azure para converter os pacotes de áudio em conteúdo audível para seus aplicativos.

  • Taxa de quadros: 50 quadros por segundo
  • Taxa de fluxo de pacotes: taxa de 20 ms
  • Tamanho do pacote de dados: 640 bytes para 16.000 hz e 960 bytes para 24.000 hz
  • Métrica de áudio: mono PCM de 16 bits a 16.000 hz e 24.000 hz
  • Os dados de cadeia de caracteres públicos são uma cadeia de caracteres base64 que deve ser convertida em uma matriz de bytes para criar um arquivo PCM bruto.

Billing

Consulte a página de preços dos Serviços de Comunicação do Azure para obter informações sobre como o streaming de áudio é cobrado. Os preços podem ser encontrados na categoria de chamada em streaming de áudio.

Próximas etapas

Confira o início rápido de streaming de áudio para saber mais.