Partilhar via


Visão geral do streaming de áudio - assinatura de áudio

Importante

A funcionalidade descrita neste artigo está atualmente em visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Os Serviços de Comunicação do Azure fornecem recursos de streaming de áudio bidirecional, oferecendo aos desenvolvedores ferramentas poderosas para capturar, analisar e processar conteúdo de áudio durante chamadas ativas. Este desenvolvimento abre caminho para novas possibilidades de comunicação em tempo real para desenvolvedores e empresas.

Ao integrar o streaming de áudio bidirecional com serviços como o Azure OpenAI e outras APIs de voz em tempo real, as empresas podem obter uma comunicação perfeita e de baixa latência. Isso melhora significativamente o desenvolvimento e a implantação de soluções de IA conversacional, permitindo interações mais envolventes e eficientes.

Com o streaming bidirecional, as empresas agora podem elevar suas soluções de voz para agentes de IA conversacional interativos, semelhantes a humanos e de baixa latência. Nossas APIs de streaming bidirecionais permitem que os desenvolvedores transmitam áudio de uma chamada contínua nos Serviços de Comunicação do Azure para seus servidores Web em tempo real e transmitam áudio de volta para a chamada. Embora o foco inicial desses recursos seja ajudar as empresas a criar agentes de IA conversacional, outros casos de uso incluem o Processamento de Linguagem Natural para análise de conversação ou o fornecimento de insights e sugestões em tempo real aos agentes enquanto eles estão em interação ativa com os usuários finais.

Esta pré-visualização pública suporta a capacidade de os programadores acederem a fluxos de áudio em tempo real através de um WebSocket a partir dos Serviços de Comunicação do Azure e transmitirem áudio de volta para a chamada.

Assistência de chamadas em tempo real

  • Aproveite as soluções de IA conversacional: desenvolva agentes virtuais sofisticados de suporte ao cliente que possam interagir com os clientes em tempo real, fornecendo respostas e soluções imediatas.

  • Experiências personalizadas do cliente: Ao aproveitar dados em tempo real, as empresas podem oferecer interações mais personalizadas e dinâmicas com os clientes em tempo real, levando a uma maior satisfação e fidelização.

  • Reduza os tempos de espera para os clientes: Usando fluxos de áudio bidirecionais com LLMs (Large Language Models), você pode criar agentes virtuais que servem como o primeiro ponto de contato para os clientes, reduzindo o tempo de espera para um agente humano.

Autenticação

  • Autenticação biométrica – Use os fluxos de áudio para realizar a autenticação de voz, executando o áudio da chamada através do seu mecanismo / ferramenta de reconhecimento de voz / correspondência.

Exemplo de arquitetura mostrando como o streaming de áudio bidirecional pode ser usado para agentes de IA conversacionais

Captura de tela do diagrama de arquitetura para streaming de áudio.

Formatos suportados

Misto

Contém áudio misto de todos os participantes na chamada. Todo o áudio é nivelado em um fluxo.

Não misturado

Contém áudio por participante e por canal, com suporte para até quatro canais para os quatro alto-falantes mais dominantes em qualquer ponto de uma chamada. Você também recebe um participantRawID que você pode usar para determinar o orador.

Informações adicionais

Os desenvolvedores podem usar as seguintes informações sobre áudio enviado dos Serviços de Comunicação do Azure para converter os pacotes de áudio em conteúdo audível para seus aplicativos.

  • Taxa de quadros: 50 quadros por segundo
  • Taxa de fluxo de pacotes: taxa de 20 ms
  • Tamanho do pacote de dados: 640 bytes para 16.000 hz e 960 bytes para 24.000 hz
  • Métrica de áudio: mono PCM de 16 bits a 16.000 hz e 24.000 hz
  • Dados de cadeia de caracteres pública é uma cadeia de caracteres base64 que deve ser convertida em uma matriz de bytes para criar um arquivo PCM bruto.

Faturação

Consulte a página de preços dos Serviços de Comunicação do Azure para obter informações sobre como o streaming de áudio é cobrado. Os preços podem ser encontrados na categoria de chamadas em streaming de áudio.

Passos Seguintes

Confira o guia de início rápido do streaming de áudio para saber mais.