Visão geral do streaming de áudio - assinatura de áudio
Importante
A funcionalidade descrita neste artigo está atualmente em visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
Os Serviços de Comunicação do Azure fornecem aos programadores capacidades de Transmissão de Áudio para obter acesso em tempo real a fluxos de áudio para capturar, analisar e processar conteúdo de áudio durante chamadas ativas. No mundo de hoje, o consumo de áudio e vídeo ao vivo é predominante, este conteúdo pode ser na forma de reuniões on-line, conferências on-line, suporte ao cliente, etc. Com o acesso ao streaming de áudio, os desenvolvedores agora podem criar aplicativos de servidor para capturar e analisar fluxos de áudio para cada um dos participantes da chamada em tempo real. Os desenvolvedores também podem combinar streaming de áudio com outras ações de automação de chamadas ou usar seus próprios modelos de IA para analisar fluxos de áudio. Os casos de uso incluem PNL para análise de conversação ou fornecimento de insights e sugestões em tempo real aos agentes enquanto eles estão em uma interação ativa com os usuários finais.
Esta pré-visualização pública suporta a capacidade de os programadores obterem acesso a fluxos de áudio em tempo real através de um WebSocket para analisar o áudio da chamada em formatos mistos e não misturados.
Casos comuns de utilização
Os fluxos de áudio podem ser usados de muitas maneiras. Alguns exemplos de como os desenvolvedores podem querer usar os fluxos de áudio em seus aplicativos incluem:
Assistência de chamadas em tempo real
Sugestões aprimoradas alimentadas por IA - Use fluxos de áudio em tempo real de interações ativas entre agentes e clientes para avaliar a intenção da chamada e como seus agentes podem fornecer uma melhor experiência ao cliente por meio de sugestões ativas usando seu próprio modelo de IA para analisar a chamada.
Autenticação
Autenticação biométrica – Use os fluxos de áudio para realizar a autenticação de voz, executando o áudio da chamada através do seu mecanismo / ferramenta de reconhecimento de voz / correspondência.
Arquitetura de exemplo para assinar fluxos de áudio de uma chamada em andamento - cenário de agente ao vivo
Formatos suportados
Formato misto
Contém áudio misto de todos os participantes na chamada. Todo o áudio é nivelado em um fluxo.
Não misturado
Contém áudio por participante e por canal, com suporte para até quatro canais para os quatro alto-falantes mais dominantes em qualquer ponto de uma chamada. Você também receberá um participanteRawID que você pode usar para determinar o orador.
Informações adicionais
A tabela abaixo descreve informações que ajudarão os desenvolvedores a converter os pacotes de áudio em conteúdo audível que pode ser usado por seus aplicativos.
- Taxa de quadros: 50 quadros por segundo
- Taxa de fluxo de pacotes: taxa de 20 ms
- Pacote de dados: 64 Kbytes
- Métrica de áudio: mono PCM de 16 bits a 16000 hz
- Dados de cadeia de caracteres pública são uma cadeia de caracteres base64 que deve ser convertida em uma matriz de bytes para criar um arquivo PCM bruto.\
Faturação
Consulte a página de preços dos Serviços de Comunicação do Azure para obter informações sobre como o streaming de áudio é cobrado. Os preços podem ser encontrados na categoria de chamadas em streaming de áudio.
Passos Seguintes
Confira o guia de início rápido do streaming de áudio para saber mais.