O que são vozes de texto para fala OpenAI?
Como as vozes de fala do Azure AI, as vozes de texto para fala do OpenAI fornecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso desbloqueia uma ampla gama de possibilidades para experiências de usuário imersivas e interativas.
As vozes de texto para fala OpenAI estão disponíveis através de duas variantes de modelo: Neural
e NeuralHD
.
Neural
: Otimizado para casos de uso em tempo real com a menor latência, mas menor qualidade do queNeuralHD
.NeuralHD
: Otimizado para qualidade.
Texto disponível para vozes de fala nos serviços de IA do Azure
Você pode perguntar: Se eu quiser usar um texto OpenAI para voz de fala, devo usá-lo por meio do Serviço OpenAI do Azure ou por meio do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?
Cada modelo de voz oferece características e capacidades distintas, permitindo-lhe escolher o que melhor se adapta às suas necessidades específicas. Você deseja entender as opções e as diferenças entre as vozes de texto para fala disponíveis nos serviços de IA do Azure.
Você pode escolher entre as seguintes vozes de texto para fala nos serviços de IA do Azure:
- Texto OpenAI para vozes de fala no Serviço OpenAI do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
- Texto OpenAI para vozes de fala no Azure AI Speech. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
- Voz de texto para fala do serviço Azure AI Speech. Disponível em dezenas de regiões. Veja a lista de regiões.
Texto OpenAI para vozes de fala através do Serviço Azure OpenAI ou através do Azure AI Speech?
Se você quiser usar texto OpenAI para vozes de fala, você pode escolher se deseja usá-los por meio do Azure OpenAI ou por meio do Azure AI Speech. Você pode visitar a Galeria de Voz para ouvir exemplos de vozes do Azure OpenAI ou sintetizar fala com seu próprio texto usando a Criação de Conteúdo de Áudio. A saída de áudio é idêntica em ambos os casos, com apenas algumas diferenças de recursos entre os dois serviços. Consulte a tabela abaixo para obter detalhes.
Aqui está uma comparação de recursos entre texto OpenAI para vozes de fala no Serviço OpenAI do Azure e texto para vozes de fala do OpenAI no Azure AI Speech.
Caraterística | Azure OpenAI Service (vozes OpenAI) | Azure AI Speech (vozes OpenAI) | Vozes do Azure AI Speech |
---|---|---|---|
Região | E.U.A. Centro-Norte, Suécia Central | E.U.A. Centro-Norte, Suécia Central | Disponível em dezenas de regiões. Veja a lista de regiões. |
Variedade de voz | 6 | 12 | Mais de 500 |
Número de voz multilingue | 6 | 12 | 49 |
Cobertura linguística multilingue máxima | 57 | 57 | 77 |
Suporte a SSML (Speech Synthesis Markup Language) | Não suportado | Suporte para um subconjunto de elementos SSML. | Suporte para o conjunto completo de SSML no Azure AI Speech. |
Opções de desenvolvimento | API REST | SDK de fala, CLI de fala, API REST | SDK de fala, CLI de fala, API REST |
Opção de implementação | Apenas na nuvem | Apenas na nuvem | Cloud, incorporado, híbrido e contêineres. |
Síntese em tempo real ou em lote | Em Tempo Real | Síntese em tempo real e em lote | Síntese em tempo real e em lote |
Latência | superior a 500 ms | superior a 500 ms | menos de 300 ms |
Taxa de amostragem de áudio sintetizado | 24 kHz | 8, 16, 24 e 48 kHz | 8, 16, 24 e 48 kHz |
Formato de áudio de saída de voz | Opus, MP3, AAC, FLAC | Opus, MP3, PCM, Truesilk | Opus, MP3, PCM, Truesilk |
Há recursos adicionais disponíveis no Azure AI Speech que não estão disponíveis com vozes OpenAI. Por exemplo:
- As vozes de texto para fala do OpenAI no Azure AI Speech suportam apenas um subconjunto de elementos SSML. As vozes de Fala do Azure AI dão suporte ao conjunto completo de elementos SSML.
- O Azure AI Speech dá suporte a eventos de limite de palavras. As vozes OpenAI não suportam eventos de limite de palavras.
Elementos SSML suportados por vozes de texto para fala OpenAI no Azure AI Speech
A SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como marcador ou viseme, que podem ser processadas posteriormente pelo seu aplicativo.
A tabela a seguir descreve os elementos SSML (Speech Synthesis Markup Language) suportados por vozes de texto para fala do OpenAI na fala do Azure AI. Apenas o seguinte subconjunto de tags SSML é suportado para vozes OpenAI. Consulte Estrutura de documentos e eventos do SSML para obter mais informações.
Nome do elemento SSML | Description |
---|---|
<speak> |
Encerra todo o conteúdo a ser falado. É o elemento raiz de um documento SSML. |
<voice> |
Especifica uma voz usada para saída de texto para fala. |
<sub> |
Indica que o valor de texto do atributo alias deve ser pronunciado em vez do texto incluído do elemento. |
<say-as> |
Indica o tipo de conteúdo, como número ou data, do texto do elemento. Todos os interpret-as valores de propriedade são suportados para este elemento, exceto interpret-as="name" . Por exemplo, <say-as interpret-as="date" format="dmy">10-12-2016</say-as> é suportado, mas <say-as interpret-as="name">ED</say-as> não é suportado. Para obter mais informações, consulte pronúncia com SSML. |
<s> |
Denota frases. |
<lang> |
Indica a localidade padrão para o idioma que você deseja que a voz neural fale. |
<break> |
Use para substituir o comportamento padrão de quebras ou pausas entre palavras. |