O que são vozes de texto para fala OpenAI?

Artigo
09/20/2024

Como as vozes de fala do Azure AI, as vozes de texto para fala do OpenAI fornecem síntese de fala de alta qualidade para converter texto escrito em áudio falado com som natural. Isso desbloqueia uma ampla gama de possibilidades para experiências de usuário imersivas e interativas.

As vozes de texto para fala OpenAI estão disponíveis através de duas variantes de modelo: Neural e NeuralHD.

Neural: Otimizado para casos de uso em tempo real com a menor latência, mas menor qualidade do que NeuralHD.
NeuralHD: Otimizado para qualidade.

Texto disponível para vozes de fala nos serviços de IA do Azure

Você pode perguntar: Se eu quiser usar um texto OpenAI para voz de fala, devo usá-lo por meio do Serviço OpenAI do Azure ou por meio do Azure AI Speech? Quais são os cenários que me orientam a usar um ou outro?

Cada modelo de voz oferece características e capacidades distintas, permitindo-lhe escolher o que melhor se adapta às suas necessidades específicas. Você deseja entender as opções e as diferenças entre as vozes de texto para fala disponíveis nos serviços de IA do Azure.

Você pode escolher entre as seguintes vozes de texto para fala nos serviços de IA do Azure:

Texto OpenAI para vozes de fala no Serviço OpenAI do Azure. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
Texto OpenAI para vozes de fala no Azure AI Speech. Disponível nas seguintes regiões: Centro-Norte dos EUA e Suécia Central.
Voz de texto para fala do serviço Azure AI Speech. Disponível em dezenas de regiões. Veja a lista de regiões.

Texto OpenAI para vozes de fala através do Serviço Azure OpenAI ou através do Azure AI Speech?

Se você quiser usar texto OpenAI para vozes de fala, você pode escolher se deseja usá-los por meio do Azure OpenAI ou por meio do Azure AI Speech. Você pode visitar a Galeria de Voz para ouvir exemplos de vozes do Azure OpenAI ou sintetizar fala com seu próprio texto usando a Criação de Conteúdo de Áudio. A saída de áudio é idêntica em ambos os casos, com apenas algumas diferenças de recursos entre os dois serviços. Consulte a tabela abaixo para obter detalhes.

Aqui está uma comparação de recursos entre texto OpenAI para vozes de fala no Serviço OpenAI do Azure e texto para vozes de fala do OpenAI no Azure AI Speech.

Caraterística	Azure OpenAI Service (vozes OpenAI)	Azure AI Speech (vozes OpenAI)	Vozes do Azure AI Speech
Região	E.U.A. Centro-Norte, Suécia Central	E.U.A. Centro-Norte, Suécia Central	Disponível em dezenas de regiões. Veja a lista de regiões.
Variedade de voz	6	12	Mais de 500
Número de voz multilingue	6	12	49
Cobertura linguística multilingue máxima	57	57	77
Suporte a SSML (Speech Synthesis Markup Language)	Não suportado	Suporte para um subconjunto de elementos SSML.	Suporte para o conjunto completo de SSML no Azure AI Speech.
Opções de desenvolvimento	API REST	SDK de fala, CLI de fala, API REST	SDK de fala, CLI de fala, API REST
Opção de implementação	Apenas na nuvem	Apenas na nuvem	Cloud, incorporado, híbrido e contêineres.
Síntese em tempo real ou em lote	Em Tempo Real	Síntese em tempo real e em lote	Síntese em tempo real e em lote
Latência	superior a 500 ms	superior a 500 ms	menos de 300 ms
Taxa de amostragem de áudio sintetizado	24 kHz	8, 16, 24 e 48 kHz	8, 16, 24 e 48 kHz
Formato de áudio de saída de voz	Opus, MP3, AAC, FLAC	Opus, MP3, PCM, Truesilk	Opus, MP3, PCM, Truesilk

Há recursos adicionais disponíveis no Azure AI Speech que não estão disponíveis com vozes OpenAI. Por exemplo:

As vozes de texto para fala do OpenAI no Azure AI Speech suportam apenas um subconjunto de elementos SSML. As vozes de Fala do Azure AI dão suporte ao conjunto completo de elementos SSML.
O Azure AI Speech dá suporte a eventos de limite de palavras. As vozes OpenAI não suportam eventos de limite de palavras.

Elementos SSML suportados por vozes de texto para fala OpenAI no Azure AI Speech

A SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como marcador ou viseme, que podem ser processadas posteriormente pelo seu aplicativo.

A tabela a seguir descreve os elementos SSML (Speech Synthesis Markup Language) suportados por vozes de texto para fala do OpenAI na fala do Azure AI. Apenas o seguinte subconjunto de tags SSML é suportado para vozes OpenAI. Consulte Estrutura de documentos e eventos do SSML para obter mais informações.

Nome do elemento SSML	Description
`<speak>`	Encerra todo o conteúdo a ser falado. É o elemento raiz de um documento SSML.
`<voice>`	Especifica uma voz usada para saída de texto para fala.
`<sub>`	Indica que o valor de texto do atributo alias deve ser pronunciado em vez do texto incluído do elemento.
`<say-as>`	Indica o tipo de conteúdo, como número ou data, do texto do elemento. Todos os `interpret-as` valores de propriedade são suportados para este elemento, exceto `interpret-as="name"`. Por exemplo, `<say-as interpret-as="date" format="dmy">10-12-2016</say-as>` é suportado, mas `<say-as interpret-as="name">ED</say-as>` não é suportado. Para obter mais informações, consulte pronúncia com SSML.
`<s>`	Denota frases.
`<lang>`	Indica a localidade padrão para o idioma que você deseja que a voz neural fale.
`<break>`	Use para substituir o comportamento padrão de quebras ou pausas entre palavras.

Partilhar via

O que são vozes de texto para fala OpenAI?

Texto disponível para vozes de fala nos serviços de IA do Azure

Texto OpenAI para vozes de fala através do Serviço Azure OpenAI ou através do Azure AI Speech?

Elementos SSML suportados por vozes de texto para fala OpenAI no Azure AI Speech

Comentários

Recursos adicionais

Partilhar via

O que são vozes de texto para fala OpenAI?

Texto disponível para vozes de fala nos serviços de IA do Azure

Texto OpenAI para vozes de fala através do Serviço Azure OpenAI ou através do Azure AI Speech?

Elementos SSML suportados por vozes de texto para fala OpenAI no Azure AI Speech

Conteúdos relacionados

Comentários

Recursos adicionais