Compartilhar via


O que são vozes de alta definição? (versão prévia)

Observação

Esse recurso está atualmente em visualização pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

A Fala de IA do Azure continua avançando no campo da tecnologia de conversão de texto em fala com a introdução do texto neural às vozes de fala de alta definição (HD). As vozes HD podem entender o conteúdo, detectar emoções automaticamente no texto de entrada e ajustar o tom de fala em tempo real para corresponder ao sentimento. As vozes HD mantêm uma persona de voz consistente de seus equivalentes neurais (e não HD) e fornecem ainda mais valor por meio de recursos aprimorados.

Principais recursos de texto neural para vozes HD de fala

A seguir estão os principais recursos de vozes HD de Fala de IA do Azure:

Principais recursos Descrição
Geração de fala semelhante a humanos O texto neural para vozes HD de fala pode gerar falas altamente naturais e humanas. O modelo é treinado em milhões de horas de dados multilíngues, permitindo que ele interprete com precisão o texto de entrada e gere fala com a emoção e o ritmo apropriados sem ajustes manuais.
Conversação O texto neural para vozes HD de fala pode replicar padrões de fala naturais, incluindo pausas espontâneas e ênfase. Quando determinado texto de conversa, o modelo pode reproduzir fonemas comuns, como pausas e palavras de preenchimento. A voz gerada soa como se alguém estivesse conversando diretamente com você.
Variações prosódias O texto neural para vozes HD de fala introduz pequenas variações em cada saída para aprimorar o realismo. Essas variações fazem a fala soar mais natural, já que as vozes humanas naturalmente exibem variação.
Alta fidelidade O objetivo principal do texto neural para vozes HD de fala é gerar áudio de alta fidelidade. A fala sintética produzida pelo nosso sistema pode imitar de perto a fala humana em qualidade e naturalidade.
Controle de versão Com o texto neural para vozes HD de fala, lançamos versões diferentes da mesma voz, cada uma com uma receita e tamanho de modelo base exclusivos. Isso oferece a oportunidade de experimentar novas variações de voz ou continuar usando uma versão específica de uma voz.

Comparação de vozes HD de Fala de IA do Azure com outras vozes de fala do Azure

Como as vozes HD de Fala de IA do Azure se comparam a outros textos do Azure com vozes de fala? Como elas diferem em termos de recursos e funcionalidades?

Aqui está uma comparação de recursos entre vozes HD de Fala de IA do Azure, vozes HD do OpenAI do Azure e vozes de Fala de IA do Azure:

Recurso Vozes HD de Fala de IA do Azure Vozes HD do OpenAI do Azure Vozes de Fala de IA do Azure (não HD)
Região Leste dos EUA, Sudeste da Ásia, Oeste da Europa Centro-Norte dos EUA, Suécia Central Disponível em dezenas de regiões. Consulte a lista de regiões.
Número de vozes 12 6 Mais de 500
Multilíngue Não (executar somente no idioma primário) Sim Sim (aplicável somente a vozes multilíngues)
Suporte a SSML Suporte para um subconjunto de elementos SSML. Suporte para um subconjunto de elementos SSML. Suporte para o conjunto completo de SSML no Fala de IA do Azure.
Opções de desenvolvimento SDK de fala, CLI de fala, API REST SDK de fala, CLI de fala, API REST SDK de fala, CLI de fala, API REST
Opções de implantação Somente na nuvem Somente na nuvem Nuvem, inserido, híbrido e contêineres.
Síntese em tempo real ou em lote Em tempo real somente Síntese em tempo real e em lote Síntese em tempo real e em lote
Latência Menor que 300 ms Maior que 500 ms Menor que 300 ms
Taxa de amostragem de áudio sintetizado 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz 8, 16, 24 e 48 kHz
Formato do áudio da saída de fala opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Vozes HD de Fala de IA do Azure compatíveis

Os valores de voz HD de Fala de IA do Azure estão no formato voicename:basemodel:version. O nome antes dos dois-pontos, como en-US-Ava, é o nome da persona de voz e sua localidade original. O modelo base é acompanhado por versões nas atualizações subsequentes.

Atualmente, DragonHD é o único modelo base disponível para vozes HD de Fala de IA do Azure. Para garantir que você esteja usando a versão mais recente do modelo base que fornecemos sem precisar fazer uma alteração de código, use a versão LatestNeural.

Por exemplo, para a persona en-US-Ava você pode especificar os seguintes valores de voz HD:

  • en-US-Ava:DragonHDLatestNeural: sempre usar a versão mais recente do modelo base que fornecemos posteriormente.

A tabela a seguir lista as vozes HD de Fala de IA do Azure que estão disponíveis no momento.

Persona de voz neural Vozes HD
de-DE-Seraphina de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2 en-US-Andrew2:DragonHDLatestNeural
en-US-Aria en-US-Aria:DragonHDLatestNeural
en-US-Ava en-US-Ava:DragonHDLatestNeural
en-US-Brian en-US-Brian:DragonHDLatestNeural
en-US-Davis en-US-Davis:DragonHDLatestNeural
en-US-Emma en-US-Emma:DragonHDLatestNeural
en-US-Emma2 en-US-Emma2:DragonHDLatestNeural
en-US-Jenny en-US-Jenny:DragonHDLatestNeural
en-US-Steffan en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen zh-CN-Xiaochen:DragonHDLatestNeural

How to use Azure AI Speech HD voices

Você pode usar vozes HD com o mesmo SDK de Fala e APIs REST que as vozes não HD.

Aqui estão alguns pontos importantes a serem considerados ao usar vozes HD de Fala de IA do Azure:

  • Localidade da voz: a localidade no nome da voz indica seu idioma e região originais.
  • Modelos de base:
    • As vozes HD vêm com um modelo base que entende o texto de entrada e prevê o padrão de fala adequadamente. Você pode especificar o modelo desejado (como DragonHDLatestNeural) de acordo com a disponibilidade de cada voz.
  • Uso de SSML: para fazer referência a uma voz no SSML, use o formato voicename:basemodel:version. O nome antes dos dois-pontos, como de-DE-Seraphina, é o nome da persona de voz e sua localidade original. O modelo base é acompanhado por versões nas atualizações subsequentes.
  • Parâmetro de temperatura:
    • O valor da temperatura é um float que varia de 0 a 1, influenciando a aleatoriedade da saída. Você também pode ajustar o parâmetro de temperatura para controlar a variação das saídas. Menos aleatoriedade gera resultados mais estáveis, enquanto mais aleatoriedade oferece variedade, mas menos consistência.
    • A temperatura mais baixa resulta em menos aleatoriedade, levando a saídas mais previsíveis. A temperatura mais alta aumenta a aleatoriedade, permitindo saídas mais diversas. A temperatura padrão é definida em 1,0.

Aqui está um exemplo de como usar vozes HD de Fala de IA do Azure no SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Elementos SSML com suporte e sem suporte para vozes HD de Fala de IA do Azure

O SSML (Speech Synthesis Markup Language) com texto de entrada determina a estrutura, o conteúdo e outras características da saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode envolver o texto com marcas de evento, como indicador ou viseme que seu aplicativo processa mais tarde.

As vozes HD de Fala de IA do Azure não dão suporte a todos os elementos ou eventos SSML aos quais outras vozes de Fala de IA do Azure dão suporte. De uma observação específica, as vozes HD de Fala de IA do Azure não dão suporte a eventos de limite de palavras.

Para obter informações detalhadas sobre os elementos SSML para vozes HD de Fala de IA do Azure, consulte a tabela a seguir. Para obter instruções sobre como usar elementos SSML, consulte a documentação SSML (Linguagem de marcação de sintetização de voz).

Elemento SSML Descrição Vozes HD de Fala de IA do Azure compatíveis
<voice> Especifica a voz e os efeitos opcionais (eq_car e eq_telecomhp8k). Sim
<mstts:express-as> Especifica estilos e funções de fala. Não
<mstts:ttsembedding> Especifica a propriedade speakerProfileId de uma voz pessoal. Não
<lang xml:lang> Especifica o idioma de fala. Sim
<prosody> Ajusta o timbre, o contorno, o intervalo, a taxa e o volume. Não
<emphasis> Adiciona ou remove a acentuação no nível da palavra para o texto. Não
<audio> Insere o áudio pré-gravado em um documento SSML. Não
<mstts:audioduration> Especifica a duração do áudio de saída. Não
<mstts:backgroundaudio> Adiciona áudio em segundo plano aos documentos SSML ou mistura um arquivo de áudio com conversão de texto em fala. Não
<phoneme> Especifica a pronúncia fonética em documentos SSML. Não
<lexicon> Define como várias entidades são lidas no SSML. Sim (somente é compatível com alias)
<say-as> Indica o tipo de conteúdo, como número ou data, do texto do elemento. Sim
<sub> Indica que o valor do texto do atributo de alias deve ser pronunciado em vez do texto contido no elemento. Sim
<math> Usa o MathML como texto de entrada para pronunciar notações matemáticas corretamente no áudio de saída. Não
<bookmark> Obtém o deslocamento de cada marcador no fluxo de áudio. Não
<break> Substitui o comportamento padrão de intervalos ou pausas entre as palavras. Não
<mstts:silence> Insere pausa antes ou depois do texto ou entre duas frases adjacentes. Não
<mstts:viseme> Define a posição do rosto e da boca enquanto uma pessoa está falando. Não
<p> Denota parágrafos em documentos SSML. Sim
<s> Denota frases em documentos SSML. Sim

Observação

Embora uma seção anterior neste guia também comparou as vozes HD de fala da IA do Azure com as vozes HD do OpenAI do Azure, os elementos SSML compatíveis com a Fala de IA do Azure não são aplicáveis às vozes do OpenAI do Azure.