Partilhar via


Visão geral da SSML (Speech Synthesis Markup Language)

A SSML (Speech Synthesis Markup Language) é uma linguagem de marcação baseada em XML que você pode usar para ajustar seu texto aos atributos de saída de fala, como tom, pronúncia, taxa de fala, volume e muito mais. Dá-lhe mais controlo e flexibilidade do que a introdução de texto simples.

Gorjeta

Você pode ouvir vozes em diferentes estilos e tons lendo texto de exemplo usando a Galeria de vozes.

Cenários de caso de utilização

O SSML foi projetado para oferecer flexibilidade em como você deseja que sua saída de fala soe e fornece propriedades diferentes para como você pode personalizar essa saída. Você pode usar SSML para:

  • Defina a estrutura de texto de entrada que determina a estrutura, o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como um marcador ou viseme, que seu aplicativo pode processar posteriormente. Um viseme é a descrição visual de um fonema, os sons individuais da fala, na linguagem falada.
  • Escolha a voz, o idioma, o nome, o estilo e a função. Você pode usar várias vozes em um único documento SSML. Você também pode ajustar a ênfase, a taxa de fala, o tom e o volume. SSML também pode inserir áudio pré-gravado, como um efeito sonoro ou uma nota musical.
  • Controle a pronúncia do áudio de saída. Por exemplo, você pode usar SSML com fonemas e um léxico personalizado para melhorar a pronúncia. Você também pode usar SSML para definir como uma palavra ou expressão matemática é pronunciada.

Formas de trabalhar com SSML

A funcionalidade SSML está disponível em várias ferramentas que podem se adequar ao seu caso de uso.

Importante

Você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja faturável, o serviço conta elementos opcionais que você usa para ajustar como o texto é convertido em fala, como fonemas e pitch, como caracteres faturáveis. Para obter mais informações, consulte a nota de preços.

Você pode usar o SSML das seguintes maneiras:

  • A ferramenta de criação de conteúdo de áudio permite criar texto sem formatação e SSML no Speech Studio. Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Para obter mais informações, consulte Síntese de fala com a ferramenta de criação de conteúdo de áudio.
  • A API de síntese em lote aceita SSML através da inputs propriedade.
  • A CLI de Fala aceita SSML por meio do argumento de linha de spx synthesize --ssml SSML comando.
  • O Speech SDK aceita SSML através do método SSML "speak" nos diferentes idiomas suportados.

Próximos passos