O que é o avatar de conversão de texto em fala personalizado?

Artigo
01/15/2025

O avatar de conversão de texto em fala personalizado permite que você crie um avatar de fala sintética personalizado e único para seu aplicativo. Com o avatar de conversão de texto em fala personalizado, você pode criar um avatar exclusivo e de aparência natural para seu produto ou marca fornecendo dados de gravação de vídeo de seus atores selecionados. Se você também criar uma voz neural personalizada para o mesmo ator e usá-la como a voz do avatar, o avatar será ainda mais realista.

Importante

O acesso do avatar de conversão de texto em fala personalizado é limitado com base nos critérios de qualificação e uso. Solicite acesso no formulário de entrada.

Como ele funciona?

A criação de um avatar de conversão de texto em fala personalizado requer pelo menos 10 minutos de gravação de vídeo do talento do avatar como dados de treinamento, e você deve primeiro obter o consentimento do talento do ator.

O modelo de avatar personalizado pode dar suporte a:

Geração de vídeo por meio da API de síntese em lote.
Chat ao vivo por meio da API de síntese de streaming.

Antes de começar, aqui estão algumas considerações:

Seu caso de uso: Você usará o avatar para criar conteúdo de vídeo, como material de treinamento, introdução ao produto ou usar o avatar como vendedor virtual em uma conversa em tempo real com seus clientes? Há alguns requisitos de gravação para diferentes casos de uso.

A aparência do avatar: O avatar de conversão de texto em fala personalizado tem a mesma aparência que o talento do avatar nos dados de treinamento, e não damos suporte à personalização da aparência do modelo de avatar, como roupas, penteado, etc. Portanto, se o seu aplicativo exigir vários estilos do mesmo avatar, você deverá preparar dados de treinamento para cada estilo, pois cada estilo de um avatar é considerado um único modelo de avatar.

A voz do avatar: O avatar de conversão de texto em fala personalizado pode funcionar com vozes neurais predefinidas e vozes neurais personalizadas. Criar uma voz neural personalizada para o talento do avatar e usá-la com o avatar aumenta significativamente a naturalidade da experiência do avatar.

Aqui está uma visão geral das etapas para criar um avatar de conversão de texto em fala personalizado:

Obter o vídeo de consentimento. Obter uma gravação de vídeo da instrução de consentimento. A declaração de consentimento é uma gravação de vídeo do talento avatar lendo uma declaração, dando consentimento ao uso de seus dados de imagem e voz para treinar um modelo de avatar de conversão de texto em fala personalizado.
Preparar os dados de treinamento. Verifique se a gravação de vídeo está no formato correto. É uma boa ideia gravar o vídeo em um estúdio de gravação de vídeo de qualidade profissional para obter uma imagem de fundo limpa. A qualidade do avatar resultante depende muito do vídeo gravado usado para treinamento. Fatores como taxa de fala, postura corporal, expressão facial, gestos de mão, consistência na posição do ator e iluminação da gravação de vídeo são essenciais para criar um avatar de conversão de texto em fala personalizado envolvente. Consulte como preparar dados de treinamento para obter mais detalhes.
Treinar o modelo de avatar. Depois que os dados estiverem prontos, carregue-os no portal de avatar personalizado e comece a treinar seu modelo. A verificação do consentimento é realizada durante o treinamento. Verifique se você tem acesso ao recurso de avatar de conversão de texto em fala personalizado antes de criar um projeto.
Implante e use seu modelo de avatar em seus aplicativos.

Sequência de componentes

O modelo de avatar de conversão de texto em fala personalizado contém três componentes: analisador de texto, sintetizador de áudio de texto em fala e renderizador de vídeo de avatar de conversão de texto em fala.

Para gerar um arquivo de vídeo avatar ou fluxo com o modelo de avatar, o texto é a primeira entrada no analisador de texto, que fornece a saída na forma de uma sequência de fonema.
O sintetizador de áudio sintetiza o áudio de fala para o texto de entrada e essas duas partes são fornecidas por conversão de texto em fala ou modelos de voz neural personalizados.
Por fim, o modelo de avatar de conversão de texto em fala neural prevê a imagem da sincronização labial com o áudio de fala, de modo que o vídeo sintético seja gerado.

Os modelos de avatar de conversão de texto em fala neural para fala são treinados usando redes neurais profundas com base nos exemplos de gravação de vídeos humanos em diferentes idiomas. Todas as linguagens de vozes predefinidas e vozes neurais personalizadas podem ser suportadas.

Locais disponíveis

O treinamento de avatar personalizado está disponível apenas nas seguintes regiões de serviço: Sudeste da Ásia, Oeste da Europa e Oeste dos EUA 2. Você pode usar um modelo de avatar personalizado nas seguintes regiões de serviço: Sudeste da Ásia, Norte da Europa, Oeste da Europa, Suécia Central, Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

Voz personalizada e avatar conversão de texto em fala personalizado

O avatar de conversão de texto em fala personalizado pode funcionar com uma voz neural predefinida ou voz neural personalizada como a voz do avatar. Para obter mais informações, consulte Voz e idioma do Avatar.

Voz neural personalizada e o avatar de conversão de texto em fala personalizado são recursos separados. Você pode usá-los independentemente ou juntos. Se você optar por usá-los juntos, será necessário solicitar a voz neural personalizada e o avatar de conversão de texto em fala personalizado separadamente, e você será cobrado separadamente pela voz neural personalizada e pelo avatar de conversão de texto em fala personalizado. Para saber mais, confira a página de preço. Além disso, se você planeja usar voz neural personalizada com um avatar de conversão de texto em fala, será necessário implantar ou copiar seu modelo de voz neural personalizado para uma das regiões suportadas por avatar.

Compartilhar via

O que é o avatar de conversão de texto em fala personalizado?

Como ele funciona?

Sequência de componentes

Locais disponíveis

Voz personalizada e avatar conversão de texto em fala personalizado

Comentários

Recursos adicionais

Compartilhar via

O que é o avatar de conversão de texto em fala personalizado?

Como ele funciona?

Sequência de componentes

Locais disponíveis

Voz personalizada e avatar conversão de texto em fala personalizado

Conteúdo relacionado

Comentários

Recursos adicionais