O que é avatar de texto para fala personalizado?

Artigo
01/15/2025

Avatar de texto para fala personalizado permite que você crie um avatar falante sintético personalizado e único para seu aplicativo. Com um avatar personalizado de texto para fala, você pode construir um avatar único e de aparência natural para seu produto ou marca, fornecendo dados de gravação de vídeo de seus atores selecionados. Se você também criar uma voz neural personalizada para o mesmo ator e usá-la como voz do avatar, o avatar é ainda mais realista.

Importante

O acesso personalizado de texto a avatar de fala é limitado com base em critérios de elegibilidade e uso. Solicite acesso no formulário de admissão.

Como é que isto funciona?

Criar um avatar de texto para fala personalizado requer pelo menos 10 minutos de gravação de vídeo do talento do avatar como dados de treinamento, e você deve primeiro obter o consentimento do talento do ator.

O modelo de avatar personalizado pode suportar:

Geração de vídeo através da API de síntese em lote.
Chat ao vivo através da API de síntese de streaming.

Antes de começar, aqui estão algumas considerações:

Seu caso de uso: Você usará o avatar para criar conteúdo de vídeo, como material de treinamento, introdução de produtos ou usará o avatar como um vendedor virtual em uma conversa em tempo real com seus clientes? Existem alguns requisitos de gravação para diferentes casos de uso.

A aparência do avatar: O avatar de texto personalizado para fala parece o mesmo que o talento do avatar nos dados de treinamento, e não suportamos a personalização da aparência do modelo de avatar, como roupas, penteado, etc. Portanto, se o seu aplicativo requer vários estilos do mesmo avatar, você deve preparar dados de treinamento para cada estilo, pois cada estilo de um avatar é considerado como um único modelo de avatar.

A voz do avatar: O avatar de texto para fala personalizado pode trabalhar com vozes neurais pré-construídas e vozes neurais personalizadas. Criar uma voz neural personalizada para o talento do avatar e usá-la com o avatar aumenta significativamente a naturalidade da experiência do avatar.

Aqui está uma visão geral das etapas para criar um avatar de texto para fala personalizado:

Obter vídeo de consentimento. Obter uma gravação em vídeo da declaração de consentimento. A declaração de consentimento é uma gravação de vídeo do talento do avatar lendo uma declaração, dando consentimento para o uso de seus dados de imagem e voz para treinar um modelo personalizado de avatar de texto para fala.
Preparar dados de treinamento. Certifique-se de que a gravação de vídeo está no formato correto. É uma boa ideia filmar a gravação de vídeo em um estúdio de gravação de vídeo de qualidade profissional para obter uma imagem de fundo limpa. A qualidade do avatar resultante depende muito do vídeo gravado usado para treinamento. Fatores como taxa de fala, postura corporal, expressão facial, gestos com as mãos, consistência na posição do ator e iluminação da gravação de vídeo são essenciais para criar um avatar de texto para fala personalizado envolvente. Veja como preparar dados de treinamento para obter mais detalhes.
Treine o modelo de avatar. Depois de ter os dados prontos, carregue seus dados para o portal de avatar personalizado e comece a treinar seu modelo. A verificação do consentimento é realizada durante o treinamento. Certifique-se de que você tenha acesso ao recurso de avatar de texto para fala personalizado antes de criar um projeto.
Implante e use seu modelo de avatar em seus aplicativos.

Sequência de componentes

O modelo personalizado de avatar de texto para fala contém três componentes: analisador de texto, sintetizador de áudio de texto para fala e renderizador de vídeo de avatar de texto para fala.

Para gerar um arquivo de vídeo avatar ou transmitir com o modelo avatar, o texto é primeiro inserido no analisador de texto, que fornece a saída na forma de uma sequência de fonema.
O sintetizador de áudio sintetiza o áudio de fala para texto de entrada, e essas duas partes são fornecidas por texto para fala ou modelos de voz neural personalizados.
Finalmente, o modelo de avatar de texto neural para fala prevê a imagem de sincronização labial com o áudio de fala, de modo que o vídeo sintético é gerado.

Os modelos de avatar de texto neural para fala são treinados usando redes neurais profundas com base na gravação de amostras de vídeos humanos em diferentes idiomas. Todas as linguagens de vozes pré-construídas e vozes neurais personalizadas podem ser suportadas.

Localizações disponíveis

O treinamento personalizado para avatares está disponível apenas nas seguintes regiões de serviço: Sudeste Asiático, Europa Ocidental e Oeste dos EUA 2. Você pode usar um modelo de avatar personalizado nas seguintes regiões de serviço: Sudeste Asiático, Norte da Europa, Europa Ocidental, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

Voz personalizada e avatar de texto para fala personalizado

O avatar de texto para fala personalizado pode funcionar com uma voz neural pré-construída ou voz neural personalizada como a voz do avatar. Para obter mais informações, consulte Voz e idioma do avatar.

Voz neural personalizada e avatar de texto para fala personalizado são recursos separados. Você pode usá-los de forma independente ou em conjunto. Se você optar por usá-los juntos, você precisa solicitar voz neural personalizada e texto personalizado para avatar de fala separadamente, e você será cobrado separadamente por voz neural personalizada e texto personalizado para avatar de fala. Para obter mais informações, consulte a página de preços. Além disso, se você planeja usar voz neural personalizada com um avatar de texto para fala, precisará implantar ou copiar seu modelo de voz neural personalizado para uma das regiões suportadas pelo avatar.

Partilhar via

O que é avatar de texto para fala personalizado?

Como é que isto funciona?

Sequência de componentes

Localizações disponíveis

Voz personalizada e avatar de texto para fala personalizado

Comentários

Recursos adicionais

Partilhar via

O que é avatar de texto para fala personalizado?

Como é que isto funciona?

Sequência de componentes

Localizações disponíveis

Voz personalizada e avatar de texto para fala personalizado

Conteúdos relacionados

Comentários

Recursos adicionais