Compartilhar via


Como gravar amostras de vídeo para o avatar de conversão de texto em fala personalizado

Este artigo fornece instruções sobre como preparar exemplos de vídeo de alta qualidade para criar um avatar personalizado de conversão de texto em fala.

A criação de modelo de avatar personalizado de conversão de texto em fala requer treinamento em uma gravação de vídeo de um ser humano real falando. Essa pessoa é o talento do avatar. Você deve obter consentimento suficiente sob todas as leis e regulamentos relevantes do talento do avatar para criar um avatar personalizado com base na imagem ou semelhança de seus talentos. Para saber mais sobre os requisitos do vídeo de declaração de consentimento, confira Obter o arquivo de consentimento do talento do avatar.

Ambiente de gravação

Recomendamos fazer a gravação em um estúdio profissional ou em um lugar bem iluminado.

Requisito de tela de fundo

Caso você precise de um avatar comercial de várias cenas, a tela de fundo do vídeo deve ser limpa, lisa, de cor pura, sendo a tela verde é a melhor opção.

Se o avatar precisar ser usado apenas em uma cena, selecione uma cena específica para gravação (como em seu escritório), mas a tela de fundo não poderá ser eliminada e alterada.

Aqui estão as práticas recomendadas a serem consideradas quando você usa uma tela de fundo de cor pura (como tela verde) para gravação:

  • Uma tela verde é colocada atrás de você, e se o vídeo do avatar mostrar todo o corpo do ator, incluindo os pés, deve haver uma tela verde sob eles. Além disso, a tela verde atrás e a tela verde do chão devem estar perfeitamente conectadas.
  • A tela verde deve ser plana e a cor, uniforme.
  • O ator deve manter 0,5 m a 1 m de distância da tela de fundo atrás.
  • A tela verde pode ter iluminação adequada para evitar sombras.
  • A silhueta completa do ator está na borda da tela verde.
  • O ator não deve ficar muito perto da tela verde.
  • Evite que a cabeça e as mãos do ator saiam da tela verde quando ele falar.

Requisito de iluminação

  • Garanta uma iluminação uniforme e brilhante no rosto do ator, evitando sombras no rosto ou reflexos nos óculos e nas roupas do ator.
  • Tente evitar mudanças na luz ambiente sobre os atores. Recomendamos desligar o projetor, fechar as cortinas para evitar mudanças na luz do dia, usar uma fonte de luz artificial estável, entre outros.

Dispositivos

  • Requisito da câmera: resolução mínima de 1080-P e 25 FPS (quadros por segundo).
  • Não mude a posição da luz e da câmera depois de fixá-la durante toda a filmagem.
  • Você pode usar um teleprompter para lembrar o script durante a gravação, mas verifique se ele não afeta o olhar do ator para a câmera. Forneça um lugar para sentar se o avatar precisar estar em uma posição sentada.
  • Para avatares digitais de meio comprimento ou sentados, providencie um lugar para o ator sentar. Se você não quiser que a imagem da cadeira apareça, escolha uma cadeira.

Aparência do ator

O avatar personalizado de conversão de texto em fala não dá suporte à personalização de roupas ou aparências. Portanto, é essencial projetar e preparar cuidadosamente a aparência do avatar ao gravar os dados de treinamento. Considere as seguintes dicas:

Categorias O que fazer O que não fazer
Cabelo – O cabelo do ator deve ter um aspecto liso e brilhante.
– Até a franja ou fios de cabelo quebrados do ator devem ter uma borda clara e lisa.
– Escolha um penteado fácil de manter do mesmo jeito durante toda a gravação.
– Evite filmar cabelos bagunçados ou telas de fundo mostradas através do cabelo.
– Não deixe o cabelo obstruir os olhos ou as sobrancelhas.
– Evite sombras no rosto causadas pelo penteado.
– Evite muitas mudanças no cabelo durante a fala ou os gestos corporais. Por exemplo, o rabo de cavalo alto de um ator pode aparecer, desaparecer e balançar durante a fala.
Clothing - Preste atenção ao estado da roupa e garanta que não haja mudanças significativas na roupa durante a fala. – Evite usar roupas e acessórios muito largos, pesados ou complicados, pois podem afetar a consistência do estado da roupa durante a fala e os gestos corporais.
– Evite usar roupas muito parecidas com a cor da tela de fundo ou materiais reflexivos, como camisas brancas ou materiais translúcidos.
– Evite roupas com linhas ou itens óbvios com logotipos e marcas que você não deseja destacar.
– Evite elementos reflexivos, como cintos de metal, sapatos de couro brilhante e calças de couro.
Detecção Facial - Verifique se o rosto do ator está claramente visível. - Evite filmar o rosto obscurecido pelos cabelos, óculos de sol ou acessórios.

Quais clipes de vídeo gravar

Você precisa de vários tipos de videoclipes básicos:

Vídeo de Consentimento (Obrigatório) O vídeo de consentimento é obrigatório para criar um avatar personalizado.

  • O vídeo de consentimento deve representar o mesmo talento do avatar falando, seguindo o requisito da declaração de consentimento. Certifique-se de que a declaração foi gravada corretamente e que cada palavra foi pronunciada claramente. Você pode selecionar qualquer um dos idiomas com suporte. Para saber mais sobre os requisitos do vídeo de declaração de consentimento, confira Obter o arquivo de consentimento do talento do avatar.
  • O talento do avatar deve sempre estar voltado para a frente da câmera, sem grandes movimentos.
  • O vídeo deve ser gravado em um ambiente silencioso e o serviço de voz deve ser gravado em um volume razoável. Tente manter a relação sinal-ruído maior que 20. Para obter diretrizes de gravação de serviço de voz, confira o painel Gravar amostras de serviço de voz personalizado.
  • Certifique-se de que a parte do cabeçalho não será ocultada em cada quadro do vídeo.
  • Certifique-se de que nenhum outro objeto apareça na câmera, incluindo equipamentos de filmagem, telefone celular, etc.

Status 0 falando (obrigatório para gestos) O videoclipe de status 0 falando é obrigatório para gestos com o avatar.

  • O status 0 representa a postura que você pode manter naturalmente na maior parte do tempo durante a fala. Por exemplo, braços cruzados na frente do corpo ou pendurados naturalmente nas laterais.
  • Mantenha uma pose frontal. O ator pode se mover ligeiramente para mostrar uma aparência relaxada, como mover a cabeça ou o ombro um pouco, mas não mover muito o corpo.
  • Duração: Continue falando no status 0 por 3 a 5 minutos.

Exemplos de status 0 falando

Gráfico animado ilustrando Lisa falando no status 0, representando a postura naturalmente mantida ao falar.

Gráfico animado representando Harry falando no status 0, representando a postura naturalmente mantida ao falar.

Gráfico animado representando Lori falando no status 0, representando a postura naturalmente mantida ao falar.

Falando naturalmente (obrigatório) O videoclipe de fala natural é obrigatório para que o avatar fale naturalmente.

  • O ator fala no status 0, mas com gestos naturais de mão de tempos em tempos.
  • As mãos devem começar do status 0 e retornar depois de fazer gestos.
  • Use gestos naturais e comuns ao falar. Evite gestos significativos, como apontar, aplausos ou polegares para cima.
  • Duração: Mínimo de 5 minutos, máximo de 30 minutos no total. Pelo menos uma parte da gravação de vídeo contínua de 5 minutos é necessária. Se estiver gravando vários clipes de vídeo, mantenha cada clipe abaixo de 10 minutos.

Exemplos de fala natural

Gráfico animado ilustrando uma amostra de Lisa falando no status 0 com gestos naturais de mão, representando a postura naturalmente mantida ao falar.

Gráfico animado ilustrando uma amostra de Harry falando no status 0 com gestos naturais de mão, representando a postura naturalmente mantida ao falar.

Gráfico animado ilustrando uma amostra de Lori falando no status 0 com gestos naturais de mão, representando a postura naturalmente mantida ao falar.

Status silencioso (obrigatório) O videoclipe de status silencioso é obrigatório. É importante se você criar uma conversa em tempo real com o avatar personalizado. O clipe de vídeo é usado como o modelo principal para o status de fala e audição de um chatbot.

  • Mantenha o status 0, não fale, mas ainda fique relaxado.
  • Mesmo permanecendo no status 0, não fique parado; você pode se mover um pouco, mas não muito. Finja que está esperando.
  • Mantenha um sorriso como se estivesse ouvindo ou esperando pacientemente.
  • Evite acenar com frequência.
  • Duração: 1 minuto.

Exemplos de status silencioso

Gráfico animado ilustrando uma amostra de Lisa mantendo um status silencioso sem falar, mas ainda se sentindo relaxada.

Gráfico animado ilustrando uma amostra de Harry mantendo um status silencioso sem falar, mas ainda se sentindo relaxado.

Gráfico animado ilustrando uma amostra de Lori mantendo um status silencioso sem falar, mas ainda se sentindo relaxada.

Gestos (opcional)

Clipes de vídeo de gestos são opcionais, e os clientes que têm a necessidade de inserir certos gestos no avatar falando podem seguir estas diretrizes para fazer vídeos de gestos. A inserção de gestos só está habilitada para o avatar no modo de lote. No momento, o avatar em tempo real não dá suporte à inserção de gestos. Cada modelo de avatar personalizado pode dar suporte a, no máximo, dez gestos.

Dicas de gestos

  • Cada clipe de gesto deve estar dentro de dez segundos.
  • Os gestos devem começar do status 0 e terminar com o status 0. É essencial que o caractere mantenha a mesma posição que no status 0, que está no meio da tela, durante todo o gesto. Caso contrário, o clipe de gesto não pode ser inserido suavemente no vídeo do avatar.
  • O clipe de gesto captura apenas os gestos corporais. O ator não precisa falar durante os gestos.
  • Recomendamos criar uma lista de gestos antes da gravação. Aqui estão alguns exemplos de clipes de vídeo de gestos:

Exemplos de gestos

Gestos Exemplos
Fornecimento do código de link de venda/promoção Um gráfico animado mostrando um exemplo de entrega de link de venda.
Elogiar o produto Um gráfico animado mostrando um exemplo de elogio ao produto
Apresentação do produto Um gráfico animado mostrando um exemplo de apresentação do produto.
Exibição do preço (número de 1 a 10 usando os dedos de cada mão) Mão direita Um gráfico animado mostrando um exemplo de exibição do preço com a mão direita. Mão esquerda Um gráfico animado mostrando um exemplo de exibição do preço com a mão esquerda.

Os modelos de avatar de alta qualidade são criados com base em gravações de vídeo de alta qualidade, incluindo a qualidade do áudio. Veja mais dicas para o desempenho do ator e a gravação de clipes de vídeo:

O que fazer O que não fazer
- Verifique se todos os clipes de vídeo são feitos nas mesmas condições.
- Durante o processo de gravação, projete o tamanho e a área de exibição do personagem necessários para que ele possa ser exibido na tela adequadamente.
- O ator deve ficar parado durante a gravação.
- Esteja ciente das expressões faciais, que devem ser adequadas para o caso de uso do avatar. Por exemplo, ser agradável e sorrir, caso o avatar personalizado de conversão de texto em fala seja usado como um serviço de atendimento ao cliente. Ter uma conduta profissional, caso o avatar seja usado para notícias.
- Mantenha o olhar para a câmera, mesmo ao usar um teleprompter.
- Volte seu corpo ao status 0 ao pausar a fala.
- Fale sobre um tópico escolhido por você. Pequenos erros de fala, como esquecer uma palavra ou pronunciá-la incorretamente, são aceitáveis. Se o ator perder uma palavra ou pronunciar mal algo, basta voltar ao status 0, pausar por 3 segundos e continuar falando.
- Pause com consciência entre frases e parágrafos. Ao pausar, volte para o status 0 e feche os lábios.
- O áudio deve ser claro e alto o suficiente. Uma qualidade de áudio ruim afeta o resultado do treinamento.
- Mantenha o silêncio no ambiente de gravação.
- Não ajuste os parâmetros da câmera, a distância focal, a posição e o ângulo de visão. Não mova a câmera; mantenha a posição, o tamanho, o ângulo da pessoa de maneira constante na câmera.
– Personagens muito pequenos podem resultar na perda de qualidade da imagem durante o pós-processamento. Personagens muito grandes podem fazer com que a tela estoure durante gestos e movimentos.
– Não faça gestos muito longos nem se movimente muito para fazer um gesto, por exemplo, as mãos do ator sempre fazem gestos e esquecem de voltar ao status 0.
- Os movimentos e os gestos do ator não devem obstruir o rosto.
- Evite pequenos movimentos do ator, como lamber os lábios, tocar o cabelo, falar para o lado, balançar a cabeça constantemente ao falar e não fechar a boca depois de falar.
- Evite ruídos de fundo: a equipe deve evitar andar e falar durante a gravação de vídeo.
– Evite gravar a voz de outras pessoas durante a fala do ator.

Como preparar um clipe de vídeo de interação

Criar um clipe de vídeo de interação de alta qualidade é essencial se você estiver criando uma conversa em tempo real com um avatar personalizado. O clipe deve consistir em um formato de pergunta e resposta, onde um fotógrafo faz uma pergunta, e o ator responde. Faça loop do par pergunta-resposta até que a conversa seja concluída. Se você está filmando sozinho, imagine alguém fazendo as perguntas durante a fase de pergunta.

Aqui estão algumas dicas para cada fase:

Fase de pergunta

  • Mantenha o status 0, não fale, mas ainda fique relaxado.
  • Mesmo permanecendo no status 0, não fique parado. Finja que está esperando.
  • Mantenha um sorriso como se estivesse ouvindo ou esperando pacientemente.
  • Evite acenar com frequência.
  • Comprimento: cada slot de solicitação deve durar cerca de 3 a 5 segundos.

Fase de resposta

  • Fale naturalmente com gestos naturais de mão de tempos em tempos.
  • Use gestos naturais e comuns ao falar. Evite gestos significativos, como apontar, aplausos ou polegares para cima.
  • Comece os gestos depois de começar a falar e interrompa-os antes de terminar.
  • Comprimento: cada slot de resposta deve durar cerca de 5 segundos.

Duração total do vídeo

  • Aponte para um tamanho total de vídeo de 1 a 5 minutos.

Requisitos de dados

Fazer um processamento básico dos dados do vídeo é útil para a eficiência de treinamento do modelo, como:

  • Verifique se o personagem está no meio da tela e se a posição e o tamanho dele permanecem os mesmos durante o processamento de vídeo. Todos os parâmetros de processamento de vídeo, como brilho e contraste, permanecem iguais e não mudam. O tamanho, posição, brilho e contraste do avatar gerado refletirão diretamente aqueles presentes nos dados de treinamento. Não aplicamos nenhuma alteração durante o processamento ou a criação de modelos.
  • O início e o final do clipe devem ser mantidos no estado 0: os atores devem fechar a boca e sorrir e olhar para frente. O vídeo deve ser contínuo, não abrupto.

Formato de arquivo de gravação de vídeo para treinamento do avatar: .mp4 ou .mov.

Resolução: no mínimo, 1920 x 1080.

Taxa de quadros por segundo: no mínimo, 25 FPS.