Cómo grabar muestras de vídeo para un avatar personalizado de texto a voz
Este artículo enseña sobre cómo preparar ejemplos de vídeo de alta calidad para crear un avatar personalizado de texto a voz.
La creación de modelos de avatar personalizado de texto a voz requiere entrenamiento en una grabación de vídeo de una persona hablando. Esta persona es el talento del avatar. Debes obtener el consentimiento suficiente en todas las leyes y regulaciones pertinentes del talento de avatar para crear un avatar personalizado a partir de la imagen o la semejanza de su talento. Para obtener información sobre los requisitos del vídeo de declaración de consentimiento, consulte Obtener archivo de consentimiento del talento de avatar.
Entorno de grabación
Se recomienda grabar en un estudio de grabación de vídeo profesional o en un lugar bien iluminado.
Requisito en segundo plano
Si necesita un avatar comercial y multi-escena, el fondo del vídeo debe ser limpio, suave, de color puro y una pantalla verde es la mejor opción.
Si el avatar solo debe usarse en una sola escena, puede seleccionar una escena específica para grabar (por ejemplo, en la oficina), pero el fondo no se puede restar y cambiar.
Estos son los procedimientos recomendados que se deben tener en cuenta al usar un fondo de color puro (como la pantalla verde) para la grabación:
- Una pantalla verde se establece detrás de la espalda, y si el vídeo de avatar muestra el cuerpo completo del actor, incluidos los pies, debe haber una pantalla verde bajo los pies. Y la pantalla verde trasera y la pantalla verde del suelo deben estar conectadas sin problemas.
- La pantalla verde debe ser plana y el color es uniforme.
- El actor debe mantener 0,5 m a 1 m lejos del fondo trasero.
- La pantalla verde se puede iluminar correctamente para evitar sombras.
- El contorno completo del actor está dentro del borde de la pantalla verde.
- El actor no debe estar demasiado cerca de la pantalla verde.
- Evite que la cabeza y las manos del actor se vuelcan fuera de la pantalla verde al hablar.
Requisito de iluminación
- Asegúrese de iluminación uniforme y brillante en la cara del actor, evitando sombras en la cara o reflejos en las gafas y la ropa del actor.
- Intente evitar cambios en la luz ambiental de los actores. Se recomienda apagar el proyector, cerrar las cortinas para evitar cambios en la luz del día y usar una fuente de luz artificial estable, etc.
Dispositivos
- Requisito de cámara: Un mínimo de resolución 1080-P y 25 FPS (fotogramas por segundo).
- No cambie la posición de la luz y la cámara después de establecerse durante toda la grabación de vídeo.
- Puede usar un teleprompter para recordar el script durante la grabación, pero asegúrarse de que no afecte a la mirada del actor hacia la cámara. Proporcione un lugar para sentarse si el avatar debe estar en una posición sentada.
- Para avatares digitales de media longitud o sentados, proporcione un lugar para sentarse para el actor. Si no desea que aparezca la imagen de la silla, puede elegir una silla.
Apariencia del actor
El avatar personalizado de texto a voz no admite la personalización de ropa o apariencias. Por eso es esencial diseñar y preparar cuidadosamente la apariencia del avatar al grabar los datos de entrenamiento. Considere estos consejos:
Categorías | Dos | Qué no hacer |
---|---|---|
Hair | - El cabello del actor debe tener una superficie suave y brillante. - Incluso las golpes del actor o el cabello roto deben tener un borde claro y suave. : Elija un peinado fácil de mantener coherente durante toda la grabación de vídeo. |
- Evite el cabello desordenado o los fondos que se muestran a través del cabello. - No dejes que el cabello bloquee los ojos o las cejas. - evite sombras en la cara causada por el peinado. - evite cambios en el cabello demasiado durante el gesto de voz y cuerpo. Por ejemplo, la cola alta de un actor puede aparecer, desaparecer y oscilar durante el habla. |
Clothing | - Preste atención al estado de la ropa y asegúrese de que no haya cambios significativos en la ropa durante el habla. | - Evite llevar ropa y accesorios demasiado sueltos, pesados o complejos, ya que podrían afectar a la coherencia del estado de la ropa durante el habla y el gesto corporal. - Evite usar ropa demasiado similar al color de fondo o materiales reflectantes como camisas blancas o materiales translúcidos. - evite la ropa con líneas obvias o artículos con logotipos y nombres de marca que no quiera resaltar. -Evite elementos reflectantes como correas metálicas, zapatos de cuero brillante y pantalones de cuero. |
Face | - Asegúrese de que la cara del actor esté claramente visible. | - Evite la cara oculta por el cabello, las gafas de sol o los accesorios. |
Qué clips de vídeo grabar
Necesita varios tipos de clips de vídeo básicos:
Vídeo de consentimiento (obligatorio) El vídeo de consentimiento es necesario para crear un avatar personalizado.
- El vídeo de consentimiento debe representar el mismo talento de avatar, siguiendo el requisito de la declaración de consentimiento. Asegúrese de que la instrucción está registrada correctamente y de que cada palabra se habla claramente. Puede seleccionar cualquiera de los idiomas admitidos. Para obtener información sobre los requisitos del vídeo de declaración de consentimiento, consulte Obtener archivo de consentimiento del talento de avatar.
- El talento del avatar siempre debe enfrentarse a la parte frontal de la cámara, sin grandes movimientos.
- El vídeo debe tomarse en un entorno tranquilo y la voz debe grabarse en un volumen razonable. Intenta que la relación señal/ruido sea superior a 20. Para obtener instrucciones sobre la grabación de voz, consulta la guía Grabación de muestras de voz personalizadas.
- Asegúrese de que la parte de la cabeza no quede ocluida en cada fotograma del vídeo.
- Asegúrese de que no aparezca ningún otro objeto en la cámara, incluidos el equipo de filmación, el teléfono móvil, etc.
Estado 0 hablando (obligatorio para gestos) El clip de vídeo de estado 0 hablando es necesario para gestos con el avatar.
- El estado 0 representa la postura que puede mantener de forma natural la mayor parte del tiempo mientras habla. Por ejemplo, los brazos cruzados o colgando naturalmente en los lados.
- Mantenga una posición frontal. El actor puede moverse ligeramente para mostrar un estado relajado, como mover la cabeza o el hombro ligeramente, pero no mueva el cuerpo demasiado.
- Duración: siga hablando en estado 0 durante 3-5 minutos.
Muestras de estado 0 hablando
Hablar con naturalidad (Obligatorio) El clip de vídeo de habla natural es necesario para que el avatar hable con naturalidad.
- El actor habla en estado 0, pero moviendo las manos de forma natural de vez en cuando.
- Las manos deben comenzar desde el estado 0 y volver tras realizar los gestos.
- Realice gestos naturales y normales al hablar. Evite gestos significativos, como apuntar, aplaudir o los pulgares hacia arriba.
- Duración: mínimo 5 minutos, máximo 30 minutos en total. Se requiere al menos una grabación sin cortes de vídeo de 5 minutos. Si graba varios clips de vídeo, mantenga una duración de menos de 10 minutos en cada clip.
Muestras de habla natural
Estado silencioso (Obligatorio) El clip de vídeo de estado silencioso es obligatorio. Es importante que establezcas una conversación en tiempo real con el avatar personalizado. El clip de vídeo se usa como plantilla principal para hablar y escuchar el estado de un bot de chat.
- Mantenga el estado 0, no hable, pero se sienta relajado.
- Ni siquiera permanece en el estado 0, no mantengas todavía; se puede mover ligeramente pero no demasiado. Realiza como si estuviera esperando.
- Mantenga una sonrisa como si escuchara o esperara pacientemente.
- Evitar la nodificación con frecuencia.
- Duración: 1 minuto.
Ejemplos de estado silencioso
Gestos (opcional)
Los clips de vídeo de gestos son opcionales y los clientes que tienen la necesidad de insertar determinados gestos en el avatar hablando pueden seguir esta guía para tomar vídeos de gestos. La inserción de gestos solo está habilitada para el avatar del modo por lotes; el avatar en tiempo real no admite la inserción de gestos en este momento. Cada modelo de avatar personalizado no puede admitir más de 10 gestos.
Sugerencias de gestos
- Cada clip de gesto debe estar en un plazo de 10 segundos.
- Los gestos deben empezar desde el estado 0 y terminar con el estado 0. Es esencial que el personaje mantenga la misma posición que en el estado 0, que está en medio de la pantalla, a lo largo del gesto. De lo contrario, el clip de gesto no se puede insertar sin problemas en el vídeo del avatar.
- El clip de gesto solo captura los gestos del cuerpo; el actor no tiene que hablar durante la realización de gestos.
- Se recomienda diseñar una lista de gestos antes de grabar; estos son algunos ejemplos de clips de vídeo de gestos:
Muestras de gesto
Gestos | Ejemplos |
---|---|
Entrega de código de promoción o vínculo de venta | |
Presentación del producto | |
Presentación del producto | |
Mostrar el precio (número de 1 a 10 fist-number con cada mano) | Mano derecha mano izquierda |
Los modelos de avatar de alta calidad se crean a partir de grabaciones de vídeo de alta calidad, incluida la calidad de audio. Estas son más sugerencias para el rendimiento y la grabación de videoclips de actor:
Dos | No |
---|---|
- Asegúrese de que todos los clips de vídeo se toman en las mismas condiciones. : durante el proceso de grabación, diseñe el tamaño y el área de visualización del carácter que necesita para que el carácter se pueda mostrar en la pantalla correctamente. : El actor debe ser constante durante la grabación. : Expresiones faciales mentales, que deben ser adecuadas para el caso de uso del avatar. Por ejemplo, mire positiva y sonríe si el avatar de texto personalizado a voz se usa como servicio al cliente. Mirar profesionalmente si el avatar se usa para los informes de noticias. : Mantener la mirada ocular hacia la cámara, incluso cuando se usa un teleprompter. : Devuelve el cuerpo al estado 0 al pausar el habla. : Hablar sobre un tema elegido por sí mismo, y los errores de voz menores, como la falta de palabra o el mal escrito, son aceptables. Si el actor olvida una palabra o la dice mal, basta con volver al estado 0, pausar durante 3 segundos y continuar hablando. : Hacer pausas conscientemente entre oraciones y párrafos. Al pausar, vuelva al estado 0 y junte los labios. : El audio debe ser lo suficientemente claro y fuerte; la mala calidad de audio afecta al resultado del entrenamiento. : Mantener el ambiente de disparos tranquilo. |
- No ajuste los parámetros de la cámara, la longitud focal, la posición, el ángulo de vista. No mueva la cámara; mantenga la posición, el tamaño, el ángulo y la posición de la persona en la cámara. - Los caracteres demasiado pequeños pueden provocar una pérdida de calidad de imagen durante el procesamiento posterior. Los caracteres que son demasiado grandes pueden hacer que la pantalla se desborde durante los gestos y los movimientos. - no haga demasiados gestos o demasiado movimiento para un gesto; por ejemplo, las manos del actor siempre realizan gestos y olvidan volver al estado 0. : Los movimientos y gestos del actor no deben bloquear la cara. : Evite pequeños movimientos del actor como lamer labios, tocar el pelo, hablar lateralmente, agitar la cabeza constante durante el habla y no cerrarse después de hablar. : Evitar ruido de fondo; el personal debe evitar caminar y hablar durante la grabación de vídeo. - Evite la voz de otras personas grabada durante el actor hablando. |
Preparación de un clip de vídeo de interacción
La creación de un clip de vídeo de interacción de alta calidad es esencial si va a crear una conversación en tiempo real con un avatar personalizado. El clip debe tener el formato de pregunta y respuesta, en el que un fotógrafo formula una pregunta y el actor responde. Repita la secuencia de preguntas y respuestas hasta que se complete la conversación. Si está filmando a solas, imagine a otra persona haciendo las preguntas durante la fase de preguntas.
Estas son algunas recomendaciones para cada fase:
Fase de preguntas
- Mantenga el estado 0, no hable, pero se sienta relajado.
- Incluso al permanecer en el estado 0, no se mantenga quieto. Realiza como si estuviera esperando.
- Mantenga una sonrisa como si escuchara o esperara pacientemente.
- Evitar la nodificación con frecuencia.
- Longitud: cada espacio de pregunta debe durar entre 3 y 5 segundos.
Fase de respuestas
- Hable espontáneamente moviendo las manos con naturalidad de vez en cuando.
- Realice gestos naturales y normales al hablar. Evite gestos significativos, como apuntar, aplaudir o los pulgares hacia arriba.
- Comience los gestos después de empezar a hablar y deténgase antes de terminar.
- Longitud: cada espacio de respuesta debe durar unos 5 segundos.
Longitud total del vídeo
- Tenga como objetivo una duración total de vídeo de entre 1 y 5 minutos.
Requisitos de datos
Realizar un procesamiento básico de los datos de vídeo es útil para la eficacia del entrenamiento del modelo, como:
- Asegúrese de que el carácter está en medio de la pantalla, el tamaño y la posición son coherentes durante el procesamiento de vídeo. Cada parámetro de procesamiento de vídeo, como el brillo, el contraste sigue siendo el mismo y no cambia. El tamaño, la posición, el brillo y el tamaño del avatar de salida reflejarán directamente los presentes en los datos de entrenamiento. No aplicamos ninguna modificación durante el procesamiento o la creación de modelos.
- El inicio y el final del clip deben mantenerse en estado 0; los actores deben cerrar sus bocas y sonreír, y mirar hacia delante. El vídeo debe ser continuo, no abrupto.
Formato de archivo de grabación de vídeo de entrenamiento de Avatar: .mp4 o .mov.
Resolución: al menos 1920x1080.
Velocidad de fotogramas por segundo: Al menos 25 FPS.