Come registrare campioni di video per l'avatar di sintesi vocale personalizzato

Articolo
01/13/2025

Questo articolo fornisce istruzioni sulla preparazione di campioni di video di alta qualità per la creazione di un avatar di sintesi vocale personalizzato.

La creazione di un modello di avatar di sintesi vocale personalizzato richiede di eseguire il training su una registrazione video di un parlante umano reale. Questa persona rappresenta il talento avatar. Per creare un avatar personalizzato dall’immagine o somiglianza del talento è necessario ottenere, da parte del talento avatar, un consenso adeguato ai sensi di tutte le leggi e le normative pertinenti. Per informazioni sui requisiti del video sulla dichiarazione del consenso, vedere Ottenere il file di consenso dal talento avatar.

Ambiente di registrazione

Si consiglia di registrare in uno studio di registrazione video professionale o in un luogo ben illuminato.

Requisiti dello sfondo

Se è necessario un avatar commerciale multiscena, lo sfondo del video deve essere nitido, uniforme, di colore puro; uno sfondo verde è la scelta migliore.

Se l'avatar deve essere usato in una singola scena, è possibile selezionare una scena specifica da registrare (ad esempio, in ufficio), ma lo sfondo non può essere rimosso e modificato.

Di seguito sono riportate le procedure consigliate da considerare quando si usa uno sfondo in tinta unita, ad esempio lo sfondo verde, per la registrazione:

Uno sfondo verde è impostato dietro la schiena, e se il video avatar mostra il corpo intero degli attori, compresi i piedi, deve esserci uno sfondo verde sotto i piedi. Lo sfondo verde posteriore e lo sfondo verde del pavimento dovrebbero essere perfettamente collegati.
Lo sfondo verde deve essere piatto e il colore uniforme.
Gli attori deve mantenere la distanza di mezzo metro o 1 metro dallo sfondo posteriore.
Lo sfondo verde può essere illuminato correttamente per evitare ombre.
Il contorno completo degli attori si trova all’interno del bordo dello sfondo verde.
Gli attori non devono stare troppo vicino allo sfondo verde.
Evitare che la testa e le mani degli attori escano dallo sfondo verde quando parlano.

Requisiti di illuminazione

Assicurarsi che l'illuminazione sia intensa e uniforme sul viso dell'attore, evitando ombre o riflessi su occhiali e vestiti.
Cercare di evitare modifiche alla luce ambientale sugli attori. Si consiglia di spegnere il proiettore, chiudere le tende per non risentire dei cambiamenti della luce solare, usare una sorgente di luce artificiale stabile e così via.

Dispositivi

Requisito della videocamera: risoluzione minima 1080-P e 25 FPS (fotogrammi al secondo).
Una volta preparata la postazione, non cambiare la posizione della luce e della videocamera per l'intera durata delle riprese.
È possibile usare un tele-suggeritore per ricordare lo script durante la registrazione; assicurarsi comunque che non influisca sullo sguardo in camera dell'attore. Fornire una postazione dove sedersi se l’avatar deve trovarsi in posizione seduta.
Per avatar digitali a mezzo busto o seduti, fornire una postazione dove sedersi per gli attori. Se non si vuole che venga visualizzata l’immagine della seduta, è possibile scegliere una sedia.

Aspetto dell'attore

L'avatar di sintesi vocale personalizzato non supporta la personalizzazione di vestiti o look. Pertanto, durante la registrazione dei dati di training, è essenziale progettare attentamente e preparare l'aspetto dell'avatar. Considerare i suggerimenti seguenti:

Categorie	Cose da fare	Operazioni non consentite
Capelli	- I capelli degli attori devono essere lisci e lucidi. - Anche la frangia o le stempiature degli attori devono avere un bordo chiaro e uniforme. - Scegliere un acconciatura che è facile da ricreare durante l’intera registrazione video.	- Evitare capelli disordinati o che lo sfondo si veda attraverso i capelli. - Non lasciare che i capelli coprano gli occhi o le sopracciglia. - Evitare ombre sul viso causate dall’acconciatura. - Evitare troppi cambiamenti dei capelli durante i discorsi e il movimento del corpo. Ad esempio, una alta coda di cavallo degli attori potrebbe apparire, scomparire e oscillare mentre parlano.
Clothing	- Verificare le condizioni dei vestiti e assicurarsi che non subiscano cambiamenti significativi mentre l'attore parla.	- Evitare di indossare abbigliamento e accessori troppo larghi, pesanti o complessi, in quanto potrebbero influire sulla coerenza dello stato dell’abbigliamento durante i discorsi e il movimento del corpo. - Evitare di indossare abiti troppo simili al colore di sfondo o materiali riflettenti come camicie bianche o materiali traslucidi. - Evitare abbigliamento con linee o articoli evidenti, con loghi e nomi di marche che non si vuole evidenziare. - Evitare elementi riflettenti come cinture metalliche, scarpe in pelle lucide e pantaloni in pelle.
Viso	- Assicurarsi che il viso dell'attore sia ben visibile.	- Evitare che il viso sia oscurato da capelli, occhiali da sole o accessori.

Quali videoclip registrare

Sono necessari diversi tipi di clip video di base:

Video di consenso (obbligatorio) Il video di consenso è necessario per la creazione di un avatar personalizzato.

Il video di consenso deve rappresentare lo stesso avatar talent speaking, seguendo il requisito della dichiarazione di consenso. Assicurarsi che l'istruzione sia registrata correttamente e che ogni parola sia chiaramente pronunciata. È possibile selezionare una delle lingue supportate. Per informazioni sui requisiti del video sulla dichiarazione del consenso, vedere Ottenere il file di consenso dal talento avatar.
Il talento avatar deve sempre affrontare la parte anteriore della fotocamera, senza grandi movimenti.
Il video deve essere ripreso in un ambiente silenzioso e la voce deve essere registrata a un volume ragionevole. Provare a mantenere il rapporto segnale-rumore superiore a 20. Per indicazioni sulla registrazione vocale, vedere la guida Registrazione di esempi vocali personalizzati.
Assicurarsi che la parte head non venga occlusa in ogni fotogramma del video.
Assicurati che non compaiano altri oggetti nella fotocamera, tra cui apparecchiature di ripresa, telefono cellulare e così via.

Stato 0 pronuncia (Obbligatorio per i movimenti) Il clip video di stato 0 parlante è necessario per i movimenti con l'avatar.

Lo stato 0 rappresenta la postura che è possibile mantenere in modo naturale per gran parte del tempo, nel corso del parlato. Ad esempio, braccia incrociate davanti al corpo o sui fianchi, in modo naturale.
Mantenere una posa frontale. L'attore può muoversi leggermente per mostrarsi rilassato, come spostare delicatamente la testa o le spalle, ma non può muovere troppo il corpo.
Durata: mantenere lo stato 0 per 3-5 minuti.

Esempi di stato 0 che parlano

Immagine animata di Lisa che parla nello stato 0, che rappresenta la posa naturale mentre si parla.

Immagine animata di Harry che parla nello stato 0, che rappresenta la posa naturale mentre si parla.

Immagine animata di Lori che parla nello stato 0, che rappresenta la posa naturale mentre si parla.

Naturalmente parlando (Obbligatorio) Il clip video che parla naturalmente è necessario per l'avatar di parlare naturalmente.

L'attore parla nello stato 0, ma talvolta esegue movimenti naturali con le mani.
Le mani devono iniziare dallo stato 0 e tornarvi dopo aver eseguito i movimenti.
Nel parlare, accennare gesti naturali e comuni. Evitare gesti significativi, ad esempio indicare con le dita, applaudire o dare approvazione con pollice verso l’alto.
Durata: minimo 5 minuti, massimo 30 minuti in totale. È necessaria almeno una registrazione video continua della durata di 5 minuti. Se si registrano più videoclip, mantenere la durata di ogni clip inferiore a 10 minuti.

Esempi di linguaggio naturale

Immagine animata di esempio in cui Lisa parla nello stato 0 con movimenti naturali delle mani, che rappresenta la posa naturale mentre si parla.

Immagine animata di esempio in cui Harry parla nello stato 0 con movimenti naturali delle mani, che rappresenta la posa naturale mentre si parla.

Immagine animata di esempio in cui Lori parla nello stato 0 con movimenti naturali delle mani, che rappresenta la posa naturale mentre si parla.

Stato invisibile all'utente (obbligatorio) Il clip video di stato invisibile all'utente è obbligatorio. È importante se crei una conversazione in tempo reale con l'avatar personalizzato. Il clip video viene usato come modello principale per lo stato di parlato e ascolto per un chatbot.

Mantenere lo stato 0, non parlare, ma restare rilassati.
Anche quando si rimane nello stato 0, non stare completamente immobili; muoversi leggermente ma non troppo. Fingere di essere in attesa.
Sorridere come se si fosse pazientemente in ascolto o in attesa.
Evitare di annuire frequentemente con il capo.
Durata: 1 minuto.

Esempi di stato invisibile all'utente

Immagine animata di esempio in cui Lisa mantiene lo stato silenzioso senza parlare ma mostrandosi comunque rilassata.

Immagine animata di esempio in cui Harry mantiene lo stato silenzioso senza parlare ma mostrandosi comunque rilassato.

Immagine animata di esempio in cui Lori mantiene lo stato silenzioso senza parlare ma mostrandosi comunque rilassata.

Movimenti (facoltativo)

I clip video di movimento sono facoltativi e i clienti che devono inserire determinati movimenti mentre l'avatar parla possono attenersi a questa linea guida per la registrazione. L’inserimento dei movimenti è abilitato solo per avatar in modalità batch; l’avatar in tempo reale non supporta l’inserimento dei movimenti in questo momento. Ogni modello avatar personalizzato può supportare un massimo di 10 movimenti.

Suggerimenti per i movimenti

Ogni clip di movimento deve avere una durata massima di 10 secondi.
I movimenti devono iniziare allo stato 0 e terminare con lo stato 0. È essenziale che il personaggio mantenga la stessa posizione che nello stato 0, ovvero al centro dello schermo, per tutta la durata del movimento. In caso contrario, la clip del movimento non potrà essere inserita uniformemente nel video avatar.
La clip del movimento acquisisce solo i movimenti del corpo; gli attori non devono parlare durante i movimenti.
È consigliabile preparare un elenco di movimenti prima della registrazione; ecco alcuni esempi di clip video di movimento:

Esempi di movimento

Gesti	Esempi
Distribuzione di un link di vendita/codice promozione
Promozione del prodotto
Presentazione del prodotto
Indicazione del prezzo (numero compreso tra 1 e 10 con entrambe le mani)	Mano destra Mano sinistra

I modelli di avatar di alta qualità sono creati da registrazioni video di alta qualità, inclusa la qualità audio. Ecco altri suggerimenti per le prestazioni e la registrazione di clip video degli attori:

Cose da fare	Cose da evitare
- Assicurarsi che tutti i clip video vengano registrati nelle stesse condizioni. - Durante il processo di registrazione, determinare le dimensioni e l'area di visualizzazione del personaggio necessario in modo che possa essere visualizzato correttamente sullo schermo. - L'attore deve restare fermo durante la registrazione. - Fare attenzione alle espressioni del viso, che devono essere adatte per il caso d'uso dell'avatar. Ad esempio, se l'avatar di sintesi vocale personalizzato viene usato per il servizio clienti, deve sorridere e mostrarsi gentile. Se l'avatar viene usato per un servizio di cronaca, deve avere un aspetto professionale. - Mantenere lo sguardo fisso verso la videocamera, anche in presenza di un tele-suggeritore. - Quando il parlato è in pausa, riportare il corpo allo stato 0. - Parlare su un argomento a propria scelta. Piccoli errori vocali come l'omissione di una parola o una pronuncia errata sono accettabili. Se l'attore omette una parola, o pronuncia qualcosa in modo errato: tornare allo stato 0, sospendere per 3 secondi e riprendere a parlare. - Le pause tra frasi e paragrafi devono essere inserite in modo consapevole. Nelle pause, tornare allo stato 0 e chiudere le labbra. - L'audio deve essere abbastanza forte e chiaro; un audio di bassa qualità compromette il risultato del training. - Evitare di fare rumore nella sala di registrazione.	- Non regolare i parametri della videocamera, la lunghezza focale, la posizione, l'angolo di visualizzazione. Non spostare la videocamera; mantenere la stessa posizione, dimensione e angolazione della persona davanti alla videocamera. - Attori troppo piccoli potrebbero causare la perdita di qualità dell’immagine durante l’elaborazione successiva. Attori troppo grandi potrebbero causare la fuoriuscita dallo schermo durante gesti e movimenti. - Non fare gesti troppo lunghi o troppi movimenti per un gesto; ad esempio, le mani degli attori fanno sempre gesti e dimenticano di tornare allo stato 0. - I gesti e i movimenti dell'attore non devono coprire il viso. - L'attore deve evitare piccoli movimenti come leccarsi le labbra, toccarsi i capelli, guardare di traverso, scuotere continuamente la testa mentre parla o non stare in silenzio quando ha finito. - Evitare il rumore di fondo; lo staff non deve camminare o parlare durante la registrazione video. - Evitare di registrare la voce di altre persone durante il discorso degli attori.

Cose da fare

Cose da evitare

- Assicurarsi che tutti i clip video vengano registrati nelle stesse condizioni.
- Durante il processo di registrazione, determinare le dimensioni e l'area di visualizzazione del personaggio necessario in modo che possa essere visualizzato correttamente sullo schermo.
- L'attore deve restare fermo durante la registrazione.
- Fare attenzione alle espressioni del viso, che devono essere adatte per il caso d'uso dell'avatar. Ad esempio, se l'avatar di sintesi vocale personalizzato viene usato per il servizio clienti, deve sorridere e mostrarsi gentile. Se l'avatar viene usato per un servizio di cronaca, deve avere un aspetto professionale.
- Mantenere lo sguardo fisso verso la videocamera, anche in presenza di un tele-suggeritore.
- Quando il parlato è in pausa, riportare il corpo allo stato 0.
- Parlare su un argomento a propria scelta. Piccoli errori vocali come l'omissione di una parola o una pronuncia errata sono accettabili. Se l'attore omette una parola, o pronuncia qualcosa in modo errato: tornare allo stato 0, sospendere per 3 secondi e riprendere a parlare.
- Le pause tra frasi e paragrafi devono essere inserite in modo consapevole. Nelle pause, tornare allo stato 0 e chiudere le labbra.
- L'audio deve essere abbastanza forte e chiaro; un audio di bassa qualità compromette il risultato del training.
- Evitare di fare rumore nella sala di registrazione.

- Non regolare i parametri della videocamera, la lunghezza focale, la posizione, l'angolo di visualizzazione. Non spostare la videocamera; mantenere la stessa posizione, dimensione e angolazione della persona davanti alla videocamera.
- Attori troppo piccoli potrebbero causare la perdita di qualità dell’immagine durante l’elaborazione successiva. Attori troppo grandi potrebbero causare la fuoriuscita dallo schermo durante gesti e movimenti.
- Non fare gesti troppo lunghi o troppi movimenti per un gesto; ad esempio, le mani degli attori fanno sempre gesti e dimenticano di tornare allo stato 0.
- I gesti e i movimenti dell'attore non devono coprire il viso.
- L'attore deve evitare piccoli movimenti come leccarsi le labbra, toccarsi i capelli, guardare di traverso, scuotere continuamente la testa mentre parla o non stare in silenzio quando ha finito.
- Evitare il rumore di fondo; lo staff non deve camminare o parlare durante la registrazione video.
- Evitare di registrare la voce di altre persone durante il discorso degli attori.

Come preparare un clip video di interazione

La creazione di un clip video di interazione di alta qualità è essenziale se si sta costruendo una conversazione in tempo reale con un avatar personalizzato. La clip deve essere avere un formato domanda/risposta, in cui un fotografo pone una domanda e l'attore risponde. Continuare con coppie di domanda/risposta fino al completamento della conversazione. Se si sta filmando da soli, immaginare che qualcun altro stia ponendo le domande durante la fase di domanda.

Ecco alcuni suggerimenti per ogni fase:

Fase di richiesta

Mantenere lo stato 0, non parlare, ma restare rilassati.
Anche se si rimane nello stato 0, non rimanere immobili. Fingere di essere in attesa.
Sorridere come se si fosse pazientemente in ascolto o in attesa.
Evitare di annuire frequentemente con il capo.
Lunghezza: ogni slot di domanda dura circa 3-5 secondi.

Fase di risposta

Parlare naturalmente, gesticolando con naturalezza di tanto in tanto.
Nel parlare, accennare gesti naturali e comuni. Evitare gesti significativi, ad esempio indicare con le dita, applaudire o dare approvazione con pollice verso l’alto.
Cominciare i movimenti i dopo aver iniziato a parlare e terminarli prima di aver finito.
Lunghezza: ogni slot di risposta deve durare circa 5 secondi.

Lunghezza totale video

Puntare a una durata totale del video di 1-5 minuti.

Requisiti dei dati

Eseguire un'elaborazione di base dei dati video migliora l'efficienza del training del modello, ad esempio:

Assicurarsi che il personaggio si trovi al centro dello sfondo e che non cambi posizione e dimensione durante l'elaborazione video. Ogni parametro di elaborazione video, come la luminosità o il contrasto, rimane invariato. Le dimensioni, la posizione, la luminosità e il contrasto dell'avatar di output rifletteranno direttamente quelli presenti nei dati di training. Non vengono apportate modifiche durante l'elaborazione o la creazione di modelli.
L'inizio e la fine del clip devono mantenersi nello stato 0; gli attori devono stare in silenzio, sorridere e guardare davanti a sé. Il video deve procedere in modo fluido, non brusco.

Formato di file per la registrazione del video di training dell'avatar: .mp4 o .mov.

Risoluzione: almeno 1920x1080.

Frequenza fotogrammi al secondo: almeno 25 FPS.

Condividi tramite

Come registrare campioni di video per l'avatar di sintesi vocale personalizzato

Ambiente di registrazione

Requisiti dello sfondo

Requisiti di illuminazione

Dispositivi

Aspetto dell'attore

Quali videoclip registrare

Come preparare un clip video di interazione

Requisiti dei dati

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Come registrare campioni di video per l'avatar di sintesi vocale personalizzato

Ambiente di registrazione

Requisiti dello sfondo

Requisiti di illuminazione

Dispositivi

Aspetto dell'attore

Quali videoclip registrare

Come preparare un clip video di interazione

Requisiti dei dati

Contenuto correlato

Commenti e suggerimenti

Risorse aggiuntive