Dela via


Spela in videoexempel för anpassad text till tal-avatar

Den här artikeln innehåller instruktioner om hur du förbereder videoexempel av hög kvalitet för att skapa en anpassad text till tal-avatar.

Anpassad text till tal avatar modell byggnad kräver utbildning på en videoinspelning av en riktig mänsklig talar. Den här personen är avatartalangen. Du måste få tillräckligt med samtycke under alla relevanta lagar och förordningar från avatar talang för att skapa en anpassad avatar från deras talang bild eller likhet. Mer information om kraven i videon med medgivandeuttryck finns i Hämta medgivandefil från avatartalangen.

Inspelningsmiljö

Vi rekommenderar att du spelar in i en professionell videoinspelningsstudio eller en väl upplyst plats.

Bakgrundskrav

Om du behöver en kommersiell avatar med flera scener bör videons bakgrund vara ren, slät, renfärgad och en grön skärm är det bästa valet.

Om din avatar bara behöver användas i en enda scen kan du välja en specifik scen att spela in (till exempel på kontoret), men bakgrunden kan inte subtraheras och ändras.

Här är bästa praxis att tänka på när du använder en ren bakgrund (till exempel grön skärm) för inspelning:

  • En grön skärm är inställd bakom ryggen, och om din avatarvideo visar skådespelarens hela kropp, inklusive fötter, bör det finnas en grön skärm under fötterna. Och den bakre gröna skärmen och den gröna golvskärmen ska vara sömlöst anslutna.
  • Den gröna skärmen ska vara platt och färgen är enhetlig.
  • Skådespelaren bör hålla 0,5 m – 1 m avstånd från bakgrundsbakgrunden.
  • Den gröna skärmen kan tändas korrekt för att förhindra skuggor.
  • Den fullständiga konturen av aktören ligger inom kanten av den gröna skärmen.
  • Skådespelaren bör inte stå för nära den gröna skärmen.
  • Undvik att skådespelarens huvud och händer spills ut från den gröna skärmen när du talar.

Krav på belysning

  • Säkerställ jämn och ljus belysning på skådespelarens ansikte, undvika skuggor i ansiktet eller reflektioner på skådespelarens glasögon och kläder.
  • Försök att undvika förändringar i omgivande ljus på aktörer. Vi rekommenderar att du stänger av projektorn, stänger gardinerna för att undvika dagsljusbyten och använder en stabil artificiell ljuskälla osv.

Enheter

  • Kamerakrav: Minst 1 080 P-upplösning och 25 FPS (bildrutor per sekund).
  • Ändra inte ljusets och kamerans position när du har slagit dig ner under hela videoinspelningen.
  • Du kan använda en teleprompter för att påminna skriptet under inspelningen, men se till att det inte påverkar skådespelarens blick mot kameran. Ge en plats att sitta om avataren behöver vara i en sittande position.
  • För halvlånga eller sittande digitala avatarer, ge en plats att sitta för skådespelaren. Om du inte vill att bilden av stolen ska visas kan du välja en stol.

Skådespelarens utseende

Den anpassade text-till-tal-avataren stöder inte anpassning av kläder eller utseenden. Därför är det viktigt att noggrant utforma och förbereda avatarens utseende när du registrerar träningsdata. Tänk på följande tips:

Kategorier DOS Regler
Hår - Skådespelarens hår ska ha en slät och glansig yta.
- Även skådespelarens lugg eller brutet hår ska ha en klar och slät kant.
- Välj en frisyr som är lätt att hålla konsekvent under hela videoinspelningen.
- Undvik stökigt hår eller bakgrunder som visas genom håret.
- Låt inte hår blockera ögon eller ögonbryn.
- Undvik skuggor i ansiktet som orsakas av frisyr.
- Undvik hårförändringar för mycket under tal och kroppsgest. Till exempel kan en skådespelares höga hästsvans visas, försvinna och svänga under tal.
Kläder - Var uppmärksam på klädstatus och se till att inga betydande förändringar på kläder under talar. - Undvik att bära kläder och tillbehör som är för lösa, tunga eller komplexa, eftersom de kan påverka konsekvensen av klädstatus under tal och kroppsgest.
- Undvik att bära kläder som liknar bakgrundsfärgen eller reflekterande material som vita skjortor eller genomskinliga material.
- Undvik kläder med tydliga linjer eller föremål med logotyper och varumärken som du inte vill markera.
- Undvik reflekterande element som metallbälten, glänsande läderskor och läderbyxor.
Ansiktsigenkänning - Se till att skådespelarens ansikte är tydligt synligt. - Undvik ansiktet skymt av hår, solglasögon eller tillbehör.

Vilka videoklipp att spela in

Du behöver flera typer av grundläggande videoklipp:

Medgivandevideo (krävs) Medgivandevideon krävs för att skapa en anpassad avatar.

  • Samtyckesvideon måste representera samma avatartalang som talar, enligt kravet i samtyckesförklaringen. Kontrollera att instruktionen är korrekt inspelad och att varje ord är tydligt talat. Du kan välja något av de språk som stöds. Mer information om kraven i videon med medgivandeuttryck finns i Hämta medgivandefil från avatartalangen.
  • Avatar talang bör alltid möta framsidan av kameran, utan stora rörelser.
  • Videon ska tas i en lugn miljö och rösten ska spelas in på en rimlig volym. Försök att hålla signal-till-brus-förhållandet högre än 20. Vägledning för röstinspelning finns i guiden Spela in anpassade röstexempel .
  • Se till att huvuddelen inte kommer att vara occluded i varje bildruta i videon.
  • Se till att inga andra föremål visas i kameran, inklusive filmutrustning, mobiltelefon osv.

Status 0 talar (krävs för gester) Status 0 talande videoklipp krävs för gester med avataren.

  • Status 0 representerar den hållning som du naturligt kan behålla för det mesta när du talar. Till exempel korsade armar framför kroppen eller hänger ner naturligt på sidorna.
  • Behåll en framåtriktad pose. Skådespelaren kan röra sig något för att visa en avslappnad status, som att flytta huvudet eller axeln något, men flytta inte kroppen för mycket.
  • Längd: fortsätt att tala i status 0 i 3–5 minuter.

Exempel på status 0 som talar

Animerad bild som visar Lisa som talar i status 0, som representerar den hållning som underhålls naturligt när hon talar.

Animerad bild som visar Harry som talar i status 0, som representerar den hållning som naturligt upprätthålls när han talar.

Animerad bild som visar Lori som talar i status 0, som representerar den hållning som upprätthålls naturligt när du talar.

Naturligt tal (Krävs) Det naturligt talande videoklippet krävs för att avataren ska tala naturligt.

  • Skådespelaren talar i status 0 men med naturliga handgester då och då.
  • Händerna bör börja från status 0 och återgå efter att ha gjort gester.
  • Använd naturliga och vanliga gester när du talar. Undvik meningsfulla gester som att peka, applåder eller tummen upp.
  • Längd: Minst 5 minuter, maximalt 30 minuter totalt. Minst en del av den kontinuerliga videoinspelningen på 5 minuter krävs. Om du spelar in flera videoklipp ska du hålla varje klipp under 10 minuter.

Exempel på naturligt tal

Animerad bild som visar ett urval av Lisa som talar i status 0 med naturliga handgester, som representerar den hållning som underhålls naturligt när hon talar.

Animerad bild som visar ett urval av Harry som talar i status 0 med naturliga handgester, som representerar den hållning som underhålls naturligt när han talar.

Animerad bild som visar ett urval av Lori som talar i status 0 med naturliga handgester, som representerar den hållning som underhålls naturligt när du talar.

Tyst status (krävs) Videoklippet med tyst status krävs. Det är viktigt om du skapar en realtidskonversation med den anpassade avataren. Videoklippet används som huvudmall för både tal- och lyssningsstatus för en chattrobot.

  • Behåll status 0, tala inte, men känn dig ändå avslappnad.
  • Även om du är kvar i status 0, behåll inte fortfarande; du kan flytta något men inte för mycket. Utför som du väntar.
  • Behåll ett leende som om du lyssnade eller väntade tålmodigt.
  • Undvik att nicka ofta.
  • Längd: 1 minut.

Exempel på tyst status

Animerad bild som visar ett urval av Lisa som upprätthåller tyst status utan att tala men fortfarande känner sig avslappnad.

Animerad bild som visar ett urval av Harry som upprätthåller tyst status utan att tala men fortfarande känner sig avslappnad.

Animerad bild som visar ett urval av Lori som upprätthåller tyst status utan att tala men fortfarande känner sig avslappnad.

Gester (valfritt)

Gestvideoklipp är valfria, och kunder som har behov av att infoga vissa gester i avatartalande kan följa den här riktlinjen för att ta gestvideor. Gestinfogning är endast aktiverat för avatar i batchläge. realtidsavatar stöder inte gestinfogning just nu. Varje anpassad avatarmodell kan inte stödja fler än 10 gester.

Gesttips

  • Varje gestklipp bör vara inom 10 sekunder.
  • Gester bör börja från status 0 och sluta med status 0. Det är viktigt att tecknet behåller samma position som i status 0, som är mitt på skärmen, under hela gesten. Annars kan gestklippet inte infogas smidigt i avatarvideon.
  • Gestklippet fångar bara kroppsgesterna. skådespelaren inte behöver tala under gester.
  • Vi rekommenderar att du utformar en lista med gester innan du spelar in. här är några exempel på gestvideoklipp:

Exempel på gest

Gester Exempel
Leverera säljlänk/kampanjkod En animerad bild som visar exempel på leverans av säljlänk.
Prisa produkten En animerad bild som visar ett urval av prisning av produkten
Introduktion till produkten En animerad bild som visar ett exempel på hur produkten introduceras.
Visar priset (nummer från 1 till 10-fist-tal med varje hand) Höger hand En animerad bild som visar ett exempel på hur priset visas med höger hand. vänster hand En animerad bild som visar ett exempel på hur priset visas med vänster hand.

Avatarmodeller av hög kvalitet är byggda från högkvalitativa videoinspelningar, inklusive ljudkvalitet. Här är fler tips för skådespelarens prestanda och inspelning av videoklipp:

DOS Regler
– Se till att alla videoklipp är tagna under samma förhållanden.
- Under inspelningsprocessen utformar du storleken och visningsområdet för det tecken du behöver så att tecknet kan visas på skärmen på rätt sätt.
- Skådespelaren ska vara stadig under inspelningen.
- Sinne ansiktsuttryck, som bör vara lämplig för avatarens användningsfall. Du kan till exempel se positiv ut och le om den anpassade texten till tal-avataren används som kundtjänst. Titta professionellt om avataren används för nyhetsrapportering.
- Håll blicken mot kameran, även när du använder en teleprompter.
- Returnera din kropp till status 0 när du pausar tal.
- Tala om ett självvalt ämne, och mindre tal misstag som missa ett ord eller felaktigt uttalade är godtagbara. Om skådespelaren missar ett ord eller felpronounces något, bara gå tillbaka till status 0, pausa i 3 sekunder och sedan fortsätta tala.
- Pausa medvetet mellan meningar och stycken. När du pausar går du tillbaka till status 0 och stänger läpparna.
- Ljudet ska vara klart och tillräckligt högt; dålig ljudkvalitet påverkar träningsresultatet.
- Håll inspelningsmiljön tyst.
- Justera inte kameraparametrarna, brännvidden, positionen, vyvinkeln. Flytta inte kameran; hålla personens position, storlek, vinkel, konsekvent i kameran.
- Tecken som är för små kan leda till att bildkvaliteten går förlorad under efterbearbetningen. Tecken som är för stora kan orsaka att skärmen flödar över under gester och rörelser.
- Gör inte för långa gester eller för mycket rörelse för en gest; Till exempel gör skådespelarens händer alltid gester och glömmer att gå tillbaka till status 0.
- Skådespelarens rörelser och gester får inte blockera ansiktet.
- Undvik små rörelser av skådespelaren som slickar läppar, röra hår, prata i sidled, konstant huvud skakningar under tal, och inte stänga upp efter att ha talat.
- Undvik bakgrundsbrus; bör personalen undvika att gå och prata under videoinspelningen.
- Undvik andras röst spelas in under skådespelaren talar.

Förbereda ett interaktionsvideoklipp

Det är viktigt att skapa ett videoklipp med högkvalitativ interaktion om du skapar en realtidskonversation med en anpassad avatar. Klippet ska bestå av ett fråge- och svarsformat, där en fotograf ställer en fråga, och skådespelaren svarar. Loopa frågesvarsparet tills konversationen är klar. Om du filmar ensam kan du tänka dig att någon annan ställer frågorna under fasen.

Här följer några tips för varje fas:

Fråga fas

  • Behåll status 0, tala inte, men känn dig ändå avslappnad.
  • Även om du är kvar i status 0 ska du inte hålla dig stilla. Utför som du väntar.
  • Behåll ett leende som om du lyssnade eller väntade tålmodigt.
  • Undvik att nicka ofta.
  • Längd: Varje fråga fack bör vara cirka 3–5 sekunder.

Svarsfas

  • Tala naturligt med naturliga handgester då och då.
  • Använd naturliga och vanliga gester när du talar. Undvik meningsfulla gester som att peka, applåder eller tummen upp.
  • Börja gester när du har börjat tala och stoppa dem innan du är klar.
  • Längd: Varje svarsfack bör vara cirka 5 sekunder.

Total videolängd

  • Sikta på en total videolängd på 1–5 minuter.

Datakrav

Att utföra viss grundläggande bearbetning av dina videodata är användbart för modellträningseffektivitet, till exempel:

  • Kontrollera att tecknet är mitt på skärmen, att storleken och positionen är konsekventa under videobearbetningen. Varje videobearbetningsparameter, till exempel ljusstyrka, kontrast förblir densamma och ändras inte. Utdataavatarens storlek, position, ljusstyrka, kontrast återspeglar direkt de som finns i träningsdata. Vi tillämpar inga ändringar under bearbetningen eller modellbygget.
  • Början och slutet av klippet ska hållas i tillstånd 0; bör skådespelarna stänga munnen och le och blicka framåt. Videon ska vara kontinuerlig, inte abrupt.

Avatar träning video inspelning filformat: .mp4 eller .mov.

Lösning: Minst 1920x1080.

Bildfrekvens per sekund: Minst 25 FPS.