Delen via


Videovoorbeelden opnemen voor aangepaste tekst-naar-spraak-avatar

Dit artikel bevat instructies voor het voorbereiden van videovoorbeelden van hoge kwaliteit voor het maken van een aangepaste tekst naar spraak-avatar.

Voor het bouwen van aangepaste tekst-naar-spraak-avatarmodellen is training vereist voor een video-opname van een echte menselijke taal. Deze persoon is het avatartalent. U moet voldoende toestemming krijgen onder alle relevante wetten en voorschriften van het avatartalent om een aangepaste avatar te maken op basis van hun talentbeeld of gelijkenis. Zie Toestemmingsbestand ophalen van het avatartalent voor meer informatie over vereisten van de toestemmingsverklaringvideo.

Opnameomgeving

We raden u aan om op te nemen in een professionele video-opnamestudio of een goed verlichte plek.

Achtergrondvereiste

Als u een commerciële avatar met meerdere scènes nodig hebt, moet de achtergrond van de video schoon, glad, puur gekleurd zijn en is een groen scherm de beste keuze.

Als uw avatar slechts in één scène hoeft te worden gebruikt, kunt u een specifieke scène selecteren om op te nemen (zoals in uw kantoor), maar de achtergrond kan niet worden afgetrokken en gewijzigd.

Hier volgen aanbevolen procedures om rekening mee te houden wanneer u een puur gekleurde achtergrond (zoals een groen scherm) gebruikt voor opname:

  • Een groen scherm wordt achter je rug geplaatst en als je avatarvideo het volledige lichaam van de acteur toont, inclusief voeten, moet er een groen scherm onder de voeten staan. En het achtergroene scherm en het vloergroene scherm moeten naadloos worden aangesloten.
  • Het groene scherm moet vlak zijn en de kleur is uniform.
  • De acteur moet 0,5 m – 1 m afstand van de achtergrond van de achtergrond houden.
  • Het groene scherm kan goed worden verlicht om schaduwen te voorkomen.
  • Het volledige overzicht van de actor bevindt zich aan de rand van het groene scherm.
  • De acteur mag niet te dicht bij het groene scherm staan.
  • Vermijd het hoofd en de handen van de acteur die uit het groene scherm lopen tijdens het spreken.

Verlichtingsvereiste

  • Zorg voor gelijkmatige en heldere belichting op het gezicht van de acteur, vermijd schaduwen op het gezicht of reflecties op de bril en kleding van de acteur.
  • Probeer veranderingen in omgevingslicht op actoren te voorkomen. Het is raadzaam om de projector uit te schakelen, de gordijnen te sluiten om daglichtveranderingen te voorkomen en een stabiele kunstmatige lichtbron te gebruiken, enzovoort.

Apparaten

  • Cameravereiste: Minimaal 1080-P resolutie en 25 FPS (frames per seconde).
  • Wijzig de positie van het licht en de camera niet na het afwikkelen tijdens de hele video-opname.
  • U kunt een teleprompter gebruiken om het script tijdens de opname eraan te herinneren, maar zorg ervoor dat dit niet van invloed is op de blik van de acteur naar de camera. Geef een plaats om te zitten als de avatar in een zitpositie moet zitten.
  • Voor digitale avatars met een halve lengte of zit, kunt u voor de acteur zitten. Als u niet wilt dat de afbeelding van de stoel wordt weergegeven, kunt u een stoel kiezen.

Uiterlijk van de acteur

De aangepaste tekst naar spraak avatar biedt geen ondersteuning voor het aanpassen van kleding of uiterlijk. Daarom is het essentieel dat u het uiterlijk van de avatar zorgvuldig ontwerpt en voorbereidt bij het opnemen van de trainingsgegevens. Bekijk de volgende tips:

Categorieën Dos Don'ts
Haar - Het haar van de acteur moet een glad en glanzend oppervlak hebben.
- Zelfs de knallen van de acteur of gebroken haar moeten een duidelijke en vloeiende rand hebben.
- Kies een kapsel dat gemakkelijk consistent is tijdens de hele video-opname.
- Vermijd rommelig haar of achtergronden die door het haar worden weergegeven.
- Laat haar de ogen of wenkbrauwen niet blokkeren.
- Vermijd schaduwen op het gezicht veroorzaakt door kapsel.
- Vermijd haarwijzigingen te veel tijdens spraak en lichaam gebaar. De hoge paardenstaart van een acteur kan bijvoorbeeld verschijnen, verdwijnen en schommelen tijdens het spreken.
Kleding - Let op de kledingstatus en zorg ervoor dat er tijdens het spreken geen belangrijke veranderingen in de kleding optreden. - Vermijd het dragen van kleding en accessoires die te los, zwaar of complex zijn, omdat ze de consistentie van de kledingstatus kunnen beïnvloeden tijdens spreken en lichaamsbewegingen.
- Vermijd het dragen van kleding die te vergelijkbaar is met de achtergrondkleur of reflecterende materialen zoals witte shirts of translucente materialen.
- Vermijd kleding met duidelijke lijnen of items met logo's en merknamen die u niet wilt markeren.
- Vermijd reflecterende elementen zoals metalen riemen, glanzende lederen schoenen en lederen broek.
Face - Zorg ervoor dat het gezicht van de actor duidelijk zichtbaar is. - Vermijd gezicht bedekt door haar, zonnebril of accessoires.

Welke videoclips moeten worden opgenomen

U hebt verschillende soorten eenvoudige videoclips nodig:

Toestemmingsvideo (vereist) De toestemmingsvideo is vereist voor het maken van een aangepaste avatar.

  • De toestemmingsvideo moet hetzelfde avatartalent vertegenwoordigen, na de vereiste van de toestemmingsverklaring. Zorg ervoor dat de instructie correct is vastgelegd en dat elk woord duidelijk wordt gesproken. U kunt een van de ondersteunde talen selecteren. Zie Toestemmingsbestand ophalen van het avatartalent voor meer informatie over vereisten van de toestemmingsverklaringvideo.
  • Het avatartalent moet altijd de voorkant van de camera aanzichten, zonder grote bewegingen.
  • De video moet in een rustige omgeving worden genomen en de stem moet op een redelijk volume worden opgenomen. Probeer de signaal-naar-ruis-verhouding hoger dan 20 te houden. Zie de handleiding aangepaste spraakvoorbeelden opnemen voor hulp bij het opnemen van spraakopnamen.
  • Zorg ervoor dat het hoofdgedeelte niet wordt opgenomen in elk frame van de video.
  • Zorg ervoor dat er geen andere objecten in de camera worden weergegeven, waaronder filmapparatuur, mobiele telefoon, enzovoort.

Status 0 spreken (vereist voor gebaren) De status 0 spreekvideoclip is vereist voor bewegingen met de avatar.

  • Status 0 vertegenwoordigt de houding die u het grootste deel van de tijd natuurlijk kunt behouden terwijl u spreekt. Bijvoorbeeld armen die voor het lichaam zijn gekruist of op natuurlijke wijze naar beneden hangen aan de zijkanten.
  • Houd een houding aan de voorzijde. De acteur kan iets bewegen om een ontspannen status weer te geven, zoals het bewegen van het hoofd of de schouder iets, maar verplaats het lichaam niet te veel.
  • Lengte: blijf gedurende 3-5 minuten in status 0 spreken.

Voorbeelden van status 0 spreken

Geanimeerde afbeelding van Lisa die spreekt in status 0, die het houding vertegenwoordigt dat natuurlijk behouden blijft tijdens het spreken.

Geanimeerde afbeelding van Harry die spreekt in status 0, die het houding vertegenwoordigt dat natuurlijk behouden blijft tijdens het spreken.

Geanimeerde afbeelding van Het spreken in De status 0, die het houding vertegenwoordigt dat op natuurlijke wijze wordt onderhouden tijdens het spreken.

Natuurlijk gesproken (vereist) De natuurlijk sprekende videoclip is vereist om de avatar op natuurlijke wijze te laten spreken.

  • Acteur spreekt in status 0, maar met natuurlijke handbewegingen van tijd tot tijd.
  • Handen moeten beginnen vanaf status 0 en terugkeren na het maken van bewegingen.
  • Gebruik natuurlijke en gemeenschappelijke gebaren bij het spreken. Vermijd zinvolle gebaren zoals wijzen, applaus of duim omhoog.
  • Lengte: Minimaal 5 minuten, maximum 30 minuten in totaal. Minstens één deel van 5 minuten continue video-opname is vereist. Als u meerdere videoclips opneemt, moet u elke clip minder dan 10 minuten bewaren.

Voorbeelden van natuurlijke spreken

Geanimeerde afbeelding met voorbeeld van Lisa die spreekt in status 0 met natuurlijke handbewegingen, die het houding vertegenwoordigen dat op natuurlijke wijze wordt onderhouden tijdens het spreken.

Geanimeerde afbeelding die een voorbeeld van Harry spreekt in status 0 met natuurlijke handbewegingen, die het houding vertegenwoordigen dat natuurlijk behouden blijft tijdens het spreken.

Geanimeerde afbeelding van een voorbeeld van Het spreken in de status 0 met natuurlijke handbewegingen, die het houding vertegenwoordigen dat natuurlijk behouden blijft tijdens het spreken.

Stille status (vereist) De videoclip voor de stille status is vereist. Het is belangrijk als u een realtime gesprek bouwt met de aangepaste avatar. De videoclip wordt gebruikt als de hoofdsjabloon voor zowel spreek- als luisterstatus voor een chatbot.

  • Behoud status 0, spreek niet, maar voel je nog steeds ontspannen.
  • Zelfs in status 0 blijven, niet stilhouden; je kunt iets bewegen, maar niet te veel. Alsof je wacht.
  • Houd een glimlach alsof je geduldig luistert of wacht.
  • Vermijd regelmatig knikken.
  • Lengte: 1 minuut.

Voorbeelden van stille status

Geanimeerde afbeelding met voorbeeld van Lisa die stille status behoudt zonder te spreken, maar nog steeds ontspannen te voelen.

Geanimeerde afbeelding met voorbeeld van Harry die stille status behoudt zonder te spreken, maar nog steeds ontspannen te voelen.

Geanimeerde afbeelding van een voorbeeld van Het behoud van de stille status zonder te spreken, maar voelt zich nog steeds ontspannen.

Bewegingen (optioneel)

Gebaarvideoclips zijn optioneel en klanten die bepaalde gebaren in de avatar moeten invoegen, kunnen deze richtlijn volgen om gebaarvideo's te maken. Het invoegen van bewegingen is alleen ingeschakeld voor avatar in batchmodus; realtime avatar biedt op dit moment geen ondersteuning voor het invoegen van gebaren. Elk aangepast avatarmodel kan maximaal 10 gebaren ondersteunen.

Tips voor beweging

  • Elke gebarenclip moet binnen 10 seconden zijn.
  • Bewegingen moeten beginnen vanaf status 0 en eindigen op status 0. Het is essentieel dat het teken dezelfde positie behoudt als in status 0, die zich in het midden van het scherm bevindt, tijdens het gebaar. Anders kan de bewegingclip niet soepel worden ingevoegd in de avatarvideo.
  • De gebarenclip legt alleen de lichaamsbewegingen vast; de acteur hoeft niet te spreken tijdens het maken van bewegingen.
  • We raden u aan een lijst met gebaren te ontwerpen voordat u opneemt; Hier volgen enkele voorbeelden van gebaarvideoclips:

Voorbeelden van beweging

Gebaren Voorbeelden
Verkoopkoppelings-/promotiecode leveren Een geanimeerde afbeelding met voorbeeld van het leveren van een verkoopkoppeling.
Het product prijzen Een geanimeerde afbeelding met een voorbeeld van het prijzen van het product
Introductie van het product Een geanimeerde afbeelding met voorbeeld van het introduceren van het product.
De prijs weergeven (getal van 1 tot 10-fist-number met elke hand) Rechterhand Een geanimeerde afbeelding met voorbeeld van het weergeven van de prijs met de rechterhand. links Een geanimeerde afbeelding met voorbeeld van het weergeven van de prijs met de linkerhand.

Avatarmodellen van hoge kwaliteit zijn gebouwd op basis van video-opnamen van hoge kwaliteit, waaronder audiokwaliteit. Hier volgen meer tips voor de prestaties van acteurs en het opnemen van videoclips:

Dos Don'ts
- Zorg ervoor dat alle videoclips in dezelfde omstandigheden worden genomen.
- Tijdens het opnameproces ontwerpt u de grootte en het weergavegebied van het teken dat u nodig hebt, zodat het teken op de juiste wijze op het scherm kan worden weergegeven.
- Actor moet stabiel zijn tijdens de opname.
- Let op gezichtsuitdrukkingen, die geschikt moeten zijn voor de use case van de avatar. Kijk bijvoorbeeld positief en glimlach als de aangepaste tekst naar spraak-avatar wordt gebruikt als klantenservice. Kijk professioneel als de avatar wordt gebruikt voor nieuwsrapportage.
- Houd oog naar de camera, zelfs wanneer u een teleprompter gebruikt.
- Geef uw lichaam de status 0 wanneer u het spreken onderbroken.
- Spreek over een zelf gekozen onderwerp en kleine spraakfouten zoals een woord missen of verkeerd aangekondigd zijn acceptabel. Als de acteur een woord mist of iets verkeerd aankondigt, gaat u terug naar status 0, pauzeert u 3 seconden en gaat u verder met spreken.
- Pauzeer bewust tussen zinnen en alinea's. Wanneer u onderbroken bent, gaat u terug naar de status 0 en sluit u uw lippen.
- De audio moet duidelijk en luid genoeg zijn; slechte audiokwaliteit heeft invloed op het trainingsresultaat.
- Houd de schietomgeving stil.
- Pas de cameraparameters, brandpuntsafstand, positie, kijkhoek niet aan. Verplaats de camera niet; houd de positie, grootte, hoek van de persoon consistent in de camera.
- Tekens die te klein zijn, kunnen leiden tot verlies van afbeeldingskwaliteit tijdens de naverwerking. Tekens die te groot zijn, kunnen ertoe leiden dat het scherm overloopt tijdens bewegingen en bewegingen.
- Maak niet te lange bewegingen of te veel beweging voor één gebaar; De handen van de acteur maken bijvoorbeeld altijd bewegingen en vergeten om terug te gaan naar status 0.
- De bewegingen en bewegingen van de acteur mogen het gezicht niet blokkeren.
- Vermijd kleine bewegingen van de acteur, zoals het likken van lippen, het aanraken van haar, zijwaarts praten, constant hoofd schudden tijdens spraak en niet sluiten na het spreken.
- Achtergrondruis vermijden; het personeel moet voorkomen dat u tijdens het opnemen van video's loopt en praat.
- Vermijd de stem van anderen die is opgenomen tijdens het spreken van de acteur.

Een videoclip voor interactie voorbereiden

Het maken van een videoclip voor interactie van hoge kwaliteit is essentieel als u een realtime gesprek bouwt met een aangepaste avatar. De clip moet bestaan uit een vraag-en-antwoord-indeling, waarbij een fotograaf een vraag stelt en de acteur reageert. Loop het vraag-antwoordpaar totdat het gesprek is voltooid. Als u alleen filmt, stelt u zich eens voor dat iemand anders de vragen stelt tijdens de vraagfase.

Hier volgen enkele tips voor elke fase:

Vraagfase

  • Behoud status 0, spreek niet, maar voel je nog steeds ontspannen.
  • Zelfs in status 0 blijven, niet stilhouden. Alsof je wacht.
  • Houd een glimlach alsof je geduldig luistert of wacht.
  • Vermijd regelmatig knikken.
  • Lengte: Elke vraagsite moet ongeveer 3-5 seconden duren.

Antwoordfase

  • Spreek natuurlijk met natuurlijke handbewegingen van tijd tot tijd.
  • Gebruik natuurlijke en gemeenschappelijke gebaren bij het spreken. Vermijd zinvolle gebaren zoals wijzen, applaus of duim omhoog.
  • Begin bewegingen na het spreken en stop ze voordat u klaar bent.
  • Lengte: Elke antwoordsite moet ongeveer 5 seconden duren.

Totale videolengte

  • Richt u op een totale videolengte van 1-5 minuten.

Gegevensvereisten

Het uitvoeren van een eenvoudige verwerking van uw videogegevens is handig voor de efficiëntie van modeltraining, zoals:

  • Zorg ervoor dat het teken zich in het midden van het scherm bevindt, de grootte en positie consistent zijn tijdens de videoverwerking. Elke videoverwerkingsparameter, zoals helderheid, contrast blijft hetzelfde en verandert niet. De grootte, positie, helderheid, contrast van de uitvoer-avatar geeft rechtstreeks de gegevens weer die aanwezig zijn in de trainingsgegevens. We passen geen wijzigingen toe tijdens de verwerking of het bouwen van modellen.
  • Het begin en einde van de clip moeten in de status 0 worden bewaard; de acteurs moeten hun mond sluiten en glimlachen, en vooruitkijken. De video moet continu zijn, niet abrupt.

Bestandsindeling voor het opnemen van avatarvideo's: .mp4 of .mov.

Oplossing: ten minste 1920x1080.

Framesnelheid per seconde: ten minste 25 FPS.