Jak rejestrować przykłady wideo dla niestandardowego tekstu do awatara mowy

Artykuł
01/13/2025

Ten artykuł zawiera instrukcje dotyczące przygotowywania wysokiej jakości przykładów wideo do tworzenia niestandardowego tekstu do awatara mowy.

Tworzenie niestandardowego modelu awatara zamiany tekstu na mowę wymaga szkolenia na nagraniu wideo prawdziwego człowieka. Ta osoba jest talentem awatara. Musisz uzyskać wystarczającą zgodę na podstawie wszystkich odpowiednich przepisów prawa i przepisów od talentu awatara, aby stworzyć niestandardowy awatar na podstawie obrazu lub podobieństwa ich talentu. Aby dowiedzieć się więcej o wymaganiach wideo z oświadczeniem o zgody, zobacz Pobieranie pliku zgody od talentu awatara.

Środowisko nagrywania

Zalecamy nagrywanie w profesjonalnym studiu nagraniowym wideo lub dobrze oświetlonym miejscu.

Wymaganie w tle

Jeśli potrzebujesz komercyjnego, wielosekranowego awatara, tło filmu powinno być czyste, gładkie, czyste, czyste, a zielony ekran jest najlepszym wyborem.

Jeśli awatar musi być używany tylko w jednej scenie, możesz wybrać określoną scenę do zarejestrowania (np. w biurze), ale nie można odjąć i zmienić tła.

Poniżej przedstawiono najlepsze rozwiązania, które należy wziąć pod uwagę w przypadku korzystania z czystego koloru tła (takiego jak zielony ekran) do nagrywania:

Zielony ekran jest ustawiony za plecami, a jeśli film awatara pokazuje pełne ciało aktora, w tym stopy, powinien być zielony ekran pod stopami. A tylny zielony ekran i zielony ekran na podłodze powinny być bezproblemowo połączone.
Zielony ekran powinien być płaski, a kolor jest jednolity.
Aktor powinien zachować odległość 0,5 m – 1 m od tła pleców.
Zielony ekran może być prawidłowo oświetlony, aby zapobiec cieniu.
Pełny kontur aktora znajduje się na krawędzi zielonego ekranu.
Aktor nie powinien stać zbyt blisko zielonego ekranu.
Unikaj głowy i rąk aktora rozlewających się z zielonego ekranu podczas mówienia.

Wymaganie dotyczące oświetlenia

Zapewnij równomierne i jasne oświetlenie twarzy aktora, unikając cieni na twarzy lub odbicia na okularach i ubraniach aktora.
Staraj się unikać zmian w świetle otoczenia dla aktorów. Zaleca się wyłączenie projektora, zamknięcie zasłon, aby uniknąć zmian światła dziennego i użycie stabilnego źródła sztucznego światła itp.

Urządzenia

Wymaganie aparatu: minimalna rozdzielczość 1080-P i 25 KLATEK NA SEKUNDĘ (ramki na sekundę).
Nie zmieniaj położenia światła i kamery po osiedleniu się w dół podczas całego fotografowania wideo.
Możesz użyć teleprompter, aby przypomnieć skrypt podczas nagrywania, ale upewnij się, że nie wpływa to na spojrzenie aktora w kierunku kamery. Podaj miejsce, aby usiąść, jeśli awatar musi być w pozycji siedzącej.
Dla pół długości lub siedzących cyfrowych awatarów, podaj miejsce, aby usiąść dla aktora. Jeśli nie chcesz, aby obraz krzesła był wyświetlany, możesz wybrać krzesło.

Wygląd aktora

Niestandardowy tekst do awatara mowy nie obsługuje dostosowywania ubrań ani wyglądów. Dlatego ważne jest, aby starannie zaprojektować i przygotować wygląd awatara podczas rejestrowania danych treningowych. Rozważ następujące porady:

Kategorie	Dos	Zakazów
Włos	- Włosy aktora powinny mieć gładką i błyszczącą powierzchnię. - Nawet grzywka aktora lub złamane włosy powinny mieć jasne i gładkie obramowanie. - Wybierz fryzurę, która jest łatwa do utrzymania spójności podczas całego nagrywania wideo.	- Unikaj niechlujnych włosów lub tła pokazujących się przez włosy. - Nie pozwól, aby włosy blokowały oczy lub brwi. - Unikaj cieni na twarzy spowodowanej fryzurą. - Unikaj zmian włosów zbyt wiele podczas mowy i gestu ciała. Na przykład wysoki kucyk aktora może pojawić się, zniknąć i huśtawka podczas mówienia.
Odzież	- Zwróć uwagę na stan odzieży i upewnij się, że podczas mówienia nie ma znaczących zmian w odzieży.	- Unikaj noszenia odzieży i akcesoriów, które są zbyt luźne, ciężkie lub złożone, ponieważ mogą wpływać na spójność stanu odzieży podczas mówienia i gestu ciała. - Unikaj noszenia odzieży, która jest zbyt podobna do koloru tła lub materiałów refleksyjnych, takich jak białe koszule lub przezroczyste materiały. - Unikaj odzieży z oczywistymi liniami lub elementami z logo i nazwami marek, których nie chcesz wyróżniać. - Unikaj elementów odblaskowych, takich jak metalowe pasy, błyszczące skórzane buty i skórzane spodnie.
Rozpoznawanie twarzy	- Upewnij się, że twarz aktora jest wyraźnie widoczna.	- Unikaj twarzy zaciemnianej włosami, okularami przeciwsłonecznymi lub akcesoriami.

Co klipy wideo do nagrywania

Potrzebujesz kilku typów podstawowych klipów wideo:

Wyrażenie zgody wideo (wymagane) Wideo zgody jest wymagane do utworzenia niestandardowego awatara.

Wideo zgody musi reprezentować ten sam talent awatara mówiąc, zgodnie z wymogiem oświadczenia zgody. Upewnij się, że instrukcja jest poprawnie zarejestrowana, a każde słowo jest wyraźnie mówione. Możesz wybrać dowolny z obsługiwanych języków. Aby dowiedzieć się więcej o wymaganiach wideo z oświadczeniem o zgody, zobacz Pobieranie pliku zgody od talentu awatara.
Talent awatara powinien zawsze zmierzyć się z przodu kamery, bez dużych ruchów.
Film powinien być wykonany w cichym środowisku, a głos powinien być rejestrowany w rozsądnym woluminie. Staraj się zachować współczynnik sygnału do szumu wyższy niż 20. Aby uzyskać wskazówki dotyczące nagrywania głosu, zobacz przewodnik Rejestrowanie niestandardowych przykładów głosowych .
Upewnij się, że część głowy nie będzie okludkowana w każdej ramce filmu wideo.
Upewnij się, że w aparacie nie pojawiają się żadne inne obiekty, w tym sprzęt filmowy, telefon komórkowy itp.

Stan 0 mówiący (wymagany dla gestów) Stan 0 mówiący klip wideo jest wymagany dla gestów z awatarem.

Stan 0 reprezentuje stan, który można naturalnie zachować przez większość czasu podczas mówienia. Na przykład ramiona skrzyżowane przed ciałem lub wiszące naturalnie po bokach.
Zachowaj postawę frontonu. Aktor może nieco poruszać się, aby pokazać zrelaksowany stan, jak poruszanie głową lub ramię nieco, ale nie poruszaj ciała zbyt wiele.
Długość: zachowaj stan 0 przez 3–5 minut.

Przykłady stanu 0 mówienia

Animowana grafika przedstawiająca Lisa mówiąca w stanie 0, reprezentująca postawę naturalnie utrzymywaną podczas mówienia.

Animowana grafika przedstawiająca Harry'ego mówiącego w stanie 0, reprezentująca postawę naturalnie utrzymywaną podczas mówienia.

Animowana grafika przedstawiająca Lori mówiącego w stanie 0, reprezentująca postawę naturalnie utrzymywaną podczas mówienia.

Naturalnie mówiąc (wymagane) Naturalnie mówiąc klip wideo jest wymagany do awatara mówić naturalnie.

Aktor mówi w stanie 0, ale z naturalnymi gestami od czasu do czasu.
Ręce powinny zaczynać się od stanu 0 i wracać po wykonaniu gestów.
Używaj naturalnych i typowych gestów podczas mówienia. Unikaj znaczących gestów, takich jak wskazywanie, oklaski lub kciuki w górę.
Długość: Minimalna 5 minut, maksymalna 30 minut w sumie. Wymagany jest co najmniej jeden kawałek 5-minutowego ciągłego nagrywania wideo. Jeśli nagrywasz wiele klipów wideo, zachowaj każdy klip poniżej 10 minut.

Próbki naturalnego mówienia

Animowana grafika przedstawiająca próbkę Lisa mówiącą w stanie 0 z naturalnymi gestami dłoni, reprezentującą postawę naturalnie utrzymywaną podczas mówienia.

Animowana grafika przedstawiająca próbkę Harry'ego mówiącego w stanie 0 z naturalnymi gestami dłoni, reprezentującą postawę naturalnie utrzymywaną podczas mówienia.

Animowana grafika przedstawiająca próbkę Lori mówiącego w stanie 0 z naturalnymi gestami dłoni, reprezentującą postawę naturalnie utrzymywaną podczas mówienia.

Stan dyskretny (wymagany) Klip wideo o stanie dyskretnym jest wymagany. Ważne jest, aby utworzyć rozmowę w czasie rzeczywistym z niestandardowym awatarem. Klip wideo jest używany jako główny szablon zarówno do mówienia, jak i słuchania czatbota.

Zachowaj stan 0, nie mów, ale nadal czuj się zrelaksowany.
Nawet pozostanie w stanie 0, nie zachowaj nadal; można nieco się poruszać, ale nie za dużo. Wykonaj tak, jak czekasz.
Zachowaj uśmiech tak, jakby słuchał lub czekał cierpliwie.
Unikaj częstego ukłony w ukłony.
Długość: 1 minuta.

Przykłady stanu dyskretnego

Animowana grafika przedstawiająca próbkę Lisa utrzymującą cichy status bez mówienia, ale nadal czując się zrelaksowana.

Animowana grafika przedstawiająca próbkę Harry'ego utrzymania cichego statusu bez mówienia, ale nadal czuje się zrelaksowana.

Animowana grafika przedstawiająca próbkę Lori utrzymującego cichy status bez mówienia, ale nadal czując się zrelaksowana.

Gesty (opcjonalnie)

Klipy wideo gestów są opcjonalne, a klienci, którzy muszą wstawić określone gesty w awatarze, mogą postępować zgodnie z tą wskazówką, aby wykonać filmy gestów. Wstawianie gestów jest włączone tylko dla awatara trybu wsadowego; Awatar w czasie rzeczywistym nie obsługuje wstawiania gestów w tym momencie. Każdy niestandardowy model awatara może obsługiwać nie więcej niż 10 gestów.

Porady dotyczące gestów

Każdy klip gestu powinien mieścić się w ciągu 10 sekund.
Gesty powinny zaczynać się od stanu 0 i kończyć się stanem 0. Ważne jest, aby znak zachowywał taką samą pozycję jak w stanie 0, który znajduje się w środku ekranu, przez cały gest. W przeciwnym razie klip gestu nie może być płynnie wstawiony do wideo awatara.
Klip gestu przechwytuje tylko gesty ciała; aktor nie musi mówić podczas wykonywania gestów.
Zalecamy zaprojektowanie listy gestów przed nagraniem; Oto kilka przykładów klipów wideo gestów:

Przykłady gestu

Gestów	Przykłady
Dostarczanie linku sprzedaży/kodu podwyższania poziomu
Chwalenie produktu
Wprowadzenie do produktu
Wyświetlanie ceny (liczba od 1 do 10-pięści-numer z każdą ręką)	Prawa ręka w lewo

Wysokiej jakości modele awatarów są tworzone na podstawie wysokiej jakości nagrań wideo, w tym jakości audio. Poniżej przedstawiono więcej wskazówek dotyczących występu aktora i nagrywania klipów wideo:

Dos	Zakazów
- Upewnij się, że wszystkie klipy wideo są wykonywane w tych samych warunkach. - Podczas procesu nagrywania należy zaprojektować rozmiar i obszar wyświetlania potrzebnego znaku, aby można było odpowiednio wyświetlić znak na ekranie. - Aktor powinien być stały podczas nagrywania. - Mimiki twarzy umysłu, które powinny być odpowiednie dla przypadku użycia awatara. Na przykład wygląd pozytywny i uśmiech, jeśli niestandardowy tekst do mowy awatar jest używany jako obsługa klienta. Poszukaj profesjonalnie, jeśli awatar jest używany do raportowania wiadomości. - Zachowaj wzrok w kierunku kamery, nawet w przypadku korzystania z telepromptera. - Zwróć swoje ciało do stanu 0, gdy wstrzymuje mówienie. - Mów na temat wybrany samodzielnie, a drobne błędy mowy, takie jak chybienie słowa lub błędnie sformułowane są dopuszczalne. Jeśli aktor przegapi słowo lub błędnie coś wyrzuci, po prostu wróć do stanu 0, wstrzymaj się przez 3 sekundy, a następnie kontynuuj mówienie. - Świadomie wstrzymaj między zdaniami i akapitami. Po wstrzymaniu wróć do stanu 0 i zamknij usta. - Dźwięk powinien być wystarczająco jasny i głośny; niska jakość dźwięku wpływa na wynik trenowania. - Zachowaj środowisko fotografowania cicho.	- Nie dopasowuj parametrów aparatu, ogniskowej, pozycji, kąta widoku. Nie przenosij aparatu; zachować pozycję osoby, rozmiar, kąt, spójny w aparacie. - Znaki, które są zbyt małe, mogą prowadzić do utraty jakości obrazu podczas przetwarzania końcowego. Znaki, które są zbyt duże, mogą spowodować przepełnienie ekranu podczas gestów i ruchów. - Nie wykonuje zbyt długich gestów ani zbyt wiele ruchu dla jednego gestu; na przykład ręce aktora zawsze robią gesty i zapominają, aby wrócić do stanu 0. - Ruchy i gesty aktora nie mogą blokować twarzy. - Unikaj małych ruchów aktora, takich jak lizanie ust, dotykanie włosów, mówienie w bok, ciągłe potrząsanie głową podczas mowy, a nie zamykanie się po mówieniu. - Unikaj szumu tła; personel powinien unikać chodzenia i mówienia podczas nagrywania wideo. - Unikaj głosu innych osób nagranych podczas mówienia aktora.

Dos

Zakazów

- Upewnij się, że wszystkie klipy wideo są wykonywane w tych samych warunkach.
- Podczas procesu nagrywania należy zaprojektować rozmiar i obszar wyświetlania potrzebnego znaku, aby można było odpowiednio wyświetlić znak na ekranie.
- Aktor powinien być stały podczas nagrywania.
- Mimiki twarzy umysłu, które powinny być odpowiednie dla przypadku użycia awatara. Na przykład wygląd pozytywny i uśmiech, jeśli niestandardowy tekst do mowy awatar jest używany jako obsługa klienta. Poszukaj profesjonalnie, jeśli awatar jest używany do raportowania wiadomości.
- Zachowaj wzrok w kierunku kamery, nawet w przypadku korzystania z telepromptera.
- Zwróć swoje ciało do stanu 0, gdy wstrzymuje mówienie.
- Mów na temat wybrany samodzielnie, a drobne błędy mowy, takie jak chybienie słowa lub błędnie sformułowane są dopuszczalne. Jeśli aktor przegapi słowo lub błędnie coś wyrzuci, po prostu wróć do stanu 0, wstrzymaj się przez 3 sekundy, a następnie kontynuuj mówienie.
- Świadomie wstrzymaj między zdaniami i akapitami. Po wstrzymaniu wróć do stanu 0 i zamknij usta.
- Dźwięk powinien być wystarczająco jasny i głośny; niska jakość dźwięku wpływa na wynik trenowania.
- Zachowaj środowisko fotografowania cicho.

- Nie dopasowuj parametrów aparatu, ogniskowej, pozycji, kąta widoku. Nie przenosij aparatu; zachować pozycję osoby, rozmiar, kąt, spójny w aparacie.
- Znaki, które są zbyt małe, mogą prowadzić do utraty jakości obrazu podczas przetwarzania końcowego. Znaki, które są zbyt duże, mogą spowodować przepełnienie ekranu podczas gestów i ruchów.
- Nie wykonuje zbyt długich gestów ani zbyt wiele ruchu dla jednego gestu; na przykład ręce aktora zawsze robią gesty i zapominają, aby wrócić do stanu 0.
- Ruchy i gesty aktora nie mogą blokować twarzy.
- Unikaj małych ruchów aktora, takich jak lizanie ust, dotykanie włosów, mówienie w bok, ciągłe potrząsanie głową podczas mowy, a nie zamykanie się po mówieniu.
- Unikaj szumu tła; personel powinien unikać chodzenia i mówienia podczas nagrywania wideo.
- Unikaj głosu innych osób nagranych podczas mówienia aktora.

Jak przygotować klip wideo interakcji

Tworzenie klipu wideo interakcji wysokiej jakości jest niezbędne, jeśli tworzysz rozmowę w czasie rzeczywistym z niestandardowym awatarem. Klip powinien składać się z formatu pytań i odpowiedzi, w którym fotograf zadaje pytanie, a aktor odpowiada. Zapętl parę pytań i odpowiedzi, aż konwersacja zostanie ukończona. Jeśli filmujesz sam, wyobraź sobie, że ktoś inny zadaje pytania podczas fazy zadawania pytań.

Oto kilka wskazówek dotyczących każdej fazy:

Faza pytania

Zachowaj stan 0, nie mów, ale nadal czuj się zrelaksowany.
Nawet pozostanie w stanie 0, nie zachowaj nadal. Wykonaj tak, jak czekasz.
Zachowaj uśmiech tak, jakby słuchał lub czekał cierpliwie.
Unikaj częstego ukłony w ukłony.
Długość: każde gniazdo z pytaniem powinno trwać około 3–5 sekund.

Faza odpowiadania

Mówić naturalnie z naturalnymi gestami dłoni od czasu do czasu.
Używaj naturalnych i typowych gestów podczas mówienia. Unikaj znaczących gestów, takich jak wskazywanie, oklaski lub kciuki w górę.
Rozpocznij gesty po rozpoczęciu mówienia i zatrzymaj je przed zakończeniem.
Długość: każde miejsce odpowiedzi powinno trwać około 5 sekund.

Łączna długość wideo

Wyceluj w łączną długość wideo wynoszącą 1–5 minut.

Wymagania dotyczące danych

Podstawowe przetwarzanie danych wideo jest przydatne w przypadku wydajności trenowania modelu, takich jak:

Upewnij się, że znak znajduje się w środku ekranu, rozmiar i pozycja są spójne podczas przetwarzania wideo. Każdy parametr przetwarzania wideo, taki jak jasność, kontrast pozostaje taki sam i nie zmienia się. Rozmiar, położenie, jasność i kontrast awatara wyjściowego będą bezpośrednio odzwierciedlać te, które znajdują się w danych treningowych. Nie stosujemy żadnych zmian podczas przetwarzania ani tworzenia modelu.
Początek i koniec klipu powinny być przechowywane w stanie 0; aktorzy powinni zamknąć usta i uśmiechnąć się, i spojrzeć naprzód. Film powinien być ciągły, a nie nagle.

Format pliku nagrywania wideo treningowego awatara: .mp4 lub .mov.

Rozdzielczość: co najmniej 1920x1080.

Szybkość klatek na sekundę: co najmniej 25 KLATEK NA SEKUNDĘ.

Udostępnij za pośrednictwem

Jak rejestrować przykłady wideo dla niestandardowego tekstu do awatara mowy

Środowisko nagrywania

Wymaganie w tle

Wymaganie dotyczące oświetlenia

Urządzenia

Wygląd aktora

Co klipy wideo do nagrywania

Jak przygotować klip wideo interakcji

Wymagania dotyczące danych

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Jak rejestrować przykłady wideo dla niestandardowego tekstu do awatara mowy

Środowisko nagrywania

Wymaganie w tle

Wymaganie dotyczące oświetlenia

Urządzenia

Wygląd aktora

Co klipy wideo do nagrywania

Jak przygotować klip wideo interakcji

Wymagania dotyczące danych

Powiązana zawartość

Opinia

Dodatkowe zasoby