Aufzeichnen von Videobeispielen für benutzerdefinierten Text-zu-Sprache-Avatar

Artikel
01/13/2025

Dieser Artikel enthält Anweisungen zum Vorbereiten qualitativ hochwertiger Videobeispiele für die Erstellung eines benutzerdefinierten Text-zu-Sprache-Avatars.

Die Erstellung eines benutzerdefinierten Text-zu-Sprache-Avatarmodells erfordert ein Training mit einer Videoaufnahme eines echten Menschen, der spricht. Diese Person ist der Avatar-Darsteller. Sie müssen die nach allen einschlägigen Gesetzen und Vorschriften erforderliche Zustimmung des Avatar-Darstellers einholen, um einen benutzerdefinierten Avatar aus dem Bild oder dem Abbild des Darstellers zu erstellen. Um mehr über die Anforderungen des Einwilligungserklärungsvideos zu erfahren, lesen Sie Abrufen der Einwilligungsdatei des Avatar-Talents.

Aufzeichnungsumgebung

Wir empfehlen eine Aufzeichnung in einem professionellen Video-Aufnahmestudio oder an einem gut beleuchteten Ort.

Hintergrundanforderung

Wenn Sie einen kommerziellen Avatar mit mehreren Szenen benötigen, sollte der Hintergrund des Videos sauber, glatt, reinfarbig oder am besten ein Greenscreen sein.

Wenn Ihr Avatar nur in einer einzelnen Szene verwendet werden muss, können Sie eine bestimmte Szene auswählen, die aufgenommen werden soll (z. B. in Ihrem Büro), aber der Hintergrund kann nicht subtrahiert oder geändert werden.

Hier finden Sie bewährte Methoden, die Sie berücksichtigen sollten, wenn Sie einen einfarbigen Hintergrund (z. B. einen Greenscreen) für die Aufzeichnung verwenden:

Ein Greenscreen befindet sich hinter Ihrem Rücken. Wenn Ihr Avatarvideo den gesamten Körper des Akteurs zeigt, einschließlich der Füße, sollte unter den Füßen auch ein Greenscreen sein. Der Greenscreen hinter Ihnen und auf dem Boden sollte nahtlos miteinander verbunden sein.
Der Greenscreen sollte flach sein und die Farbe einheitlich.
Der Akteur sollte 0,5 m – 1 m vom Hintergrund entfernt sein.
Der Greenscreen sollte ordnungsgemäß beleuchtet werden, um Schatten zu vermeiden.
Der vollständige Umriss des Akteurs sollte sich innerhalb der Grenzen des Greenscreens befinden.
Der Akteur sollte nicht zu dicht am Greenscreen stehen.
Vermeiden Sie, dass der Kopf und die Hände des Akteurs sich beim Sprechen außerhalb des Greenscreen befinden.

Beleuchtungsanforderungen

Sorgen Sie für gleichmäßige und helle Beleuchtung auf dem Gesicht des Akteurs, und vermeiden Sie Schatten auf Gesicht oder Spiegelungen auf der Brille und Kleidung des Schauspielers.
Versuchen Sie, Änderungen des Umgebungslichts auf die Akteure zu vermeiden. Es wird empfohlen, den Projektor zu deaktivieren, die Vorhänge zu schließen, um Tageslichtänderungen zu vermeiden, und eine stabile künstliche Lichtquelle zu verwenden usw.

Geräte

Kameraanforderung: Mindestens 1080-P-Auflösung und 25 FPS (Frames pro Sekunde).
Ändern Sie die Position von Licht und Kamera während der gesamten Videoaufnahmen nicht, nachdem Sie sie eingerichtet haben.
Sie können einen Teleprompter verwenden, um während der Aufzeichnung an das Skript zu erinnern, aber stellen Sie sicher, dass es sich nicht auf den Blick des Akteurs auf die Kamera auswirkt. Stellen Sie eine Sitzmöglichkeit bereit, wenn sich der Avatar in einer Sitzposition befinden muss.
Stellen Sie bei digitalen Avataren in halber Größe oder sitzenden digitalen Avataren eine Sitzmöglichkeit für den Akteur bereit. Wenn das Bild des Stuhls nicht angezeigt werden soll, können Sie einen Stuhl auswählen.

Darstellung des Schauspielers

Der benutzerdefinierte Text-zu-Sprache-Avatar unterstützt keine Anpassung von Kleidung oder Looks. Daher ist es wichtig, die Darstellung des Avatars beim Aufzeichnen der Schulungsdaten sorgfältig zu entwerfen und vorzubereiten. Beachten Sie die folgenden Tipps:

Kategorien	Was Sie tun sollten	DONT‘s
Haare	- Das Haar des Akteurs sollte eine glatte und glänzende Oberfläche haben. - Selbst ein Pony oder kaputte Haare des Akteurs sollten klare und glatte Kanten haben. - Wählen Sie eine Frisur aus, die während der gesamten Videoaufzeichnung leicht gleich gehalten werden kann.	- Vermeiden Sie strubbelige Haare oder Hintergründe, die durch das Haar entstehen. - Lassen Sie die Haare nicht die Augen oder Augenbrauen verdecken. - Vermeiden Sie Schatten auf dem Gesicht, die durch Frisuren verursacht werden. - Vermeiden Sie Haaränderungen während der Gestik und Mimik. Beispielsweise kann ein hoher Pferdeschwanz eines Akteurs während des Sprechens erscheinen, verschwinden und schwingen.
Clothing	- Achten Sie auf den Kleidungsstatus und stellen Sie sicher, dass während des Sprechens keine signifikanten Änderungen an der Kleidung vorgenommen werden.	- Vermeiden Sie das Tragen von Kleidung und Zubehör, die zu lose, schwer oder komplex sind, da sie die Gleichmäßigkeit der Bekleidung während der Sprach- und Körperbewegung beeinträchtigen können. - Vermeiden Sie das Tragen von Kleidung, die der Hintergrundfarbe ähnelt, oder reflektierende Materialien wie weiße Hemden oder durchsichtige Materialien. - Vermeiden Sie Kleidung mit offensichtlichen Linien oder Artikel mit Logos und Marken, die Sie nicht hervorheben möchten. - Vermeiden Sie reflektierende Elemente wie Metallgürtel, glänzende Lederschuhe und Lederhosen.
Gesichtserkennung	- Stellen Sie sicher, dass das Gesicht des Akteurs deutlich sichtbar ist.	- Vermeiden Sie Gesichtsverdeckung durch Haare, Sonnenbrillen oder Zubehör.

Welche Art von Videoclips aufgenommen werden sollten

Sie benötigen verschiedene Arten grundlegender Videoclips:

Zustimmungsvideo (erforderlich) Das Zustimmungsvideo ist erforderlich, um einen benutzerdefinierten Avatar zu erstellen.

Das Zustimmungsvideo muss dasselbe Avatar-Talent darstellen, das nach der Anforderung der Einwilligungserklärung spricht. Stellen Sie sicher, dass die Anweisung richtig aufgezeichnet wird und jedes Wort klar gesprochen wird. Sie können eine der unterstützten Sprachen auswählen. Um mehr über die Anforderungen des Einwilligungserklärungsvideos zu erfahren, lesen Sie Abrufen der Einwilligungsdatei des Avatar-Talents.
Das Avatar-Talent sollte immer zur Vorderseite der Kamera blicken und sich nicht stark bewegen.
Das Video sollte in einer ruhigen Umgebung aufgenommen werden, und die Stimme sollte in einer angemessenen Lautstärke aufgezeichnet werden. Versuchen Sie, das Signal-zu-Rausch-Verhältnis höher als 20 zu halten. Anleitungen zur Sprachaufzeichnung finden Sie im Leitfaden zum Aufzeichnen benutzerdefinierter Stimmbeispiele.
Stellen Sie sicher, dass der Kopfteil in keinem Frame des Videos verdeckt ist.
Stellen Sie sicher, dass keine anderen Objekte in der Kamera angezeigt werden, einschließlich Filmausrüstung, Mobiltelefon usw.

Status 0-Sprechen (erforderlich für Gesten) Der Status 0-Videoclip ist für Gesten mit dem Avatar erforderlich.

Status 0 steht für die Haltung, die Sie beim Sprechen die meiste Zeit über einnehmen können. Zum Beispiel, Arme, die vor dem Körper gekreuzt sind oder natürlich an den Seiten hängen.
Halten Sie eine frontseitige Pose. Der Akteur kann sich leicht bewegen, um entspannt auszusehen, z. B. den Kopf oder die Schulter, aber der Körper sollte sich nicht zu viel bewegen.
Länge: Sprechen Sie in Status 0 für 3-5 Minuten.

Beispiele für Status 0-Sprechen

Animierte Grafik, die Lisa beim Sprechen im Status 0 zeigt und die natürliche Körperhaltung beim Sprechen darstellt.

Animierte Grafik, die Harry beim Sprechen im Status 0 zeigt und die natürliche Körperhaltung beim Sprechen darstellt.

Animierte Grafik, die Lori beim Sprechen im Status 0 zeigt und die natürliche Körperhaltung beim Sprechen darstellt.

Natürliches Sprechen (erforderlich) Der Videoclip für natürliches Sprechen ist erforderlich, damit der Avatar natürlich sprechen kann.

Schauspieler spricht in Status 0, aber mit natürlichen Handgesten von Zeit zu Zeit.
Die Hände sollten mit dem Status 0 beginnen und nach der Geste zurückkehren.
Verwenden Sie beim Sprechen natürliche und häufige Gesten. Vermeiden Sie sinnvolle Gesten wie Zeigen, Applaus oder Daumen nach oben.
Länge: Mindestens 5 Minuten, maximal 30 Minuten insgesamt. Mindestens ein Stück fortlaufende Videoaufzeichnung von 5 Minuten ist erforderlich. Wenn Sie mehrere Videoclips aufzeichnen, belassen Sie jeden Clip unter 10 Minuten.

Beispiele für natürliches Sprechen

Animierte Grafik, die ein Beispiel von Lisa zeigt, die im Status 0 spricht, mit natürlichen Handgesten, die die natürliche Körperhaltung beim Sprechen darstellen.

Animierte Grafik, die ein Beispiel von Harry zeigt, die im Status 0 spricht, mit natürlichen Handgesten, die die natürliche Körperhaltung beim Sprechen darstellen.

Animierte Grafik, die ein Beispiel von Lori zeigt, die im Status 0 spricht, mit natürlichen Handgesten, die die natürliche Körperhaltung beim Sprechen darstellen.

Stillzustand (erforderlich) Der Videoclip für den Stillzustand ist erforderlich. Er ist wichtig, wenn Sie eine Echtzeitunterhaltung mit dem benutzerdefinierten Avatar erstellen. Der Videoclip wird als Hauptvorlage für den Sprach- und Hörstatus eines Chatbots verwendet.

Halten Sie Status 0, sprechen Sie nicht, fühlen Sie sich aber trotzdem entspannt.
Auch wenn sie in Status 0 verbleiben, halten Sie nicht still; Sie können sich ein bisschen bewegen, aber nicht zu viel. Bewegen Sie sich als ob Sie warten.
Halten Sie ein Lächeln, als ob Sie zuhören oder geduldig warten.
Vermeiden Sie häufiges Nicken.
Länge: 1 Minute.

Beispiele für Stillzustand

Animierte Grafik, die ein Beispiel dafür zeigt, wie Lisa den Lautlos-Status beibehält, ohne zu sprechen, sich aber dennoch entspannt ist.

Animierte Grafik, die ein Beispiel dafür zeigt, wie Harry den Lautlos-Status beibehält, ohne zu sprechen, sich aber dennoch entspannt ist.

Animierte Grafik, die ein Beispiel dafür zeigt, wie Lori den Lautlos-Status beibehält, ohne zu sprechen, sich aber dennoch entspannt ist.

Gesten (optional)

Gestikvideoclips sind optional, und Kunden, die bestimmte Gesten einfügen müssen, während der Avatar spricht, können dieser Richtlinie folgen, um Gestikvideos zu erstellen. Das Einfügen von Gesten ist nur für den Batchmodus-Avatar aktiviert. Echtzeit-Avatare unterstützen das Einfügen von Gesten momentan nicht. Jedes benutzerdefinierte Avatarmodell kann maximal 10 Gesten unterstützen.

Tipps für Gesten

Jeder Gestikclip sollte maximal 10 Sekunden betragen.
Gesten sollten mit dem Status 0 beginnen und mit dem Status 0 enden. Es ist wichtig, dass das Zeichen während der gesamten Geste die gleiche Position wie in Status 0 beibehält, die sich in der Mitte des Bildschirms befindet. Andernfalls kann der Gestikclip nicht reibungslos in das Avatarvideo eingefügt werden.
Der Gestenclip erfasst nur die Körpergesten; der Akteur muss während der Gesten nicht sprechen.
Es wird empfohlen, eine Liste der Gesten vor der Aufzeichnung zu entwerfen; hier sind einige Beispiele für Gestikvideoclips:

Gestenbeispiele

Gesten	Beispiele
Bereitstellen von Verkaufslinks/Promotion-Code
Loben des Produkts
Einführung in das Produkt
Anzeigen des Preises (Zahl von 1 bis 10-Faustnummer mit jeder Hand)	Rechte Hand Linke Hand

Hochwertige Avatarmodelle basieren auf qualitativ hochwertigen Videoaufzeichnungen, einschließlich Audioqualität. Hier finden Sie weitere Tipps für die Qualität und Aufzeichnung von Videoclips des Akteurs:

Was Sie tun sollten	Was Sie nicht tun sollten
- Stellen Sie sicher, dass alle Videoclips unter den gleichen Bedingungen aufgenommen werden. - Entwerfen Sie während des Aufzeichnungsprozesses die Größe und den Anzeigebereich des benötigten Zeichens, damit das Zeichen entsprechend auf dem Bildschirm angezeigt werden kann. - Der Akteur sollte während der Aufzeichnung stetig sein. - Achten Sie auf die Mimik, die für den Anwendungsfall des Avatars geeignet sein sollte. Sehen Sie z. B. positiv aus, und lächeln Sie, wenn der benutzerdefinierte Text für den Sprachsynthese-Avatar als Kundendienst verwendet wird. Schauen Sie professionell, wenn der Avatar für die Nachrichtenberichterstattung verwendet wird. - Halten Sie den Blick auf die Kamera, auch wenn Sie einen Teleprompter verwenden. - Bringen Sie Ihren Körper in den Status 0 zurück, wenn Sie eine Sprechpause einlegen. - Sprechen Sie über ein selbstgewähltes Thema, und kleine Sprachfehler wie ein fehlendes Wort oder eine falsche Aussprache sind akzeptabel. Wenn der Schauspieler ein Wort vergisst oder etwas falsch ausspricht, gehen Sie einfach zurück in den Status 0, machen Sie eine Pause von 3 Sekunden und sprechen Sie dann weiter. - Machen Sie bewusst Pausen zwischen Sätzen und Absätzen. Wenn Sie anhalten, kehren Sie zum Status 0 zurück, und schließen Sie Ihre Lippen. - Die Audiowiedergabe sollte klar und laut genug sein; schlechte Audioqualität wirkt sich negativ auf das Trainingsergebnis aus. - Halten Sie die Drehumgebung ruhig.	- Passen Sie die Kameraparameter, die Brennweite, die Position, den Sichtwinkel nicht an. Verschieben Sie die Kamera nicht. Halten Sie die Position, Größe, Winkel, in der Kamera konsistent. - Zeichen, die zu klein sind, können während der Nachbearbeitung zu einem Verlust der Bildqualität führen. Zeichen, die zu groß sind, können dazu führen, dass der Bildschirm während der Gesten und Bewegungen überquillt. - Machen Sie keine zu langen Gesten oder zu viele Bewegungen für eine Geste. Die Hände des Akteurs machen z. B. immer Gesten und vergessen, wieder zum Status 0 zurückzukehren. - Die Bewegungen und Gesten des Akteurs dürfen das Gesicht nicht verdecken. - Vermeiden Sie kleine Bewegungen des Akteurs wie Lippen lecken, Haare berühren, seitwärts sprechen, ständiges Kopfschütteln während des Sprechens und nicht Schließen nach dem Sprechen. - Vermeiden von Hintergrundgeräuschen: Mitarbeiter sollten nicht während der Videoaufzeichnung gehen und sprechen. - Vermeiden Sie die Aufzeichnung von Stimmen anderer Personen während des Sprechens des Akteurs.

Was Sie tun sollten

Was Sie nicht tun sollten

- Stellen Sie sicher, dass alle Videoclips unter den gleichen Bedingungen aufgenommen werden.
- Entwerfen Sie während des Aufzeichnungsprozesses die Größe und den Anzeigebereich des benötigten Zeichens, damit das Zeichen entsprechend auf dem Bildschirm angezeigt werden kann.
- Der Akteur sollte während der Aufzeichnung stetig sein.
- Achten Sie auf die Mimik, die für den Anwendungsfall des Avatars geeignet sein sollte. Sehen Sie z. B. positiv aus, und lächeln Sie, wenn der benutzerdefinierte Text für den Sprachsynthese-Avatar als Kundendienst verwendet wird. Schauen Sie professionell, wenn der Avatar für die Nachrichtenberichterstattung verwendet wird.
- Halten Sie den Blick auf die Kamera, auch wenn Sie einen Teleprompter verwenden.
- Bringen Sie Ihren Körper in den Status 0 zurück, wenn Sie eine Sprechpause einlegen.
- Sprechen Sie über ein selbstgewähltes Thema, und kleine Sprachfehler wie ein fehlendes Wort oder eine falsche Aussprache sind akzeptabel. Wenn der Schauspieler ein Wort vergisst oder etwas falsch ausspricht, gehen Sie einfach zurück in den Status 0, machen Sie eine Pause von 3 Sekunden und sprechen Sie dann weiter.
- Machen Sie bewusst Pausen zwischen Sätzen und Absätzen. Wenn Sie anhalten, kehren Sie zum Status 0 zurück, und schließen Sie Ihre Lippen.
- Die Audiowiedergabe sollte klar und laut genug sein; schlechte Audioqualität wirkt sich negativ auf das Trainingsergebnis aus.
- Halten Sie die Drehumgebung ruhig.

- Passen Sie die Kameraparameter, die Brennweite, die Position, den Sichtwinkel nicht an. Verschieben Sie die Kamera nicht. Halten Sie die Position, Größe, Winkel, in der Kamera konsistent.
- Zeichen, die zu klein sind, können während der Nachbearbeitung zu einem Verlust der Bildqualität führen. Zeichen, die zu groß sind, können dazu führen, dass der Bildschirm während der Gesten und Bewegungen überquillt.
- Machen Sie keine zu langen Gesten oder zu viele Bewegungen für eine Geste. Die Hände des Akteurs machen z. B. immer Gesten und vergessen, wieder zum Status 0 zurückzukehren.
- Die Bewegungen und Gesten des Akteurs dürfen das Gesicht nicht verdecken.
- Vermeiden Sie kleine Bewegungen des Akteurs wie Lippen lecken, Haare berühren, seitwärts sprechen, ständiges Kopfschütteln während des Sprechens und nicht Schließen nach dem Sprechen.
- Vermeiden von Hintergrundgeräuschen: Mitarbeiter sollten nicht während der Videoaufzeichnung gehen und sprechen.
- Vermeiden Sie die Aufzeichnung von Stimmen anderer Personen während des Sprechens des Akteurs.

Vorbereiten eines Interaktionsvideoclips

Das Erstellen eines hochwertigen Interaktionsvideoclips ist unerlässlich, wenn Sie eine Echtzeitunterhaltung mit einem benutzerdefinierten Avatar erstellen. Der Clip sollte aus einem Frage- und Antwortformat bestehen, in dem ein Fotograf eine Frage stellt und der Schauspieler antwortet. Durchlaufen Sie das Frage-Antwort-Paar, bis die Unterhaltung abgeschlossen ist. Wenn Sie alleine filmen, stellen Sie sich vor, dass eine andere Person die Fragen in der Fragephase stellt.

Hier sind einige Tipps für jede Phase:

Fragephase

Halten Sie Status 0, sprechen Sie nicht, fühlen Sie sich aber trotzdem entspannt.
Bleiben Sie auch im Status 0 nicht unbeweglich. Bewegen Sie sich als ob Sie warten.
Halten Sie ein Lächeln, als ob Sie zuhören oder geduldig warten.
Vermeiden Sie häufiges Nicken.
Länge: Jedes Fragesegment sollte etwa 3–5 Sekunden dauern.

Antwortphase

Sprechen Sie mit natürlichen Handgesten von Zeit zu Zeit.
Verwenden Sie beim Sprechen natürliche und häufige Gesten. Vermeiden Sie sinnvolle Gesten wie Zeigen, Applaus oder Daumen nach oben.
Beginnen Sie Gesten nach dem Beginn des Sprechens, und beenden Sie sie, bevor Sie fertig sind.
Länge: Jedes Antwortsegment sollte etwa 5 Sekunden dauern.

Gesamte Videolänge

Peilen Sie eine Gesamtlänge von 1–5 Minuten an.

Datenanforderungen

Die grundlegende Verarbeitung Ihrer Videodaten ist hilfreich für die Modelltrainingseffizienz, z. B.:

Stellen Sie sicher, dass sich das Zeichen in der Mitte des Bildschirms befindet, und die Größe und Position während der Videoverarbeitung konsistent sind. Jeder Videoverarbeitungsparameter wie Helligkeit und Kontrast bleibt gleich und ändert sich nicht. Die Größe, Position, Helligkeit, Kontrast des Ausgabe-Avatars spiegelt die in den Trainingsdaten vorhandenen Elemente direkt wider. Während der Verarbeitung oder Erstellung des Modells wenden wir keine Änderungen an.
Der Anfang und das Ende des Clips sollten im Zustand 0 behalten werden. die Akteure sollten ihre Münder schließen, lächeln und geradeaus schauen. Das Video sollte fortlaufend sein, nicht abrupt.

Aufzeichnungsdateiformat des Avatar-Trainingsvideos: .mp4 oder .mov.

Auflösung: Mindestens 1920x1080.

Bildfrequenz pro Sekunde: Mindestens 25 FPS.

Freigeben über

Aufzeichnen von Videobeispielen für benutzerdefinierten Text-zu-Sprache-Avatar

Aufzeichnungsumgebung

Hintergrundanforderung

Beleuchtungsanforderungen

Geräte

Darstellung des Schauspielers

Welche Art von Videoclips aufgenommen werden sollten

Vorbereiten eines Interaktionsvideoclips

Datenanforderungen

Feedback

Zusätzliche Ressourcen

Freigeben über

Aufzeichnen von Videobeispielen für benutzerdefinierten Text-zu-Sprache-Avatar

Aufzeichnungsumgebung

Hintergrundanforderung

Beleuchtungsanforderungen

Geräte

Darstellung des Schauspielers

Welche Art von Videoclips aufgenommen werden sollten

Vorbereiten eines Interaktionsvideoclips

Datenanforderungen

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen