Vad är anpassad text till talavatar?

Artikel
2025-01-15

Med anpassad text till tal-avatar kan du skapa en anpassad, unik syntetisk talande avatar för ditt program. Med anpassad text till tal-avatar kan du skapa en unik och naturlig avatar för din produkt eller ditt varumärke genom att tillhandahålla videoinspelningsdata för dina valda skådespelare. Om du också skapar en anpassad neural röst för samma skådespelare och använder den som avatarens röst är avataren ännu mer realistisk.

Viktigt!

Åtkomst till anpassad text till talavatar är begränsad baserat på kriterier för berättigande och användning. Begär åtkomst i intagsformuläret.

Hur fungerar det?

Att skapa en anpassad text till talavatar kräver minst 10 minuters videoinspelning av avatartalangen som träningsdata, och du måste först få samtycke från skådespelarens talang.

Den anpassade avatarmodellen kan stödja:

Videogenerering via batchsyntes-API:et.
Livechatt via API:et för strömningssyntes.

Innan du börjar bör du tänka på följande:

Ditt användningsfall: Kommer du att använda avataren för att skapa videoinnehåll som träningsmaterial, produktintroduktion eller använda avataren som virtuell säljare i en realtidskonversation med dina kunder? Det finns vissa inspelningskrav för olika användningsfall.

Utseendet på avataren: Den anpassade texten till tal avatar ser likadan ut som avatar talang i träningsdata, och vi stöder inte anpassning av utseendet på avatar modell, såsom kläder, frisyr, etc. Så om ditt program kräver flera stilar av samma avatar bör du förbereda träningsdata för varje formatmall, eftersom varje stil i en avatar betraktas som en enda avatarmodell.

Avatarens röst: Den anpassade text till tal-avataren kan fungera med både fördefinierade neurala röster och anpassade neurala röster. Att skapa en anpassad neural röst för avatartalangen och använda den med avataren ökar avsevärt avatarupplevelsens naturlighet.

Här är en översikt över stegen för att skapa en anpassad text till tal-avatar:

Hämta medgivandevideo. Hämta en videoinspelning av medgivandeuttrycket. Medgivandeförklaringen är en videoinspelning av avatartalangen som läser ett uttalande, vilket ger samtycke till användningen av deras bild- och röstdata för att träna en anpassad text till talavatarmodell.
Förbered träningsdata. Kontrollera att videoinspelningen är i rätt format. Det är en bra idé att spela in videoinspelningen i en videoinspelningsstudio av professionell kvalitet för att få en ren bakgrundsbild. Kvaliteten på den resulterande avataren är starkt beroende av den inspelade videon som används för träning. Faktorer som talfrekvens, kroppshållning, ansiktsuttryck, handgester, konsekvens i skådespelarens position och belysning av videoinspelningen är viktiga för att skapa en engagerande anpassad text till tal avatar. Mer information finns i förbereda träningsdata .
Träna avatarmodellen. När du har data redo laddar du upp dina data till den anpassade avatarportalen och börjar träna din modell. Medgivandeverifiering utförs under utbildningen. Kontrollera att du har åtkomst till funktionen anpassad text-till-tal-avatar innan du kan skapa ett projekt.
Distribuera och använda din avatarmodell i dina program.

Komponentsekvens

Den anpassade modellen för text till tal-avatar innehåller tre komponenter: textanalys, text till tal ljudsyntes och text till tal avatar video renderare.

För att generera en avatarvideofil eller dataström med avatarmodellen matas text först in i textanalysatorn, vilket ger utdata i form av en fonetiksekvens.
Ljudsyntesen syntetiserar talljudet för indatatext och dessa två delar tillhandahålls av text till tal eller anpassade neurala röstmodeller.
Slutligen förutsäger modellen för neural text till tal avatar bilden av läppsynkronisering med talljudet, så att den syntetiska videon genereras.

Modeller för neural text-till-tal-avatar tränas med hjälp av djupa neurala nätverk baserat på inspelningsexempel på mänskliga videor på olika språk. Alla språk med fördefinierade röster och anpassade neurala röster kan stödjas.

Tillgängliga platser

Anpassad avatarutbildning är endast tillgänglig i följande tjänstregioner: Sydostasien, Europa, västra och USA, västra 2. Du kan använda en anpassad avatarmodell i följande tjänstregioner: Sydostasien, Europa, norra, Europa, västra, Sverige, centrala, USA, södra centrala, USA, östra 2 och USA, västra 2.

Anpassad röst och anpassad text till tal-avatar

Den anpassade text-till-tal-avataren kan fungera med en fördefinierad neural röst eller anpassad neural röst som avatarens röst. Mer information finns i Avatar röst och språk.

Anpassad neural röst och anpassad text till tal-avatar är separata funktioner. Du kan använda dem oberoende av varandra eller tillsammans. Om du väljer att använda dem tillsammans måste du ansöka om anpassad neural röst och anpassad text till talavatar separat, och du debiteras separat för anpassad neural röst och anpassad text till talavatar. Mer information, se prissidan. Om du planerar att använda anpassad neural röst med en text-till-tal-avatar måste du dessutom distribuera eller kopiera din anpassade neurala röstmodell till en av de avatarer som stöds.

Dela via

Vad är anpassad text till talavatar?

Hur fungerar det?

Komponentsekvens

Tillgängliga platser

Anpassad röst och anpassad text till tal-avatar

Relaterat innehåll

Feedback

Ytterligare resurser