Så här skapar du en anpassad text till tal-avatar
Att komma igång med en anpassad text till tal-avatar är en enkel process. Allt som krävs är några videoklipp av din skådespelare. Om du vill träna en anpassad röst för samma skådespelare kan du göra det separat.
Kommentar
Åtkomsten till anpassad avatar är begränsad baserat på berättigande- och användningskriterier. Begär åtkomst i intagsformuläret.
Förutsättningar
Du behöver en Speech-resurs i en av de regioner som stöder anpassad avatarträning. Anpassad avatar stöder endast standardresurser (S0).
Du behöver en videoinspelning av talangen som läser en medgivandeförklaring som bekräftar användningen av deras bild och röst. Du laddar upp videon när du konfigurerar avatartalangen. Mer information finns i Lägga till avatartalangmedgivande.
Du behöver videoinspelningar av din avatartalang som träningsdata. Du laddar upp dessa videor när du förbereder träningsdata. Mer information finns i Lägga till träningsdata.
Steg 1: Skapa ett anpassat avatarprojekt
Följ dessa steg för att skapa ett anpassat avatarprojekt:
Logga in på Speech Studio och välj din prenumeration och Speech-resurs.
Välj Anpassad avatar (förhandsversion).
Välj +Skapa ett projekt.
Följ anvisningarna i guiden för att skapa projektet.
Dricks
Blanda inte data för olika avatarer i ett projekt. Skapa alltid ett nytt projekt för en ny avatar.
Välj det nya projektet efter namn. Sedan visas de här menyalternativen i den vänstra panelen: Konfigurera avatartalanger, Förbereda träningsdata, Träna modell och Distribuera modell.
Steg 2: Lägg till avatartalangmedgivande
En avatartalang är en individ eller målskådespelare vars video av tal spelas in och används för att skapa neurala avatarmodeller. Du måste få tillräckligt med samtycke enligt alla relevanta lagar och förordningar från avatar talang att använda sin video för att skapa anpassad text till tal avatar.
Du måste ange en videofil med ett inspelat uttalande från din avatartalang och erkänna användningen av deras bild och röst. Microsoft verifierar att innehållet i inspelningen matchar det fördefinierade skriptet som tillhandahålls av Microsoft. Microsoft jämför avatartalangens ansikte i den inspelade video statement-filen med randomiserade videor från träningsdatauppsättningarna för att säkerställa att avatartalangen i videoinspelningar och avatartalangen i instruktionsvideofilen kommer från samma person.
Du hittar instruktionen för verbalt medgivande på flera språk via GitHub-lagringsplatsen Azure-Samples/cognitive-services-speech-sdk . Språket i den verbala instruktionen måste vara samma som din inspelning. Se även Avslöjandet för rösttalanger.
Mer information om hur du spelar in medgivandevideon finns i Spela in videoexempel.
Följ dessa steg om du vill lägga till en avatartalangprofil och ladda upp deras medgivandeuttryck i projektet:
Logga in på Speech Studio.
Välj Anpassad avatar> Ditt projektnamn >Konfigurera avatartalang>Ladda upp medgivandevideo.
På videosidan Ladda upp medgivande följer du anvisningarna för att ladda upp videon med avatartalangmedgivande som du spelade in i förväg.
- Välj talarspråket för den verbala samtyckesuttryck som registrerats av avatartalangen.
- Ange avatartalangens namn och ditt företagsnamn på samma språk som den inspelade instruktionen.
- Avatartalangens namn måste vara namnet på den person som registrerade samtyckesförklaringen.
- Företagsnamnet måste matcha företagsnamnet som talades i den inspelade instruktionen.
- Du kan välja att ladda upp dina data från lokala filer eller från ett delat lagringsutrymme med Azure Blob.
Välj överför.
När avatartalangens medgivande har laddats upp kan du fortsätta att träna din anpassade avatarmodell.
Steg 3: Lägga till träningsdata
Speech-tjänsten använder dina träningsdata för att skapa en unik avatar som är anpassad för att matcha utseendet på personen i inspelningarna. När du har tränat avatarmodellen kan du börja syntetisera avatarvideor eller använda den för livechattar i dina program.
Alla data som du laddar upp måste uppfylla kraven för den datatyp som du väljer. För att säkerställa att Speech-tjänsten bearbetar dina data korrekt är det viktigt att formatera dina data korrekt innan du laddar upp dem. Information om hur du bekräftar att dina data är korrekt formaterade finns i Datakrav.
Ladda upp dina data
När du är redo att ladda upp dina data går du till fliken Förbered träningsdata för att lägga till dina data.
Följ dessa steg för att ladda upp träningsdata:
Logga in på Speech Studio.
Välj Anpassad avatar> Projektnamnet >Förbered träningsdata>Ladda upp data.
I guiden Ladda upp data väljer du en datatyp och väljer sedan Nästa. Mer information om datatyperna (inklusive Naturligt tal, Tyst, Gest och Status 0 som talar) finns i vilka videoklipp som ska spelas in.
Välj lokala filer från datorn eller ange url:en för Azure Blob Storage där dina data lagras.
Välj Nästa.
Granska uppladdningsinformationen och välj Skicka.
Datafiler verifieras automatiskt när du väljer Skicka. Dataverifiering innehåller en serie kontroller av videofilerna för att verifiera deras filformat, storlek och totala volym. Om det finns några fel kan du åtgärda dem och skicka dem igen.
När du har laddat upp data kan du kontrollera dataöversikten som anger om du har angett tillräckligt med data för att börja träna. Den här skärmbilden visar ett exempel på tillräckligt med data som lagts till för träning av en avatar utan andra gester.
Steg 4: Träna din avatarmodell
Viktigt!
Alla träningsdata i projektet ingår i utbildningen. Modellkvaliteten är starkt beroende av de data du angav och du ansvarar för videokvaliteten. Se till att du spelar in träningsvideorna enligt guiden för att spela in videoexempel.
Följ dessa steg för någon av följande metoder för att skapa en anpassad avatar i Speech Studio:
Logga in på Speech Studio.
Välj Anpassad avatar> Projektnamnet >Träna modell>Träna modell.
Ange ett namn som hjälper dig att identifiera modellen. Välj ett namn noggrant. Modellnamnet används som avatarnamn i din syntesbegäran av SDK- och SSML-indata. Endast bokstäver, siffror, bindestreck och understreck tillåts. Använd ett unikt namn för varje modell.
Viktigt!
Avatarmodellnamnet måste vara unikt inom samma Speech- eller AI Services-resurs.
Välj Träna för att börja träna modellen.
Träningsvaraktigheten varierar beroende på hur mycket data du använder. Det tar normalt 20–40 beräkningstimmar i genomsnitt att träna en anpassad avatar. Kontrollera prisanteckningen om hur träning debiteras.
Kopiera din anpassade avatarmodell till ett annat projekt (valfritt)
Anpassad avatarträning är för närvarande endast tillgänglig i vissa regioner. När avatarmodellen har tränats i en region som stöds kan du kopiera den till en Speech-resurs i en annan region efter behov. Mer information finns i fotnoter i regionstabellen.
Så här kopierar du din anpassade avatarmodell till ett annat projekt:
- På fliken Träna modell väljer du en avatarmodell som du vill kopiera och väljer sedan Kopiera till projekt.
- Välj den prenumeration, region, talresurs och det projekt som du vill kopiera modellen till. Du måste ha en talresurs och ett projekt i målregionen, annars måste du skapa dem först.
- Välj Skicka för att kopiera modellen.
När modellen har kopierats visas ett meddelande i Speech Studio.
Gå till projektet där du kopierade modellen för att distribuera modellkopian.
Steg 5: Distribuera och använda din avatarmodell
När du har skapat och tränat din avatarmodell distribuerar du den till slutpunkten.
Så här distribuerar du din avatar:
- Logga in på Speech Studio.
- Välj Anpassad avatar> Ditt projektnamn >Distribuera modell.
- Välj Distribuera modell och välj en modell som du vill distribuera.
- Välj Distribuera för att starta distributionen.
Viktigt!
När en modell distribueras betalar du för kontinuerlig drifttid för slutpunkten oavsett din interaktion med slutpunkten. Kontrollera prisanteckningen om hur modelldistribution debiteras. Du kan ta bort en distribution när modellen inte används för att minska utgifterna och spara resurser.
När du har distribuerat din anpassade avatar är den tillgänglig att använda i Speech Studio eller via API:
- Avataren visas i avatarlistan över text till tal avatar på Speech Studio.
- Avataren visas i avatarlistan över livechattarer via Speech Studio.
- Du kan anropa avataren från SDK- och SSML-indata genom att ange avatarmodellens namn. Mer information finns i avataregenskaperna.
Ta bort en distribution
Följ dessa steg för att ta bort distributionen:
- Logga in på Speech Studio.
- Gå till Anpassad avatar> Ditt projektnamn >Distribuera modell.
- Välj distributionen på sidan Distribuera modell . Modellen körs aktivt om statusen är "Lyckades".
- Du kan välja knappen Ta bort distribution och bekräfta borttagningen för att ta bort värdderingen.
Dricks
När en distribution har tagits bort betalar du inte längre för dess värd. Om du tar bort en distribution tas inte modellen bort. Om du vill använda modellen igen skapar du en ny distribution.
Använda en anpassad röst (valfritt)
Om du också skapar en anpassad neural röst (CNV) för skådespelaren kan avataren vara mycket realistisk. Mer information finns i Vad är anpassad text till tal-avatar.
Anpassad röst och anpassad text till talavatar är separata funktioner. Du kan använda dem oberoende av varandra eller tillsammans.
Om du har skapat en anpassad röst och vill använda den tillsammans med den anpassade avataren bör du vara uppmärksam på följande punkter:
- Kontrollera att den anpassade röstslutpunkten skapas i samma Speech-resurs som den anpassade avatarslutpunkten. Vid behov kan du läsa Träna din professionella röstmodell för att kopiera den anpassade röstmodellen till samma Speech-resurs som den anpassade avatarslutpunkten.
- Du kan se det anpassade röstalternativet i röstlistan på sidan för avatarinnehållsgenerering och röstinställningar för livechatt.
- Om du använder batchsyntes för avatar-API lägger du till
"customVoices"
egenskapen för att associera distributions-ID:t för den anpassade röstmodellen med röstnamnet i begäran. Mer information finns i text till tal-egenskaper. - Om du använder realtidssyntes för avatar-API:et kan du läsa vår exempelkod på GitHub för att ange den anpassade rösten.