Wat is aangepaste tekst voor spraak-avatar?
Met aangepaste tekst-naar-spraak-avatar kunt u een aangepaste, een-op-een-soort synthetische avatar voor uw toepassing maken. Met aangepaste tekst naar spraak-avatar kunt u een unieke en natuurlijk uitziende avatar bouwen voor uw product of merk door video-opnamegegevens van uw geselecteerde acteurs te bieden. Als u ook een aangepaste neurale stem voor dezelfde acteur maakt en deze gebruikt als de stem van de avatar, is de avatar nog realistischer.
Belangrijk
Aangepaste tekst-naar-spraak-avatartoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.
Hoe werkt het?
Het maken van een aangepaste tekst naar spraak-avatar vereist ten minste 10 minuten video-opname van het avatartalent als trainingsgegevens en u moet eerst toestemming krijgen van het acteurstalent.
Het aangepaste avatarmodel kan het volgende ondersteunen:
- Videogeneratie via de batchsynthese-API.
- Live chat via de streamingsynthese-API.
Voordat u aan de slag gaat, zijn hier enkele overwegingen:
Uw use-case: Gebruikt u de avatar om video-inhoud te maken, zoals trainingsmateriaal, productintroductie of gebruik de avatar als een virtuele verkoper in een realtime gesprek met uw klanten? Er zijn enkele opnamevereisten voor verschillende use cases.
Het uiterlijk van de avatar: De aangepaste tekst naar spraak-avatar ziet er hetzelfde uit als het avatartalent in de trainingsgegevens en we ondersteunen het aanpassen van het uiterlijk van het avatarmodel, zoals kleding, kapsel, enzovoort. Dus als uw toepassing meerdere stijlen van dezelfde avatar vereist, moet u trainingsgegevens voorbereiden voor elke stijl, omdat elke stijl van een avatar wordt beschouwd als één avatarmodel.
De stem van de avatar: De aangepaste tekst naar spraak avatar kan werken met zowel vooraf gemaakte neurale stemmen als aangepaste neurale stemmen. Het maken van een aangepaste neurale stem voor het avatartalent en het gebruik ervan met de avatar verhoogt de natuurlijkheid van de avatarervaring aanzienlijk.
Hier volgt een overzicht van de stappen voor het maken van een aangepaste tekst naar spraak-avatar:
Ontvang toestemmingsvideo. Verkrijg een video-opname van de toestemmingsverklaring. De toestemmingsverklaring is een video-opname van het avatartalent dat een verklaring leest, waardoor toestemming wordt gegeven voor het gebruik van hun afbeeldings- en spraakgegevens om een aangepaste tekst te trainen naar het avatarmodel voor spraak.
Trainingsgegevens voorbereiden. Zorg ervoor dat de video-opname de juiste indeling heeft. Het is een goed idee om de video-opname te maken in een professionele video-opnamestudio om een schone achtergrondafbeelding te krijgen. De kwaliteit van de resulterende avatar hangt sterk af van de opgenomen video die wordt gebruikt voor training. Factoren zoals spreeksnelheid, lichaamspostuur, gezichtsuitdrukking, handbewegingen, consistentie in de positie van de acteur en belichting van de video-opname zijn essentieel om een aantrekkelijke aangepaste tekst te maken voor spraak-avatar. Zie hoe u trainingsgegevens voorbereidt voor meer informatie.
Train het avatarmodel. Zodra u de gegevens klaar hebt, uploadt u uw gegevens naar de aangepaste avatarportal en begint u met het trainen van uw model. Verificatie van toestemming wordt uitgevoerd tijdens de training. Zorg ervoor dat u toegang hebt tot de functie aangepaste tekst naar spraak-avatar voordat u een project kunt maken.
Implementeer en gebruik uw avatarmodel in uw toepassingen.
Onderdelenreeks
Het aangepaste tekst-naar-spraak-avatarmodel bevat drie onderdelen: text analyzer, de tekst naar spraak audiosynthese en tekst naar spraak avatar video renderer.
- Als u een avatar-videobestand wilt genereren of streamt met het avatarmodel, wordt tekst eerst ingevoerd in de tekstanalyse, die de uitvoer in de vorm van een fonemereeks levert.
- De audiosynthesesynthese van de spraakaudio voor invoertekst en deze twee delen worden geleverd door tekst naar spraak of aangepaste neurale spraakmodellen.
- Ten slotte voorspelt het neurale tekst-naar-spraak-avatarmodel de afbeelding van lipsynchronisatie met de spraakaudio, zodat de synthetische video wordt gegenereerd.
De neurale tekst naar spraak avatar-modellen worden getraind met behulp van diepe neurale netwerken op basis van de opnamevoorbeelden van menselijke video's in verschillende talen. Alle talen van vooraf samengestelde stemmen en aangepaste neurale stemmen kunnen worden ondersteund.
Beschikbare locaties
Aangepaste avatartraining is alleen beschikbaar in de volgende serviceregio's: Azië - zuidoost, Europa - west en VS - west 2. U kunt een aangepast avatarmodel gebruiken in de volgende serviceregio's: Azië - zuidoost, Europa - noord, Europa - west, Zweden - centraal, VS - zuid-centraal, VS - oost 2 en VS - west 2.
Aangepaste spraak en aangepaste tekst naar spraak-avatar
De aangepaste tekst naar spraak-avatar kan werken met een vooraf samengestelde neurale stem of aangepaste neurale stem als de stem van de avatar. Zie Avatar-stem en -taal voor meer informatie.
Aangepaste neurale spraak en aangepaste tekst naar spraak-avatar zijn afzonderlijke functies. U kunt ze onafhankelijk of samen gebruiken. Als u ervoor kiest om deze samen te gebruiken, moet u een aangepaste neurale stem en aangepaste tekst afzonderlijk op spraak avatar toepassen en worden er afzonderlijke kosten in rekening gebracht voor aangepaste neurale spraak en aangepaste tekst naar spraak avatar. Zie voor meer informatie de pagina met prijzen. Als u van plan bent om aangepaste neurale spraak te gebruiken met een tekst-naar-spraak-avatar, moet u uw aangepaste neurale spraakmodel implementeren of kopiëren naar een van de door avatar ondersteunde regio's.