Overzicht van avatar voor tekst-naar-spraak

Artikel
09/11/2024

Tekst naar spraak-avatar converteert tekst naar een digitale video van een fotorealistisch mens (een vooraf samengestelde avatar of een aangepaste tekst naar spraak avatar) die spreekt met een natuurlijke stem. De video van de tekst naar spraak-avatar kan asynchroon of in realtime worden gesynthetiseerd. Ontwikkelaars kunnen toepassingen bouwen die zijn geïntegreerd met tekst-naar-spraak-avatar via een API of een hulpprogramma voor het maken van inhoud in Speech Studio gebruiken om video-inhoud te maken zonder code te coderen.

Met de geavanceerde neurale netwerkmodellen van avatars voor tekst naar spraak biedt de functie gebruikers de mogelijkheid om life-like en hoogwaardige synthetische avatarvideo's voor verschillende toepassingen te leveren terwijl ze zich houden aan verantwoorde AI-procedures.

Tip

Als u tekst wilt converteren naar spraak met een no-code-benadering, kunt u het hulpprogramma Text to speech avatar in Speech Studio gebruiken.

Avatar-mogelijkheden

De mogelijkheden voor tekst-naar-spraak-avatars zijn onder andere:

Converteert tekst naar een digitale video van een fotorealistisch menselijk spreken met natuurlijk klinkende stemmen, mogelijk gemaakt door Azure AI-tekst naar spraak.
Biedt een verzameling vooraf gemaakte avatars.
De stem van de avatar wordt gegenereerd door Azure AI-tekst naar spraak. Zie Avatar-stem en -taal voor meer informatie.
Synthetiseert tekst naar spraak avatar video asynchroon met de batchsynthese-API of in realtime.
Biedt een hulpprogramma voor het maken van inhoud in Speech Studio voor het maken van video-inhoud zonder codering.
Hiermee kunt u realtime avatargesprekken via het live chat-avatarprogramma in Speech Studio inschakelen.

Met de geavanceerde neurale netwerkmodellen van avatars voor tekst naar spraak kunt u met de functie levensechte en hoogwaardige synthetische avatarvideo's voor verschillende toepassingen leveren terwijl u zich houdt aan verantwoorde AI-praktijken.

Avatar-stem en -taal

U kunt kiezen uit een reeks vooraf samengestelde stemmen voor de avatar. De taalondersteuning voor tekst-naar-spraak-avatar is hetzelfde als de taalondersteuning voor tekst naar spraak. Zie Taal- en spraakondersteuning voor de Speech-service voor meer informatie. Vooraf gemaakte tekst naar spraak-avatars kan worden geopend via de Speech Studio-portal of via de API.

De stem in de synthetische video kan een vooraf samengestelde neurale stem zijn die beschikbaar is in Azure AI Speech of de aangepaste neurale stem van spraaktalent die door u zijn geselecteerd.

Avatar-video-uitvoer

Zowel batchsynthese als realtime synthese resolutie zijn 1920 x 1080, en de frames per seconde (FPS) zijn 25. Batchsynthesecodec kan h264, hevc of av1 zijn als de indeling is mp4 en kan codec instellen als vp9 of av1 als de indeling is webm; kan alleen vp9 een alfakanaal bevatten. Realtime synthesecodec is h264. Videobitrate kan worden geconfigureerd voor zowel batchsynthese als realtimesynthese in de aanvraag; de standaardwaarde is 2000000; meer gedetailleerde configuraties vindt u in de voorbeeldcode.

	Batchsynthese	Realtime synthese
Oplossing	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Aangepaste tekst-naar-spraak-avatar

U kunt aangepaste tekst maken voor spraak-avatars die uniek zijn voor uw product of merk. Het enige wat nodig is om aan de slag te gaan, duurt 10 minuten aan video-opnamen. Als u ook een aangepaste neurale stem voor de acteur maakt, kan de avatar zeer realistisch zijn. Zie Wat is aangepaste tekst voor spraak-avatar voor meer informatie.

Aangepaste neurale spraak en aangepaste tekst naar spraak-avatar zijn afzonderlijke functies. U kunt ze onafhankelijk of samen gebruiken. Als u van plan bent om ook aangepaste neurale spraak te gebruiken met een tekst-naar-spraak-avatar, moet u uw aangepaste neurale spraakmodel implementeren of kopiëren naar een van de door avatar ondersteunde regio's.

Voorbeeldcode

Voorbeeldcode voor avatar voor tekst-naar-spraak is beschikbaar op GitHub. Deze voorbeelden hebben betrekking op de populairste scenario's:

Batchsynthese (REST)
Realtime synthese (SDK)
Live chatten met Azure OpenAI achter (SDK)
Als u een live chat-APP wilt maken met Azure OpenAI op uw gegevens, kunt u deze voorbeeldcode raadplegen (zoeken in 'Op uw gegevens')

Prijzen

Tijdens een avatarsessie of batchinhoud maken worden de tekst-naar-spraak-, spraak-naar-tekst-, Azure OpenAI- of andere Azure-services afzonderlijk in rekening gebracht.
Raadpleeg de prijzen voor tekst naar spraak-avatars voor meer informatie over hoe facturering werkt voor de functie voor de avatar voor tekst naar spraak.
Zie De prijzen van de Speech-service voor gedetailleerde prijzen. De prijzen van avatars zijn alleen zichtbaar voor serviceregio's waar de functie beschikbaar is, waaronder Azië - zuidoost, Europa - noord, Europa - west, Zweden - centraal, VS - zuid-centraal, VS - oost 2 en VS - west 2.

Beschikbare locaties

De functie tekst-naar-spraak-avatar is alleen beschikbaar in de volgende serviceregio's: Azië - zuidoost, Europa - noord, Europa - west, Zweden - centraal, VS - zuid-centraal, VS - oost 2 en VS - west 2.

Verantwoorde AI

We maken ons zorgen over de mensen die GEBRUIKMAKEN van AI en de mensen die er door worden beïnvloed, net zo veel als we om technologie zorgen. Zie de verantwoordelijke AI-transparantienotities en openbaarmaking voor stem- en avatartalent voor meer informatie.

Delen via