Een aangepaste tekst voor spraak-avatar maken

Artikel
01/15/2025

Aan de slag met een aangepaste tekst-naar-spraak-avatar is een eenvoudig proces. Het enige wat je nodig hebt, zijn een paar videoclips van je acteur. Als u een aangepaste stem wilt trainen voor dezelfde acteur, kunt u dit afzonderlijk doen.

Notitie

Aangepaste avatartoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.

Vereisten

U hebt een AI Services-resource voor Spraak nodig in een van de regio's die ondersteuning bieden voor aangepaste avatartraining. Aangepaste avatar ondersteunt alleen standaard -spraakresources (S0).

U hebt een video-opname nodig van het talent dat een toestemmingsverklaring leest en het gebruik van hun beeld en stem erkent. U uploadt deze video wanneer u het avatartalent instelt. Zie Avatar Talent Consent toevoegen voor meer informatie.

U hebt video-opnamen van uw avatartalent nodig als trainingsgegevens. U uploadt deze video's wanneer u trainingsgegevens voorbereidt. Zie Trainingsgegevens toevoegen voor meer informatie.

Stap 1: Een aangepast avatarproject maken

Voer de volgende stappen uit om een aangepast avatarproject te maken:

Meld u aan bij Speech Studio en selecteer uw abonnement en Speech-resource.
Selecteer Aangepaste avatar (preview).
Selecteer +Een project maken.
Volg de instructies van de wizard om uw project te maken.

Tip

Combineer geen gegevens voor verschillende avatars in één project. Maak altijd een nieuw project voor een nieuwe avatar.
Selecteer het nieuwe project op naam. Vervolgens ziet u deze menu-items in het linkerdeelvenster: Avatartalent instellen, Trainingsgegevens voorbereiden, Model trainen en Model implementeren.

Een avatartalent is een individuele of doelacteur waarvan de video van spreken wordt vastgelegd en wordt gebruikt om neurale avatarmodellen te maken. U moet voldoende toestemming krijgen onder alle relevante wetten en voorschriften van het avatartalent om hun video te gebruiken om de aangepaste tekst naar spraak avatar te maken.

U moet een videobestand opgeven met een opgenomen verklaring van uw avatartalent, waarbij u het gebruik van hun afbeelding en stem erkent. Microsoft controleert of de inhoud in de opname overeenkomt met het vooraf gedefinieerde script dat door Microsoft wordt geleverd. Microsoft vergelijkt het gezicht van het avatartalent in het opgenomen video-instructiebestand met gerandomiseerde video's uit de trainingsgegevenssets om ervoor te zorgen dat het avatartalent in video-opnamen en het avatartalent in het instructievideobestand afkomstig zijn van dezelfde persoon.

U vindt de mondelinge toestemmingsverklaring in meerdere talen via de GitHub-opslagplaats Azure-Samples/cognitive-services-speech-sdk . De taal van de mondelinge instructie moet hetzelfde zijn als uw opname. Zie ook de Openbaarmaking voor spraaktalent.

Zie Videovoorbeelden opnemen voor meer informatie over het opnemen van de toestemmingsvideo.

Voer de volgende stappen uit om een avatartalentprofiel toe te voegen en hun toestemmingsverklaring in uw project te uploaden:

Meld u aan bij Speech Studio.
Selecteer Aangepaste avatar> Uw projectnaam >Stel toestemmingsvideo voor avatartalent>uploaden in.
Volg op de pagina Toestemming uploaden de instructies voor het uploaden van de avatar talent toestemming video die u vooraf hebt opgenomen.
- Selecteer de spreektaal van de mondelinge toestemmingsverklaring die is vastgelegd door het avatartalent.
- Voer de naam van het avatartalent en uw bedrijfsnaam in dezelfde taal in als de opgenomen instructie.
  - De naam van het avatartalent moet de naam zijn van de persoon die de toestemmingsverklaring heeft geregistreerd.
  - De bedrijfsnaam moet overeenkomen met de bedrijfsnaam die in de opgenomen instructie is gesproken.
- U kunt ervoor kiezen om uw gegevens te uploaden vanuit lokale bestanden of vanuit een gedeelde opslag met Azure Blob.
Selecteer Uploaden.

Nadat het uploaden van de avatar-talenttoestemming is geslaagd, kunt u doorgaan met het trainen van uw aangepaste avatarmodel.

Stap 3: Trainingsgegevens toevoegen

De Speech-service gebruikt uw trainingsgegevens om een unieke avatar te maken die overeenkomt met het uiterlijk van de persoon in de opnamen. Nadat u het avatarmodel hebt getraind, kunt u avatarvideo's synthetiseren of gebruiken voor livechats in uw toepassingen.

Alle gegevens die u uploadt, moeten voldoen aan de vereisten voor het gegevenstype dat u kiest. Om ervoor te zorgen dat de Speech-service uw gegevens nauwkeurig verwerkt, is het belangrijk dat u uw gegevens correct opmaken voordat u uploadt. Als u wilt controleren of uw gegevens correct zijn opgemaakt, raadpleegt u De vereisten voor gegevens.

Uw gegevens uploaden

Wanneer u klaar bent om uw gegevens te uploaden, gaat u naar het tabblad Trainingsgegevens voorbereiden om uw gegevens toe te voegen.

Voer de volgende stappen uit om trainingsgegevens te uploaden:

Meld u aan bij Speech Studio.
Selecteer Aangepaste avatar> Uw projectnaam> Trainingsgegevens uploaden>voorbereiden.
Kies een gegevenstype in de wizard Gegevens uploaden en selecteer vervolgens Volgende. Zie welke videoclips u wilt opnemen voor meer informatie over de gegevenstypen (inclusief natuurlijk spreken, stil, gebaar en status 0).
Selecteer lokale bestanden op uw computer of voer de URL voor Azure Blob Storage in waar uw gegevens zijn opgeslagen.
Selecteer Volgende.
Controleer de uploadgegevens en selecteer Verzenden.

Gegevensbestanden worden automatisch gevalideerd wanneer u Verzenden selecteert. Gegevensvalidatie omvat reeks controles op de videobestanden om de bestandsindeling, grootte en het totale volume te controleren. Als er fouten zijn, herstelt u deze en verzendt u deze opnieuw.

Nadat u de gegevens hebt geüpload, kunt u het gegevensoverzicht controleren dat aangeeft of u voldoende gegevens hebt opgegeven om te beginnen met trainen. In deze schermopname ziet u een voorbeeld van voldoende gegevens die zijn toegevoegd voor het trainen van een avatar zonder andere gebaren.

Stap 4: Uw avatarmodel trainen

Belangrijk

Alle trainingsgegevens in het project zijn opgenomen in de training. De modelkwaliteit is sterk afhankelijk van de gegevens die u hebt opgegeven en u bent verantwoordelijk voor de videokwaliteit. Zorg ervoor dat u de trainingsvideo's opneemt volgens de handleiding voor het opnemen van videovoorbeelden.

Volg deze stappen voor een van de volgende methoden om een aangepaste avatar te maken in Speech Studio:

Meld u aan bij Speech Studio.
Selecteer Aangepaste avatar> Uw projectnaam >Train model Train model>.
Voer een naam in om het model te identificeren. Kies zorgvuldig een naam. De modelnaam wordt gebruikt als de avatarnaam in uw syntheseaanvraag door de SDK- en SSML-invoer. Alleen letters, cijfers, afbreekstreepjes en onderstrepingstekens zijn toegestaan. Gebruik een unieke naam voor elk model.

Belangrijk

De naam van het avatarmodel moet uniek zijn binnen dezelfde Speech- of AI Services-resource.
Selecteer Trainen om het model te trainen.

De duur van de training varieert, afhankelijk van de hoeveelheid gegevens die u gebruikt. Normaal gesproken duurt het gemiddeld 20-40 rekenuren om een aangepaste avatar te trainen. Bekijk de prijsnotitie voor de kosten van training.

Uw aangepaste avatarmodel kopiëren naar een ander project (optioneel)

Aangepaste avatartraining is momenteel alleen beschikbaar in sommige regio's. Nadat uw avatarmodel is getraind in een ondersteunde regio, kunt u het indien nodig kopiëren naar een AI Services-resource voor Spraak in een andere regio. Zie voetnoten in de tabel Regio's voor meer informatie.

Uw aangepaste avatarmodel naar een ander project kopiëren:

Selecteer op het tabblad Model trainen een avatarmodel dat u wilt kopiëren en selecteer vervolgens Kopiëren naar project.
Selecteer het abonnement, de regio, de spraakresource en het project waarnaar u het model wilt kopiëren. U moet een spraakresource en -project in de doelregio hebben, anders moet u ze eerst maken.
Selecteer Verzenden om het model te kopiëren.

Zodra het model is gekopieerd, ziet u een melding in Speech Studio.

Navigeer naar het project waar u het model hebt gekopieerd om de modelkopie te implementeren.

Stap 5: Uw avatarmodel implementeren en gebruiken

Nadat u uw avatarmodel hebt gemaakt en getraind, implementeert u het op uw eindpunt.

Uw avatar implementeren:

Meld u aan bij Speech Studio.
Selecteer Aangepaste avatar> Uw projectnaam >Deploy model.
Selecteer Model implementeren en selecteer een model dat u wilt implementeren.
Selecteer Implementeren om de implementatie te starten.

Belangrijk

Wanneer een model wordt geïmplementeerd, betaalt u voor doorlopende tijd van het eindpunt, ongeacht uw interactie met dat eindpunt. Controleer de prijsnotitie over de kosten voor modelimplementatie. U kunt een implementatie verwijderen wanneer het model niet wordt gebruikt om de uitgaven te verminderen en resources te besparen.

Nadat u uw aangepaste avatar hebt geïmplementeerd, is deze beschikbaar voor gebruik in Speech Studio of via API:

De avatar wordt weergegeven in de avatarlijst met tekst naar spraak-avatar in Speech Studio.
De avatar wordt weergegeven in de avatarlijst met live chat avatars via Speech Studio.
U kunt de avatar aanroepen vanuit de SDK en SSML-invoer door de naam van het avatarmodel op te geven. Zie de avatareigenschappen voor meer informatie.

Een implementatie verwijderen

Voer de volgende stappen uit om uw implementatie te verwijderen:

Meld u aan bij Speech Studio.
Navigeer naar Aangepaste Avatar> uw projectnaam >Deploy model.
Selecteer de implementatie op de pagina Model implementeren . Het model wordt actief gehost als de status Geslaagd is.
U kunt de knop Implementatie verwijderen selecteren en de verwijdering bevestigen om de hosting te verwijderen.

Tip

Zodra een implementatie is verwijderd, betaalt u niet meer voor de hosting. Als u een implementatie verwijdert, wordt uw model niet verwijderd. Als u het model opnieuw wilt gebruiken, maakt u een nieuwe implementatie.

Een aangepaste stem gebruiken (optioneel)

Als u ook een aangepaste neurale stem (CNV) voor de acteur maakt, kan de avatar zeer realistisch zijn. Zie Wat is aangepaste tekst voor spraak-avatar voor meer informatie.

Aangepaste spraak en aangepaste tekst naar spraak-avatar zijn afzonderlijke functies. U kunt ze onafhankelijk of samen gebruiken.

Als u een aangepaste stem hebt gemaakt en deze samen met de aangepaste avatar wilt gebruiken, let dan op de volgende punten:

Zorg ervoor dat het aangepaste spraakeindpunt is gemaakt in dezelfde Spraak-resource als het aangepaste avatar-eindpunt. Raadpleeg uw professionele spraakmodel zo nodig trainen om het aangepaste spraakmodel te kopiëren naar dezelfde Spraak-resource als het aangepaste avatareindpunt.
U kunt de aangepaste spraakoptie zien in de stemmenlijst van de pagina voor het genereren van avatar-inhoud en instellingen voor live chatstemmen.
Als u batchsynthese gebruikt voor avatar-API, voegt u de eigenschap toe om de "customVoices" implementatie-id van het aangepaste spraakmodel te koppelen aan de naam van de stem in de aanvraag. Zie de tekst-naar-spraakeigenschappen voor meer informatie.
Als u realtime synthese gebruikt voor avatar-API, raadpleegt u onze voorbeeldcode op GitHub om de aangepaste stem in te stellen.

Delen via

Een aangepaste tekst voor spraak-avatar maken

Vereisten

Stap 1: Een aangepast avatarproject maken

Stap 3: Trainingsgegevens toevoegen

Uw gegevens uploaden

Stap 4: Uw avatarmodel trainen

Uw aangepaste avatarmodel kopiëren naar een ander project (optioneel)

Stap 5: Uw avatarmodel implementeren en gebruiken

Een implementatie verwijderen

Een aangepaste stem gebruiken (optioneel)

Volgende stappen

Feedback

Aanvullende resources

Delen via

Een aangepaste tekst voor spraak-avatar maken

Vereisten

Stap 1: Een aangepast avatarproject maken

Stap 2: Toestemming voor avatartalent toevoegen

Stap 3: Trainingsgegevens toevoegen

Uw gegevens uploaden

Stap 4: Uw avatarmodel trainen

Uw aangepaste avatarmodel kopiëren naar een ander project (optioneel)

Stap 5: Uw avatarmodel implementeren en gebruiken

Een implementatie verwijderen

Een aangepaste stem gebruiken (optioneel)

Volgende stappen

Feedback

Aanvullende resources