Come creare un avatar personalizzato per la sintesi vocale

Articolo
01/15/2025

Iniziare a usare un avatar personalizzato per la sintesi vocale è un processo semplice. Tutto ciò che serve sono alcuni video clip del tuo attore. Se vuoi eseguire il training di una voce personalizzata per lo stesso attore, puoi farlo separatamente.

Nota

L'accesso avatar personalizzato è limitato in base ai criteri di idoneità e utilizzo. È necessario richiedere l'accesso tramite il modulo di accettazione.

Prerequisiti

È necessaria una risorsa di Servizi di intelligenza artificiale per il riconoscimento vocale in una delle aree che supportano il training avatar personalizzato. L'avatar personalizzato supporta solo le risorse voce standard (S0).

È necessaria una registrazione video del talento che legge una dichiarazione di consenso che riconosce l'uso dell'immagine e della voce. Caricare questo video quando si configura il talento avatar. Per altre informazioni, vedere Aggiungere il consenso dei talenti avatar.

Hai bisogno di registrazioni video del tuo talento avatar come dati di training. Questi video vengono caricati quando si preparano i dati di training. Per altre informazioni, vedere Aggiungere dati di training.

Passaggio 1: Creare un progetto avatar personalizzato

Per creare un progetto avatar personalizzato, seguire questa procedura:

Accedere a Speech Studio e selezionare la sottoscrizione e la risorsa Voce.
Selezionare Avatar personalizzato (anteprima) .
Selezionare +Crea un progetto.
Seguire le istruzioni fornite dalla procedura guidata per creare il progetto.

Suggerimento

Non combinare dati per avatar diversi in un progetto. Crea sempre un nuovo progetto per un nuovo avatar.
Selezionare il nuovo progetto in base al nome. Queste voci di menu vengono quindi visualizzate nel pannello sinistro: Configurare i talenti avatar, Preparare i dati di training, Eseguire il training del modello e Distribuire il modello.

Un talento avatar è un individuo o attore target del quale viene registrato un video parlato che viene usato per creare modelli di avatar neurali. È necessario ottenere consenso sufficiente ai sensi di tutte le leggi e normative pertinenti da parte del talento avatar per poter usare il suo video per creare l’avatar di sintesi vocale.

È necessario fornire un file video con una dichiarazione registrata dal talento avatar, nella quale acconsenta all’uso della sua immagine e voce. Microsoft verifica che il contenuto nella registrazione corrisponda allo script predefinito fornito da Microsoft. Microsoft confronta il volto del talento avatar nel file video contenente la registrazione della dichiarazione con video scelti casualmente dai set di dati di training per accertarsi che il talento avatar in tali video e quello nel file video contenente la dichiarazione siano della stessa persona.

È possibile trovare l'istruzione di consenso verbale in più lingue tramite il repository GitHub Azure-Samples/cognitive-services-speech-sdk . La lingua della dichiarazione verbale deve essere la stessa della registrazione. Vedi anche La divulgazione per i talent vocali.

Per altre informazioni sulla registrazione del video di consenso, vedere Come registrare esempi video.

Per aggiungere un profilo di talento avatar e caricare la dichiarazione di consenso nel progetto, seguire questa procedura:

Accedere a Speech Studio.
Selezionare Avatar> personalizzato Il nome >del progetto Configurare il talento>avatar Caricare il video di consenso.
Nella pagina Carica video di consenso seguire le istruzioni per caricare il video di consenso dei talenti avatar registrato in anticipo.
- Selezionare la lingua parlante dell'istruzione di consenso verbale registrata dal talento avatar.
- Immettere il nome del talento avatar e il nome della società nella stessa lingua dell'istruzione registrata.
  - Il nome del talento avatar deve essere il nome della persona che ha registrato l'istruzione di consenso.
  - Il nome della società deve corrispondere al nome della società pronunciato nella dichiarazione registrata.
- È possibile scegliere di caricare i dati dai file locali o da un archivio condiviso con BLOB di Azure.
Selezionare Carica.

Dopo che il caricamento del consenso del talento avatar ha esito positivo, è possibile procedere con il training del modello avatar personalizzato.

Passaggio 3: Aggiungere dati di training

Il servizio Voce usa i dati di training per creare un avatar univoco ottimizzato in modo che corrisponda all'aspetto della persona nelle registrazioni. Dopo aver eseguito il training del modello avatar, è possibile iniziare a sintetizzare i video avatar o usarlo per le chat live nelle applicazioni.

Tutti i dati caricati devono soddisfare i requisiti del tipo di dati scelto. Per garantire che il servizio Voce elabori in modo accurato i dati, è importante formattare correttamente i dati prima del caricamento. Per verificare che i dati siano formattati correttamente, vedere Requisiti dei dati.

Caricare i dati

Quando si è pronti per caricare i dati, passare alla scheda Preparare i dati di training per aggiungere i dati.

Per caricare i dati di training, seguire questa procedura:

Accedere a Speech Studio.
Selezionare Avatar> personalizzato Il nome >del progetto Preparare i dati>di training Carica dati.
Nella procedura guidata Carica dati scegliere un tipo di dati e quindi selezionare Avanti. Per altre informazioni sui tipi di dati (tra cui Naturally speaking, Silent, Gesture e Status 0), vedere quali clip video registrare.
Selezionare i file locali dal computer o immettere l'URL di archiviazione BLOB di Azure in cui sono archiviati i dati.
Selezionare Avanti.
Esaminare i dettagli di caricamento e selezionare Invia.

I file di dati vengono convalidati automaticamente quando si seleziona Invia. La convalida dei dati include una serie di controlli sui file video per verificare il formato del file, le dimensioni e il volume totale. In caso di errori, correggerli e inviarli di nuovo.

Dopo aver caricato i dati, è possibile controllare la panoramica dei dati che indica se sono stati forniti dati sufficienti per avviare il training. Questo screenshot mostra un esempio di dati sufficienti aggiunti per il training di un avatar senza altri movimenti.

Passaggio 4: Eseguire il training del modello avatar

Importante

Tutti i dati di training nel progetto sono inclusi nel training. La qualità del modello dipende altamente dai dati forniti e si è responsabili della qualità del video. Assicurarsi di registrare i video di training in base alla guida alla registrazione di campioni video.

Per creare un avatar personalizzato in Speech Studio, seguire questa procedura per uno dei metodi seguenti:

Accedere a Speech Studio.
Selezionare Avatar personalizzato Il nome >del progetto Train model Train model (Train model Train model>).>
Immettere un nome per identificare il modello. Scegliere un nome con attenzione. Il nome del modello viene usato come nome avatar nella richiesta di sintesi dall'SDK e dall'input SSML. Sono consentite solo lettere, numeri, trattini e caratteri di sottolineatura. Usare un nome univoco per ogni modello.

Importante

Il nome del modello avatar deve essere univoco all'interno della stessa risorsa di Servizi voce o intelligenza artificiale.
Selezionare Esegui il training per avviare il training del modello.

La durata del training varia a seconda della quantità di dati usata. In genere sono necessarie 20-40 ore di calcolo in media per eseguire il training di un avatar personalizzato. Controllare la nota sui prezzi su come viene addebitato il training.

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Il training dell'avatar personalizzato è attualmente disponibile solo in alcune aree. Dopo aver eseguito il training del modello avatar in un'area supportata, è possibile copiarlo in una risorsa di Servizi di intelligenza artificiale per Riconoscimento vocale in un'altra area in base alle esigenze. Per altre informazioni, vedere note a piè di pagina nella tabella delle aree.

Per copiare il modello avatar personalizzato in un altro progetto:

Nella scheda Train model (Esegui training modello ) selezionare un modello avatar che si vuole copiare e quindi selezionare Copia nel progetto.
Selezionare la sottoscrizione, l'area, la risorsa Voce e il progetto in cui si vuole copiare il modello. È necessario disporre di una risorsa di riconoscimento vocale e di un progetto nell'area di destinazione. In caso contrario, è prima necessario crearli.
Selezionare Invia per copiare il modello.

Dopo aver copiato il modello, viene visualizzata una notifica in Speech Studio.

Passare al progetto in cui è stato copiato il modello per distribuire la copia del modello.

Passaggio 5: Distribuire e usare il modello avatar

Dopo aver creato ed eseguito il training del modello avatar, è possibile distribuirlo nell'endpoint.

Per distribuire l'avatar:

Accedere a Speech Studio.
Selezionare Avatar personalizzato Il nome >del progetto Distribuisci modello.>
Selezionare Distribuisci modello e selezionare un modello da distribuire.
Selezionare Distribuisci per avviare la distribuzione.

Importante

Quando viene distribuito un modello, si paga per il tempo di up continuo dell'endpoint indipendentemente dall'interazione con tale endpoint. Controllare la nota sui prezzi sulla modalità di addebito della distribuzione del modello. È possibile eliminare una distribuzione quando il modello non è in uso per ridurre la spesa e risparmiare risorse.

Dopo aver distribuito l’avatar personalizzato, sarà disponibile per l’uso in Speech Studio o tramite API:

L'avatar viene visualizzato nell'elenco avatar di sintesi vocale in Speech Studio.
L'avatar viene visualizzato nell'elenco avatar degli avatar di chat live tramite Speech Studio.
È possibile chiamare l'avatar dall'input SDK e SSML specificando il nome del modello avatar. Per altre informazioni, vedere le proprietà dell'avatar.

Rimuovere una distribuzione

Per rimuovere la distribuzione, seguire questa procedura:

Accedere a Speech Studio.
Passare a Avatar> personalizzato Il nome >del progetto Distribuisci modello.
Selezionare la distribuzione nella pagina Distribuisci modello . Il modello è ospitato attivamente se lo stato è "Succeeded".
È possibile selezionare il pulsante Elimina distribuzione e confermare l'eliminazione per rimuovere l'hosting.

Suggerimento

Una volta rimossa una distribuzione, non si paga più per il relativo hosting. L'eliminazione di una distribuzione non causa alcuna eliminazione del modello. Se si vuole usare di nuovo il modello, creare una nuova distribuzione.

Usare una voce personalizzata (facoltativo)

Se si sta creando anche una voce neurale personalizzata (CNV) per l'attore, l'avatar può essere altamente realistico. Per ulteriori informazioni, consultare Che cos'è l’avatar personalizzato per la sintesi vocale.

La voce personalizzata e il testo personalizzato per l'avatar vocale sono funzionalità separate. È possibile usarle indipendentemente o insieme.

Se hai creato una voce personalizzata e vuoi usarla insieme all'avatar personalizzato, presta attenzione ai punti seguenti:

Assicurarsi che l'endpoint vocale personalizzato venga creato nella stessa risorsa Voce dell'endpoint avatar personalizzato. Se necessario, fare riferimento a Eseguire il training del modello vocale professionale per copiare il modello vocale personalizzato nella stessa risorsa voce dell'endpoint avatar personalizzato.
È possibile visualizzare l'opzione voce personalizzata nell'elenco delle voci della pagina di generazione del contenuto avatar e delle impostazioni vocali della chat live.
Se si usa la sintesi batch per l'API avatar, aggiungere la "customVoices" proprietà per associare l'ID distribuzione del modello vocale personalizzato al nome della voce nella richiesta. Per altre informazioni, vedere le proprietà di sintesi vocale.
Se si usa la sintesi in tempo reale per l'API avatar, fare riferimento al codice di esempio in GitHub per impostare la voce personalizzata.

Condividi tramite

Come creare un avatar personalizzato per la sintesi vocale

Prerequisiti

Passaggio 1: Creare un progetto avatar personalizzato

Passaggio 3: Aggiungere dati di training

Caricare i dati

Passaggio 4: Eseguire il training del modello avatar

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Passaggio 5: Distribuire e usare il modello avatar

Rimuovere una distribuzione

Usare una voce personalizzata (facoltativo)

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Come creare un avatar personalizzato per la sintesi vocale

Prerequisiti

Passaggio 1: Creare un progetto avatar personalizzato

Passaggio 2: Aggiungere il consenso dei talenti avatar

Passaggio 3: Aggiungere dati di training

Caricare i dati

Passaggio 4: Eseguire il training del modello avatar

Copiare il modello avatar personalizzato in un altro progetto (facoltativo)

Passaggio 5: Distribuire e usare il modello avatar

Rimuovere una distribuzione

Usare una voce personalizzata (facoltativo)

Passaggi successivi

Commenti e suggerimenti

Risorse aggiuntive