Configurare il formato audio e le voci
Durante la sintesi vocale, è possibile usare un oggetto SpeechConfig per personalizzare l'audio restituito dal servizio Voce di Azure AI.
Formato audio
Il servizio Voce di Azure AI supporta più formati di output per il flusso audio generato dalla sintesi vocale. A seconda delle esigenze specifiche, è possibile scegliere un formato in base alle richieste per gli elementi seguenti:
- Tipo di file audio
- Sample-rate
- Bit-depth
I formati supportati vengono indicati nell'SDK usando l'enumerazione SpeechSynthesisOutputFormat. Ad esempio, SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm
.
Per specificare il formato di output richiesto, usare il metodo SetSpeechSynthesisOutputFormat dell'oggetto SpeechConfig:
speechConfig.SetSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff24Khz16BitMonoPcm);
Per un elenco completo dei formati supportati e dei relativi valori di enumerazione, vedere la documentazione dell'SDK di Voce di Azure AI.
Voci
Il servizio Voce di Azure AI mette a disposizione dell'utente più voci utilizzabili per personalizzare le applicazioni abilitate al riconoscimento vocale. È possibile usare due tipi di voci:
- Voci standard: voci sintetiche create da campioni audio.
- Voci neurali: voci più naturali create usando reti neurali profonde.
Le voci sono identificate da nomi che indicano le specifiche impostazioni locali e il nome di una persona, ad esempio en-GB-George
.
Per specificare una voce per la sintesi vocale in SpeechConfig, impostarne la proprietà SpeechSynthesisVoiceName sulla voce che si vuole usare:
speechConfig.SpeechSynthesisVoiceName = "en-GB-George";
Per informazioni sulle voci, vedere la documentazione dell'SDK di Voce di Azure AI.