Introduzione al riconoscimento vocale in Azure

Completato

Microsoft Azure offre funzionalità di riconoscimento vocale e sintesi vocale tramite il servizio Voce di Azure AI, che supporta molte funzionalità, tra cui:

  • Riconoscimento vocale
  • Sintesi vocale

Nota

Questo modulo illustra le funzionalità di conversione della voce in testo scritto e sintesi vocale. Un modulo separato illustra la traduzione vocale in Servizi di Azure AI.

Riconoscimento vocale

È possibile usare l'API Riconoscimento vocale di Azure AI per eseguire la trascrizione in tempo reale o in batch dell'audio in un formato di testo. L'origine audio per la trascrizione può essere un flusso audio in tempo reale da un microfono o un file audio.

Il modello usato dall'API Riconoscimento vocale è basato sul modello linguistico universale di cui è stato eseguito il training da Microsoft. I dati del modello sono di proprietà di Microsoft e vengono distribuiti in Microsoft Azure. Il modello è ottimizzato per due scenari: conversazione e dettatura. È anche possibile creare ed eseguire il training di modelli personalizzati, tra cui acustica, lingua e pronuncia, se i modelli predefiniti di Microsoft non forniscono gli elementi necessari.

Trascrizione in tempo reale: Il riconoscimento vocale in tempo reale consente di trascrivere il testo in flussi audio. È possibile usare la trascrizione in tempo reale per presentazioni, dimostrazioni o qualsiasi altro scenario in cui una persona parla.

Per il funzionamento della trascrizione in tempo reale, è necessario che l'applicazione sia in ascolto dell'audio in ingresso da un microfono o da altre origini di input audio, ad esempio un file audio. Il codice dell'applicazione trasmette l'audio al servizio, che restituisce il testo trascritto.

Trascrizione batch: Non tutti gli scenari di riconoscimento vocale sono in tempo reale. Potrebbero essere presenti registrazioni audio archiviate in una condivisione file, in un server remoto o anche in una risorsa di archiviazione di Azure. È possibile puntare a file audio con un URI di firma di accesso condiviso (SAS) e ricevere in modo asincrono i risultati della trascrizione.

La trascrizione batch deve essere eseguita in modo asincrono, perché i processi batch sono pianificati secondo il principio del best effort. In genere l'esecuzione di un processo si avvia entro pochi minuti dalla richiesta, ma non è prevista alcuna stima in relazione al momento della modifica di un processo nello stato in esecuzione.

Sintesi vocale

L'API sintesi vocale consente di convertire l'input di testo in voce, che può essere riprodotta direttamente tramite un altoparlante del computer o scritta in un file audio.

Voci della sintesi vocale: Quando si usa l'API Sintesi vocale, è possibile specificare la voce da usare per vocalizzare il testo. Questa funzionalità offre la flessibilità necessaria per personalizzare la soluzione di sintesi vocale e assegnarle un carattere specifico.

Il servizio include più voci predefinite con supporto per più lingue e pronuncia a livello di area, tra cui voci neurali che sfruttano reti neurali per superare le comuni limitazioni di sintesi vocale per quanto riguarda l'intonazione, con conseguente voce più naturale. È anche possibile sviluppare voci personalizzate e usarle con l'API Sintesi vocale.

Lingue supportate

Sia l'API Riconoscimento vocale che l'API Sintesi vocale supportano un'ampia scelta di lingue. Usare i collegamenti di seguito per trovare informazioni dettagliate sulle lingue supportate: