Valutazione della pronuncia nel portale di Azure AI Foundry

Articolo
03/10/2025

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

La valutazione della pronuncia usa la funzionalità di Riconoscimento vocale e offre feedback soggettivi e obiettivi per gli apprendenti delle lingue. La pratica della pronuncia e il feedback tempestivo risultano essere essenziali per migliorare le competenze linguistiche. Le valutazioni di qualità fornite da insegnanti esperti possono richiedere molto tempo e impegno, e rappresentano un costo per gli studenti. La valutazione della pronuncia può rappresentare un modo per coinvolgere maggiormente gli studenti ed è accessibile a tutti gli studenti.

Nota

Per informazioni sulla disponibilità della valutazione della pronuncia, consultare lingue supportate e aree disponibili.

Questo articolo descrive come usare lo strumento di valutazione della pronuncia senza scrivere codice tramite il portale di Azure AI Foundry. Per informazioni su come integrare la valutazione della pronuncia nelle applicazioni con il parlato, vedere Come usare la valutazione della pronuncia.

Scenari di lettura e parlato

Per la valutazione della pronuncia, esistono due scenari: Lettura e Parlato.

Lettura: questo scenario è progettato per valutazione con script. Richiede allo studente di leggere un determinato testo. Il testo di riferimento viene fornito in anticipo.
Parlato: questo scenario è progettato per valutazione senza script. Richiede allo studente di parlare di un determinato argomento. Il testo di riferimento non viene fornito in anticipo.

Eseguire una valutazione con script

Per valutare la pronuncia del testo di riferimento seguire questa procedura:

Passare a Valutazione della pronuncia nel portale di Azure AI Foundry.
Nella scheda Lettura, scegliere una lingua supportata di cui si desidera valutare la pronuncia.
È possibile usare campioni di testo forniti, o immettere un proprio personalizzato.

Quando si legge il testo, avvicinarsi al microfono per accertare che la voce registrata non sia troppo bassa.

Altrimenti è possibile caricare l'audio registrato per la valutazione della pronuncia. Una volta caricato correttamente, l'audio sarà valutato automaticamente dal sistema, come illustrato nello screenshot seguente.

Eseguire una valutazione senza script

Se si desidera eseguire una valutazione senza script, selezionare la scheda Parlato. Questa funzionalità consente di eseguire una valutazione senza script, senza fornire prima un testo di riferimento. Come procedere:

Passare a Valutazione della pronuncia nel portale di Azure AI Foundry.
Scegliere una lingua supportata di cui si desidera valutare la pronuncia.
Successivamente, è possibile selezionare tra gli argomenti campione forniti o immettere il proprio argomento. Questa scelta consente di valutare la capacità di parlare di un determinato argomento senza uno schema predefinito.

Nel registrare il parlato per la valutazione della pronuncia, è importante accertare che il tempo di registrazione rientri nell'intervallo consigliato di 15 secondi (equivalente a più di 50 parole) e 10 minuti. Questo intervallo di tempo è ottimale e consente di valutare accuratamente il contenuto del parlato. Per ricevere un punteggio di argomento, l'audio parlato deve contenere almeno tre frasi.

È anche possibile caricare l'audio registrato per la valutazione della pronuncia. Una volta che sia stato caricato correttamente, l'audio viene valutato automaticamente dal sistema.

Risultati della valutazione della pronuncia

Dopo aver registrato il parlato o caricato l'audio registrato, sarà restituito risultato della valutazione. Questo include l'audio parlato e il feedback sulla valutazione vocale. È possibile ascoltare l'audio del parlato e scaricarlo, se necessario.

Inoltre è possibile controllare il risultato della valutazione della pronuncia in formato JSON. I punteggi di accuratezza a livello di parole, sillabe e fonemi sono inclusi nel file JSON.

Schermo
JSON

Screenshot che mostra il risultato della valutazione nella finestra di visualizzazione, che include trascrizioni e feedback sul parlato.

La parola risulta evidenziata in base al tipo di errore. I tipi di errore nella valutazione della pronuncia sono rappresentati usando colori diversi. Questa distinzione visiva semplifica l'identificazione e l'analisi di errori specifici. Fornisce una panoramica chiara dei tipi di errore e della loro frequenza nell'audio del parlato, consentendo di concentrarsi sulle aree che necessitano di miglioramenti. È possibile attivare/disattivare ciascun tipo di errore per concentrarsi su tipi di errore specifici o per escludere determinati tipi dalla visualizzazione. Questa funzionalità offre flessibilità di revisione e analisi degli errori nell'audio parlato. Se si passa con il mouse su ogni parola, è possibile visualizzare i punteggi di accuratezza dell'intera parola o di fonemi specifici.

Nella parte inferiore del risultato di Valutazione è possibile visualizzare i risultati dei punteggi. Per la valutazione della pronuncia con script, viene fornito solo il punteggio di pronuncia (comprensivo dei punteggi di accuratezza, scorrevolezza, completezza e prosodia). Per la valutazione della pronuncia senza script, vengono visualizzati sia il punteggio di pronuncia (comprensivo dei punteggi di accuratezza, scorrevolezza, completezza e prosodia) sia il punteggio di contenuto (comprensivo dei punteggi di vocabolario, grammatica e argomento).

La trascrizione completa viene visualizzata nell'attributo text. È possibile visualizzare i punteggi di accuratezza per l'intera parola, le sillabe e i fonemi specifici. È possibile ottenere gli stessi risultati usando Speech SDK. Per informazioni, vedere Come usare la valutazione della pronuncia.

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

Granularità della valutazione della pronuncia

La valutazione della pronuncia fornisce risultati di valutazione granulari, esaminando dai singoli fonemi all'intero input di testo.

A livello full-text, la valutazione della pronuncia offre punteggi aggiuntivi relativi a scorrevolezza, completezza e prosodia. Scorrevolezza indica la misura in cui il parlato corrisponde a quello di un parlante nativo, in termini di interruzioni silenziose tra le parole; Completezza indica il numero di parole pronunciate nel parlato all'input di testo di riferimento; Prosodia indica il grado di qualità con cui un parlante trasmette elementi di naturalezza, espressività e prosodia complessiva nel discorso. Viene quindi assegnato un punteggio complessivo aggregato di accuratezza, scorrevolezza, completezza e prosodia, per indicare la qualità complessiva della pronuncia del parlato. La valutazione della pronuncia offre inoltre un punteggio del contenuto (vocabolario, grammatica e argomento) a livello full-text.
A livello di parola, la valutazione della pronuncia può rilevare automaticamente errori e fornire al contempo un punteggio di accuratezza, con informazioni più dettagliate su omissioni, ripetizioni, inserimenti e errori di pronuncia nel discorso preso in considerazione.
I punteggi di accuratezza a livello di sillabe sono al momento disponibili tramite file JSON o Speech SDK.
A livello di fonema, la valutazione della pronuncia fornisce punteggi di accuratezza per ogni fonema, consentendo agli studenti di comprendere meglio i dettagli della pronuncia del proprio discorso.

Oltre ai punteggi di base di accuratezza, fluenza e completezza, la funzionalità di valutazione della pronuncia in Azure AI Foundry include punteggi più completi per fornire feedback dettagliato sui vari aspetti delle prestazioni vocali e della comprensione. I punteggi avanzati sono i seguenti: punteggio prosodia, punteggio vocabolario, punteggio grammatica e punteggio argomento. Questi punteggi offrono informazioni dettagliate utili sulla prosodia vocale, sull'utilizzo del vocabolario, sulla correttezza grammaticale e sulla comprensione degli argomenti.

Screenshot del punteggio di pronuncia complessivo e del punteggio di contenuto complessivo in Azure AI Foundry.

Nella parte inferiore del risultato Valutazione vengono visualizzati due punteggi complessivi: punteggio di pronuncia e punteggio di contenuto. Nella scheda Lettura è disponibile il punteggio per Pronuncia. Nella scheda Parlato vengono visualizzati sia il punteggio per la pronuncia che il punteggio del contenuto.

Punteggio di pronuncia: questo punteggio rappresenta una valutazione aggregata della qualità della pronuncia e include quattro aspetti secondari. Questi punteggi sono disponibili nelle schede Lettura e Parlato, per le valutazioni con script e senza script.

Punteggio di accuratezza: valuta la correttezza della pronuncia.
Punteggio di scorrevolezza: misura il livello di fluidità e naturalezza nel parlato.
Punteggio di completezza: riflette il numero di parole pronunciate correttamente.
Punteggio di prosodia: valuta l'uso dell'intonazione, del ritmo e degli accenti appropriati. Sono stati introdotti diversi tipi di errore correlati alla valutazione della prosodia, ad esempio Interruzione imprevista, Interruzione mancante e Monotono. Rispetto al motore precedente, questi tipi di errore forniscono informazioni più dettagliate sugli errori di pronuncia.

Punteggio di contenuto: questo punteggio fornisce una valutazione aggregata del contenuto del parlato e include tre aspetti secondari. Il punteggio è disponibile solo nella scheda Parlato per una valutazione senza script.

Punteggio vocabolario: valuta l'uso effettivo delle parole e la loro adeguatezza all'interno del contesto specificato per esprimere le idee in modo accurato e il livello di complessità lessicale.
Punteggio grammaticale: valuta la correttezza dell'utilizzo della grammatica e la varietà di modelli di frase. Considera l'accuratezza lessicale, l'accuratezza grammaticale e la diversità delle strutture delle frasi, fornendo una valutazione più completa per la competenza linguistica.
Punteggio dell'argomento: valuta il livello di comprensione e coinvolgimento con l'argomento descritto nel discorso. Valuta la capacità del parlante di esprimere in modo efficace pensieri e idee correlati all'argomento specificato.

I punteggi complessivi offrono una valutazione completa sia della pronuncia sia del contenuto, fornendo agli apprendenti un feedback prezioso su vari aspetti delle prestazioni relative al parlato e alla comprensione. Grazie a queste funzionalità avanzate, gli apprendenti delle lingue possono ottenere dati analitici dettagliati sui vantaggi e sulle aree di miglioramento, in termini di pronuncia che di espressione del contenuto.

Nota

Le valutazioni di prosodia e contenuto sono disponibili solo nelle impostazioni locali en-US.

Punteggi di valutazione in modalità di streaming

La valutazione della pronuncia supporta la modalità di streaming ininterrotta. La demo di Azure AI Foundry consente fino a 60 minuti di registrazione in modalità di streaming per la valutazione. Finché non si preme il pulsante per arrestare la registrazione, il processo di valutazione non termina e si può sospendere e riprendere la valutazione secondo le esigenze.

La valutazione della pronuncia esamina diversi aspetti. Nella parte inferiore del Risultato della valutazione è possibile visualizzare il Punteggio di pronuncia come punteggio complessivo aggregato che include 4 aspetti secondari: punteggio di accuratezza, punteggio di scorrevolezza, punteggio di completezza e punteggio di prosodia. In modalità di streaming, poiché il punteggio di accuratezza, il punteggio fluency e il punteggio prosody variano nel corso del processo di registrazione, viene illustrato un approccio in Azure AI Foundry per visualizzare il punteggio complessivo approssimativo in modo incrementale prima della fine della valutazione, ponderata solo con il punteggio di accuratezza, il punteggio fluency e il punteggio prosody. Il punteggio Completezza viene calcolato solo alla fine della valutazione dopo aver premuto il pulsante di arresto, quindi il punteggio complessivo della pronuncia finale consiste nell’aggregazione dei punteggi di Accuratezza, Scorrevolezza, Completezza e Prosodia con peso.

Per l'intero processo di valutazione della pronuncia in modalità streaming, vedere gli esempi demo seguenti.

Avviare la registrazione

Quando si inizia la registrazione, i punteggi nella parte inferiore iniziano a cambiare a partire da 0.

Durante la registrazione

Durante la registrazione di un lungo paragrafo, è possibile sospendere la registrazione in qualsiasi momento. È possibile continuare a valutare la registrazione, purché non si prema il pulsante di arresto.

Fine della registrazione

Dopo aver premuto il pulsante di arresto, nella parte inferiore è possibile visualizzare Punteggio di pronuncia, Punteggio di accuratezza, Punteggio di scorrevolezza, Punteggio di completezza e Punteggio di prosodia.

Prezzi

In termini di baseline, l'utilizzo della valutazione della pronuncia ha lo stesso costo del riconoscimento vocale, con prezzi del pagamento in base al consumo o del livello di impegno. Se si acquista un livello di impegno per il riconoscimento vocale, la spesa per la valutazione della pronuncia va verso il raggiungimento dell'impegno.

La funzionalità di valutazione della pronuncia offre anche altri punteggi che non sono inclusi nel prezzo baseline di riconoscimento vocale: prosodia, grammatica, argomento e vocabolario. Questi punteggi sono disponibili dietro pagamento di una quota aggiuntiva oltre al prezzo baseline di riconoscimento vocale. Per informazioni sui prezzi, vedere Prezzi del riconoscimento vocale.

Ecco una tabella dei punteggi di valutazione della pronuncia disponibili, indipendentemente dal fatto che siano disponibili nelle valutazioni con script o senza script e che siano inclusi nel prezzo del riconoscimento vocale baseline o come quota di componente aggiuntivo.

Punteggio	Esecuzione script o senza script	Cosa include il prezzo baseline di riconoscimento vocale?
Accuratezza	Con script o senza script	Sì
Scorrevolezza	Con script o senza script	Sì
Completezza	Esecuzione script	Sì
Errore	Con script o senza script	Sì
Prosodia	Con script o senza script	No
Grammatica	Solo senza script	No
Argomento	Solo senza script	No
Vocabolario	Solo senza script	No

Intelligenza artificiale responsabile

Un sistema IA include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso dell’intelligenza artificiale responsabile e sulla sua distribuzione nei sistemi.

Passaggi successivi

Usare la Valutazione della pronuncia con Speech SDK
Leggere il blog sui casi d'uso

Condividi tramite