Condividi tramite


API REST riconoscimento vocale

L'API REST riconoscimento vocale viene usata per la trascrizione batch e il riconoscimento vocale personalizzato.

Importante

La versione 2024-11-15 dell'API REST riconoscimento vocale è la versione più recente disponibile a livello generale.

  • La versione 2024-05-15-preview dell'API REST riconoscimento vocale verrà ritirata in una data da annunciare.
  • L'API v3.0REST riconoscimento vocale, , v3.1v3.2, 3.2-preview.1e 3.2-preview.2 verrà ritirata il 1° aprile 2026.

Per altre informazioni sull'aggiornamento, vedere Le guide alla migrazione dell'API REST Riconoscimento vocale v3.0 alla versione 3.1, dalla versione 3.1 alla versione 3.2 e dalla versione 3.2 alla versione 2024-11-15.

Usare l'API REST Riconoscimento vocale per:

  • Trascrizione rapida: trascrivere i file audio con risultati in modo sincrono e molto più veloce rispetto all'audio in tempo reale. Usare l'API di trascrizione rapida (/speechtotext/trascrizioni:trascrivere) negli scenari in cui è necessaria la trascrizione di una registrazione audio il più rapidamente possibile con una latenza prevedibile, ad esempio trascrizione rapida di audio o video o traduzione video.
  • Riconoscimento vocale personalizzato: caricare dati personalizzati, testare ed eseguire il training di un modello personalizzato, confrontare l'accuratezza tra i modelli e distribuire un modello in un endpoint personalizzato. Copiare modelli in altre sottoscrizioni se si vuole che i colleghi abbiano accesso a un modello creato o se si vuole distribuire un modello in più aree.
  • Trascrizione batch: trascrivere i file audio come batch da più URL o da un contenitore di Azure.

L'API REST Riconoscimento vocale include funzionalità come:

  • Ottenere i log per ogni endpoint se i log sono richiesti per tale endpoint.
  • Richiedere il manifesto dei modelli creati per configurare i contenitori locali.
  • Caricare i dati dagli account di archiviazione di Azure usando un URI di firma di accesso condiviso.
  • Porta il tuo spazio di archiviazione. Usare i propri account di archiviazione per i log, i file di trascrizione e altri dati.
  • Alcune operazioni supportano le notifiche webhook. È possibile registrare i webhook in cui vengono inviate le notifiche.

Trascrizione batch

I gruppi di operazioni seguenti sono applicabili per la trascrizione batch.

Gruppo di operazioni Descrizione
Modelli Usare modelli di base o modelli personalizzati per trascrivere file audio.

È possibile usare modelli con riconoscimento vocale personalizzato e trascrizione batch. Ad esempio, è possibile usare un modello sottoposto a training con un set di dati specifico per trascrivere i file audio. Vedere Eseguire il training di un modello e il ciclo di vita del modello di riconoscimento vocale personalizzato per esempi su come eseguire il training e gestire modelli di riconoscimento vocale personalizzati.
Trascrizioni Usare le trascrizioni per trascrivere una grande quantità di audio nell'archiviazione.

Quando si usa la trascrizione batch si inviano più file per richiesta o si punta a un contenitore Archiviazione BLOB di Azure con i file audio da trascrivere. Vedere Creare una trascrizione per esempi di come creare una trascrizione da più file audio.
Webhook Usare web hook per ricevere notifiche sugli eventi di creazione, elaborazione, completamento ed eliminazione.

È possibile usare web hook con riconoscimento vocale personalizzato e trascrizione batch. Gli hook Web si applicano a set di dati, endpoint, valutazioni, modelli e trascrizioni.

Riconoscimento vocale personalizzato

I gruppi di operazioni seguenti sono applicabili per il riconoscimento vocale personalizzato.

Gruppo di operazioni Descrizione
Set di dati Usare i set di dati per eseguire il training e testare modelli di riconoscimento vocale personalizzati.

Ad esempio, è possibile confrontare le prestazioni di un riconoscimento vocale personalizzato sottoposto a training con un set di dati specifico con le prestazioni di un modello di base o di un modello di riconoscimento vocale personalizzato sottoposto a training con un set di dati diverso. Per esempi su come caricare set di dati, vedere Caricare set di dati di training e test .
Endpoint Distribuire modelli di riconoscimento vocale personalizzati agli endpoint.

È necessario distribuire un endpoint personalizzato per usare un modello di riconoscimento vocale personalizzato. Vedere Distribuire un modello per esempi di come gestire gli endpoint di distribuzione.
Giudizi Usare valutazioni per confrontare le prestazioni di modelli diversi.

Ad esempio, è possibile confrontare le prestazioni di un modello di riconoscimento vocale personalizzato sottoposto a training con un set di dati specifico con le prestazioni di un modello di base o un modello personalizzato sottoposto a training con un set di dati diverso. Per esempi su come testare e valutare modelli di riconoscimento vocale personalizzati, vedere Qualità del riconoscimento e accuratezza dei test.
Modelli Usare modelli di base o modelli personalizzati per trascrivere file audio.

È possibile usare modelli con riconoscimento vocale personalizzato e trascrizione batch. Ad esempio, è possibile usare un modello sottoposto a training con un set di dati specifico per trascrivere i file audio. Vedere Eseguire il training di un modello e il ciclo di vita del modello di riconoscimento vocale personalizzato per esempi su come eseguire il training e gestire modelli di riconoscimento vocale personalizzati.
Progetti Usare i progetti per gestire modelli vocali personalizzati, set di dati di training e test e endpoint di distribuzione.

I progetti di riconoscimento vocale personalizzati contengono modelli, set di dati di training e test e endpoint di distribuzione. Ogni progetto è specifico rispetto alle impostazioni locali. Ad esempio, è possibile creare un progetto per l’inglese negli Stati Uniti d’America. Per esempi su come creare progetti, vedere Creare un progetto .
Webhook Usare web hook per ricevere notifiche sugli eventi di creazione, elaborazione, completamento ed eliminazione.

È possibile usare web hook con riconoscimento vocale personalizzato e trascrizione batch. Gli hook Web si applicano a set di dati, endpoint, valutazioni, modelli e trascrizioni.

Integrità dei servizi

Integrità dei servizi fornisce informazioni dettagliate sull'integrità complessiva del servizio e dei sottocomponenti. Per altre informazioni, vedere Integrità dei servizi.

Passaggi successivi