Usare la risorsa Voce BYOS (Bring Your Own Storage) per il riconoscimento vocale
L'approccio BYOS (Bring Your Own Storage) può essere usato negli scenari di riconoscimento vocale seguenti:
- Trascrizione batch
- Trascrizione in tempo reale con registrazione dei risultati audio e trascrizione abilitata
- Riconoscimento vocale personalizzato
Una coppia di risorse di Voce e un account di archiviazione possono essere usati contemporaneamente per tutti gli scenari.
Questo articolo illustra in dettaglio come usare una risorsa Voce abilitata per BYOS in tutti gli scenari di riconoscimento vocale. L’articolo presuppone che si disponga di una risorsa di Voce abilitata per BYOS completamente configurata e un account di archiviazione associato.
Archiviazione di dati
Quando si usa BYOS, il servizio Voce non mantiene gli artefatti dei clienti dopo il completamento dell'elaborazione dei dati (trascrizione, training del modello, test del modello). Tuttavia, alcuni metadati non derivati dal contenuto utente vengono archiviati all'interno del servizio Voce locale. Ad esempio, nello scenario di riconoscimento vocale personalizzato, il servizio mantiene determinate informazioni sugli endpoint personalizzati, come i modelli usati.
L'account di archiviazione associato a BYOS archivia i dati seguenti:
Nota
Facoltativo in questa sezione significa che è un'operazione possibile, ma non necessaria per archiviare gli elementi specifici nell'account di archiviazione associato a BYOS. Se necessario, possono essere archiviati altrove.
Trascrizione batch
- Audio di origine (facoltativo)
- Risultati della trascrizione batch
Trascrizione in tempo reale con registrazione dei risultati audio e trascrizione abilitata
- Log dei risultati audio e trascrizione
Riconoscimento vocale personalizzato
- File di origine dei set di dati per il training e il test del modello (facoltativo)
- Tutti i dati e i metadati correlati ai modelli personalizzati ospitati dalla risorsa voce abilitata per BYOS (inclusi le copie dei set di dati per il training e il test del modello)
Trascrizione batch
La trascrizione batch viene usata per trascrivere una grande quantità di dati audio nella risorsa di archiviazione. Se non si ha familiarità con la trascrizione Batch, vedere questo articolo prima.
Eseguire questi passaggi per eseguire la trascrizione batch con la risorsa Voce abilitata per BYOS:
Avviare la trascrizione batch come descritto in questa guida.
Importante
Non usare il parametro
destinationContainerUrl
nella richiesta di trascrizione. Se si usa BYOS, i risultati della trascrizione vengono archiviati automaticamente nell'account di archiviazione associato a BYOS.Se si usa il parametro
destinationContainerUrl
l'operazione avrà luogo ma offrirà una sicurezza molto minore per i dati, a causa dell'utilizzo di firma di accesso condiviso ad hoc. Vedere i dettagli qui.Al termine della trascrizione, ottenere i risultati della trascrizione seguendo questa guida. È consigliabile usare il parametro
sasValidityInSeconds
(vedere la sezione seguente).
Il servizio Voce usa il contenitore BLOB customspeech-artifacts
nell'account di archiviazione associato a BYOS per l'archiviazione dei risultati intermedi e finali della trascrizione.
Attenzione
Il servizio Voce si basa sui percorsi predefiniti dei contenitori BLOB e sui nomi di file per il corretto funzionamento del modulo di trascrizione Batch. Non spostare, rinominare o modificare in alcun modo il contenuto del contenitore customspeech-artifacts
.
In caso contrario, è molto probabile che si verifichino errori del servizio 4xx e 5xx.
Non creare soluzioni che usino direttamente file e cartelle del contenitore customspeech-artifacts
. Usare gli strumenti standard per interagire con la trascrizione Batch. Vedere i dettagli nella sezione Trascrizione Batch.
Ottenere i risultati della trascrizione Batch tramite l'API REST
API REST Riconoscimento vocale supporta completamente le risorse Voce abilitate per BYOS. Tuttavia, poiché i dati vengono archiviati all'interno dell'account di archiviazione abilitato per BYOS, le richieste come Ottieni file di trascrizione interagiscono con l'archiviazione BLOB dell'account di archiviazione associato a BYOS anziché con le risorse interne del servizio Voce. Consente di usare lo stesso codice basato sull'API REST per le risorse Voce "normali" e abilitate per BYOS.
Per la massima sicurezza, usare il parametro sasValidityInSeconds
con il valore impostato su 0
nelle richieste, operazione che restituisce URL di file di dati, ad esempio le richieste Ottieni file di trascrizione. Ecco un URL di richiesta di esempio:
https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0
Tale richiesta restituisce URL diretti dell'account di archiviazione ai file di dati (senza firma di accesso condiviso o altre aggiunte). Ad esempio:
"links": {
"contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
}
L'URL di questo formato garantisce che solo le identità di Microsoft Entra (utenti, entità servizio, identità gestite) con diritti di accesso sufficienti (ad esempio il ruolo Lettore di dati BLOB di archiviazione) possano accedere ai dati dall'URL.
Avviso
Se il parametro sasValidityInSeconds
viene omesso nelle richieste Ottieni file di trascrizione o simili, verrà generata una firma di accesso condiviso di delega utente con validità di 5 giorni per ogni URL del file di dati restituito. Questa firma di accesso condiviso è firmata dall'identità gestita assegnata dal sistema della risorsa Voce abilitata per BYOS. Per questo motivo, la firma di accesso condiviso consente l'accesso ai dati, anche se l'accesso alla chiave dell'account di archiviazione è disabilitato. Vedere i dettagli qui.
Trascrizione in tempo reale con registrazione dei risultati audio e trascrizione abilitata
È possibile abilitare la registrazione sia per l'input audio che per il riconoscimento vocale quando si usa il riconoscimento vocale o la traduzione vocale. Vedere la descrizione completa in questo articolo.
Se si usa BYOS, è possibile trovare i log nel contenitore BLOB customspeech-audiologs
nell'account di archiviazione associato a BYOS.
Avviso
I dati di registrazione vengono conservati per 5 giorni. Dopo questo periodo i log vengono eliminati automaticamente. Questa opzione è valida anche per le risorse Voce abilitate per BYOS. Se si desidera mantenere i log più a lungo, copiare i file e le cartelle corrispondenti dal contenitore BLOB customspeech-audiologs
direttamente o usare l'API REST.
Ottenere i log di trascrizione in tempo reale tramite l'API REST
API REST Riconoscimento vocale supporta completamente le risorse Voce abilitate per BYOS. Tuttavia, poiché i dati vengono archiviati all'interno dell'account di archiviazione abilitato per BYOS, le richieste come Ottieni log del modello di base interagiscono con l'archiviazione BLOB dell'account di archiviazione associato a BYOS anziché con le risorse interne del servizio Voce. Consente di usare lo stesso codice basato sull'API REST per le risorse Voce "normali" e abilitate per BYOS.
Per la massima sicurezza, usare il parametro sasValidityInSeconds
con il valore impostato su 0
nelle richieste, operazione che restituisce URL di file di dati, ad esempio le richieste Ottieni log del modello di base. Ecco un URL di richiesta di esempio:
https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0
Tale richiesta restituisce URL diretti dell'account di archiviazione ai file di dati (senza firma di accesso condiviso o altre aggiunte). Ad esempio:
"links": {
"contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
}
L'URL di questo formato garantisce che solo le identità di Microsoft Entra (utenti, entità servizio, identità gestite) con diritti di accesso sufficienti (ad esempio il ruolo Lettore di dati BLOB di archiviazione) possano accedere ai dati dall'URL.
Avviso
Se il parametro sasValidityInSeconds
viene omesso nelle richieste Ottieni log del modello di base o simili, verrà generata una firma di accesso condiviso di delega utente con validità di 5 giorni per ogni URL del file di dati restituito. Questa firma di accesso condiviso è firmata dall'identità gestita assegnata dal sistema della risorsa Voce abilitata per BYOS. Per questo motivo, la firma di accesso condiviso consente l'accesso ai dati, anche se l'accesso alla chiave dell'account di archiviazione è disabilitato. Vedere i dettagli qui.
Riconoscimento vocale personalizzato
Con Riconoscimento vocale personalizzato è possibile valutare e migliorare l'accuratezza del riconoscimento vocale per le applicazioni e i prodotti in uso. È possibile usare un modello conversione voce/testo personalizzato per il riconoscimento vocale in tempo reale, la traduzione vocale e la trascrizione in batch. Per altre informazioni, vedere la panoramica del riconoscimento vocale personalizzato.
Non c'è niente di specifico sul modo in cui si usa il riconoscimento vocale personalizzato con la risorsa Voce abilitata per BYOS. L'unica differenza è la posizione in cui vengono archiviati tutti i dati correlati al modello personalizzato, che il servizio Voce raccoglie e produce automaticamente. I dati vengono archiviati nei contenitori BLOB seguenti dell'account di archiviazione associato a BYOS:
customspeech-models
: posizione dei modelli di riconoscimento vocale personalizzatocustomspeech-artifacts
: posizione di tutti gli altri dati correlati al riconoscimento vocale personalizzato
La struttura del contenitore BLOB viene fornita solo per le informazioni ed è soggetta a modifiche senza preavviso.
Attenzione
Il servizio Voce si basa sui percorsi predefiniti dei contenitori BLOB e sui nomi di file per il corretto funzionamento del modulo di riconoscimento vocale personalizzato. Non spostare, rinominare o modificare in alcun modo il contenuto del contenitore customspeech-models
e le cartelle correlate al riconoscimento vocale personalizzato del contenitore customspeech-artifacts
.
In caso contrario, è molto probabile che si verifichino errori difficili da sottoporre a debug che potrebbero causare la necessità di ripetere il training del modello personalizzato.
Non creare soluzioni che usino direttamente file e cartelle del contenitore customspeech-artifacts
. Usare gli strumenti standard, ad esempio l'API REST e Speech Studio, per interagire con i dati correlati al riconoscimento vocale personalizzato. Vedere i dettagli nella sezione Riconoscimento vocale personalizzato.
Uso dell'API REST con il riconoscimento vocale personalizzato
API REST Riconoscimento vocale supporta completamente le risorse Voce abilitate per BYOS. Tuttavia, poiché i dati vengono archiviati all'interno dell'account di archiviazione abilitato per BYOS, le richieste come Datasets_ListFiles interagiscono con l'archiviazione BLOB dell'account di archiviazione associato a BYOS anziché con le risorse interne del servizio Voce. Consente di usare lo stesso codice basato sull'API REST per le risorse Voce "normali" e abilitate per BYOS.
Per la massima sicurezza, usare il parametro sasValidityInSeconds
con il valore impostato su 0
nelle richieste, operazione che restituisce URL di file di dati, ad esempio le richieste Ottieni file di set di dati. Ecco un URL di richiesta di esempio:
https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0
Tale richiesta restituisce URL diretti dell'account di archiviazione ai file di dati (senza firma di accesso condiviso o altre aggiunte). Ad esempio:
"links": {
"contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
}
L'URL di questo formato garantisce che solo le identità di Microsoft Entra (utenti, entità servizio, identità gestite) con diritti di accesso sufficienti (ad esempio il ruolo Lettore di dati BLOB di archiviazione) possano accedere ai dati dall'URL.
Avviso
Se il parametro sasValidityInSeconds
viene omesso nelle richieste Ottieni file di set di dati o simili, verrà generata una firma di accesso condiviso di delega utente con validità di 5 giorni per ogni URL del file di dati restituito. Questa firma di accesso condiviso è firmata dall'identità gestita assegnata dal sistema della risorsa Voce abilitata per BYOS. Per questo motivo, la firma di accesso condiviso consente l'accesso ai dati, anche se l'accesso alla chiave dell'account di archiviazione è disabilitato. Vedere i dettagli qui.