Individuare i file audio per la trascrizione batch
La trascrizione batch viene usata per trascrivere una grande quantità di dati audio nella risorsa di archiviazione. La trascrizione batch può accedere ai file audio dall'interno o dall'esterno di Azure.
Quando i file audio di origine vengono archiviati fuori da Azure, è possibile accedervi tramite un URI pubblico (ad esempio "https://crbn.us/hello.wav"). I file devono essere direttamente accessibili; gli URI che richiedono l'autenticazione o che richiamano script interattivi prima di poter accedere al file non sono supportati.
È possibile accedere ai file audio archiviati nell'archiviazione BLOB di Azure tramite uno dei due metodi seguenti:
- Meccanismo di sicurezza dei servizi di Azure attendibili
- URI della firma di accesso condiviso (SAS).
Puoi specificare uno o più file audio durante la creazione di una trascrizione. Consigliamo di fornire più file per richiesta o puntare a un contenitore di archiviazione BLOB di Azure con i file audio da trascrivere. Il servizio di trascrizione batch può gestire un numero elevato di trascrizioni inviate. Il servizio trascrive i file simultaneamente, il che riduce il tempo di risoluzione.
Formati audio e codec supportati
L'API di trascrizione in batch e l'API di trascrizione rapida supportano molti formati e codec diversi, ad esempio:
- WAV
- MP3
- OPUS/OGG
- FLAC
- WMA
- AAC
- ALAW nel contenitore WAV
- MULAW nel contenitore WAV
- AMR
- WebM
- M4A
- SPEEX
Nota
Il servizio di trascrizione batch integra GStreamer e potrebbe accettare più formati e codec senza restituire errori. È consigliabile usare formati senza perdita di dati, ad esempio WAV (codifica PCM) e FLAC per garantire una migliore qualità della trascrizione.
Caricamento di Archiviazione BLOB di Azure
Quando i file audio si trovano in un account di archiviazione BLOB di Azure, puoi richiedere la trascrizione di singoli file audio o di un intero contenitore di Archiviazione BLOB di Azure. Puoi anche scrivere i risultati di trascrizione in un contenitore BLOB.
Nota
Per i limiti di BLOB e contenitori, vedi Quote e limiti della trascrizione batch.
Segui questa procedura per creare un account di archiviazione e caricare i file wav dalla directory locale a un nuovo contenitore.
- Passare al portale di Azure e accedere all'account Azure.
- Creare una risorsa dell'account di archiviazione nel portale di Azure. Usare la stessa sottoscrizione e lo stesso gruppo di risorse della risorsa Voce.
- Selezionare l'account di archiviazione.
- Nel gruppo Archiviazione dati nel riquadro sinistro selezionare Contenitori.
- Selezionare + Contenitore.
- Immetti un nome per il nuovo contenitore e seleziona Crea.
- Seleziona il nuovo contenitore.
- Selezionare Carica.
- Scegli i file da caricare e seleziona Carica.
Meccanismo di sicurezza dei servizi di Azure attendibili
Per altre informazioni su come configurare e limitare l'accesso ai file audio dell'origine di trascrizione batch in un account di archiviazione di Azure, vedi Meccanismo di sicurezza dei servizi di Azure attendibili.
Nota
Con il meccanismo di sicurezza dei servizi di Azure attendibili è necessario usare Archiviazione BLOB di Azure per archiviare i file audio. L'utilizzo di File di Azure non è supportato.
Se si eseguono tutte le azioni descritte in questa sezione, l'account di archiviazione viene configurato come segue:
- L'accesso a tutto il traffico di rete esterno non è consentito.
- L'accesso all'account di archiviazione tramite la chiave dell'account di archiviazione non è consentito.
- L'accesso all'archiviazione BLOB dell'account di archiviazione tramite firme di accesso condiviso (SAS) non è consentito.
- L'accesso alla risorsa vocale selezionata è consentito usando l'identità gestita assegnata dal sistema di risorse.
Di conseguenza, l'account di archiviazione diventa completamente "bloccato" e non può essere usato in alcun scenario a parte la trascrizione di file audio già presenti al momento dell'applicazione della nuova configurazione. È consigliabile considerare questa configurazione come modello per quanto riguarda la sicurezza dei dati audio e personalizzarla in base alle tue esigenze.
Ad esempio, è possibile consentire il traffico da reti virtuali di Azure e indirizzi IP pubblici selezionati. È anche possibile configurare l'accesso all'account di archiviazione usando endpoint privati (vedere anche questa esercitazione), riabilitare l'accesso usando la chiave dell'account di archiviazione, consentire l'accesso ad altri servizi attendibili di Azure e così via.
Nota
L'uso di endpoint privati per il servizio Voce non è necessario per proteggere l'account di archiviazione. È possibile usare un endpoint privato per le richieste API di trascrizione batch mentre accedi separatamente ai file audio di origine da un account di archiviazione sicuro o viceversa.
Seguendo questa procedura si limiterà significativamente l'accesso all'account di archiviazione. È quindi necessario assegnare le autorizzazioni minime necessarie all'identità gestita della risorsa Voce per accedere all'account di archiviazione.
Abilitare l'identità gestita assegnata dal sistema per la risorsa Voce
Seguire questa procedura per abilitare l'identità gestita assegnata dal sistema per la risorsa Voce da usare per la trascrizione batch.
Passare al portale di Azure e accedere all'account Azure.
Seleziona la risorsa Voce.
Nel gruppo Gestione risorse nel riquadro sinistro seleziona Identità.
Nella scheda Assegnati dal sistema, seleziona On per lo stato.
Importante
L'identità gestita assegnata dall'utente non soddisfa i requisiti per lo scenario dell'account di archiviazione di trascrizione batch. Assicurarsi di abilitare l'identità gestita assegnata dal sistema.
Seleziona Salva
Ora l'identità gestita per la risorsa Voce può essere concessa all'account di archiviazione.
Limitare l'accesso all'account di archiviazione
Segui questa procedura per limitare l'accesso all'account di archiviazione.
Importante
Carica i file audio in un contenitore BLOB prima di bloccare l'accesso all'account di archiviazione.
- Passare al portale di Azure e accedere all'account Azure.
- Seleziona l'account di archiviazione.
- Nel gruppo Impostazioni nel riquadro sinistro, seleziona Configurazione.
- Seleziona Disabilitato per Consenti l'accesso pubblico ai BLOB.
- Seleziona Disabilitato per Consenti l'accesso alla chiave dell'account di archiviazione
- Seleziona Salva.
Per altre informazioni, vedi Impedire l'accesso in lettura pubblico anonimo a contenitori e BLOB e Impedire l'autorizzazione con chiave condivisa per un account di archiviazione di Azure.
Configurare il firewall di Archiviazione di Azure
Se è disponibile solo l’accesso limitato all'account di archiviazione, dovrai concedere l'accesso a identità gestite specifiche. Segui questa procedura per aggiungere l'accesso alla risorsa Voce.
Passare al portale di Azure e accedere all'account Azure.
Seleziona l'account di archiviazione.
Dal gruppo Sicurezza e rete nel riquadro sinistro, seleziona Rete.
Nella scheda Firewall e reti virtuali seleziona Abilitato da reti virtuali e indirizzi IP selezionati.
Deseleziona tutte le caselle di controllo.
Assicurati che Routing di rete Microsoft sia selezionato.
Nella sezione Istanze di risorse, seleziona Microsoft.CognitiveServices/accounts come tipo di risorsa e seleziona la risorsa Voce come nome dell'istanza.
Seleziona Salva.
Nota
La propagazione delle modifiche di rete può richiedere fino a 5 minuti.
Anche se attualmente l'accesso alla rete è consentito, la risorsa Voce non può ancora accedere ai dati nell'account di archiviazione. È necessario assegnare un ruolo di accesso specifico per l'identità gestita delle risorse voce.
Assegnare il ruolo di accesso alle risorse
Segui questa procedura per assegnare il ruolo Lettore dati BLOB di archiviazione all'identità gestita della risorsa Voce.
Importante
Per eseguire l'operazione nei passaggi successivi è necessario che ti venga assegnato il ruolo Proprietario dell’account di archiviazione o un ambito superiore (ad esempio Sottoscrizione). Ciò è dovuto al fatto che solo il ruolo Proprietario può assegnare ruoli ad altri utenti. Vedere i dettagli qui.
Passare al portale di Azure e accedere all'account Azure.
Seleziona l'account di archiviazione.
Seleziona il menu Controllo di accesso (IAM) nel riquadro sinistro.
Seleziona Aggiungi assegnazione di ruolo nel riquadro Concedi accesso a questa risorsa.
Seleziona Lettore dati BLOB di archiviazione in Ruolo e quindi seleziona Avanti.
Seleziona Identità gestita in Membri>Assegna accesso a.
Assegna l'identità gestita della risorsa Voce, quindi seleziona Rivedi e assegna.
Dopo aver controllato le impostazioni, seleziona Rivedi e assegna
Ora l'identità gestita della risorsa Voce ha accesso all'account di archiviazione e può accedere ai file audio per la trascrizione batch.
Con l'identità gestita assegnata dal sistema, al momento di creare una richiesta di trascrizione batch si userà un normale URL dell'account di archiviazione (senza firma di accesso condiviso o altre aggiunte). Ad esempio:
{
"contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>"
}
In caso contrario, è possibile specificare singoli file nel contenitore. Ad esempio:
{
"contentUrls": [
"https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>",
"https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>"
]
}
URL di firma di accesso condiviso per la trascrizione batch
Una firma di accesso condiviso è un URI che concede l'accesso limitato a un contenitore di Archiviazione di Azure. Usalo quando vuoi concedere l'accesso ai file di trascrizione batch per un intervallo di tempo specifico senza condividere la chiave dell'account di archiviazione.
Suggerimento
Se il contenitore con i file di origine della trascrizione batch deve essere accessibile solo dalla risorsa Voce, usa invece il meccanismo di sicurezza dei servizi di Azure attendibili.
Segui questa procedura per generare un URL di firma di accesso condiviso che è possibile usare per le trascrizioni batch.
Completa i passaggi nel caricamento di Archiviazione BLOB di Azure per creare un account di archiviazione e caricare file audio in un nuovo contenitore.
Seleziona il nuovo contenitore.
Nel gruppo Impostazioni nel riquadro sinistro, seleziona Token di accesso condiviso.
Selezionare + Contenitore.
Per Autorizzazioni, seleziona Leggi ed Elenco.
Immetti le ore di inizio e di scadenza per l'URI di firma di accesso condiviso o lascia le impostazioni predefinite.
Selezionare Genera URL e token SAS.
L'URL di firma di accesso condiviso di usa per creare una richiesta di trascrizione batch. Ad esempio:
{
"contentContainerUrl": "https://<storage_account_name>.blob.core.windows.net/<container_name>?SAS_TOKEN"
}
In caso contrario, è possibile specificare singoli file nel contenitore. Per ogni file dovrai generare e usare un URL di firma di accesso condiviso diverso con autorizzazioni di lettura (r). Ad esempio:
{
"contentUrls": [
"https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_1>?SAS_TOKEN_1",
"https://<storage_account_name>.blob.core.windows.net/<container_name>/<file_name_2>?SAS_TOKEN_2"
]
}