Usar a API de Conversão de Fala em Texto da IA do Azure

Concluído

O serviço de Fala de IA do Azure é compatível com o reconhecimento de fala por meio de duas APIs REST:

  • A API de conversão de fala em texto, que é a principal maneira de fazer o reconhecimento de fala.
  • A API de conversão de fala em texto para áudio curto, que é otimizada para fluxos de áudio curtos, de até 60 segundos.

É possível usar a API para o reconhecimento de fala interativo, dependendo do tamanho esperado da entrada falada. Também é possível usar a API de conversão de fala em texto para a transcrição do lote, transcrevendo vários arquivos de áudio para texto como uma operação em lote.

Para obter mais informações sobre as APIs REST, consulte a documentação API REST de conversão de fala em texto. Na prática, a maioria dos aplicativos interativos habilitados para fala usa o serviço de Fala por meio de um SDK específico a uma linguagem (de programação).

Usar o SDK da Fala de IA do Azure

Embora os detalhes específicos variem, dependendo do SDK que está sendo usado (Python, C# etc.), há um padrão consistente para usar a API de conversão de fala em texto:

A diagram showing how a SpeechRecognizer object is created from a SpeechConfig and AudioConfig, and its RecognizeOnceAsync method is used to call the Speech API.

  1. Use um objeto SpeechConfig para encapsular as informações necessárias para se conectar ao seu recurso da Fala de IA do Azure. Especificamente, sua localização e chave.
  2. Como alternativa, use um AudioConfig para definir a fonte de entrada para o áudio a ser transcrito. Por padrão, a entrada é o microfone padrão do sistema, mas você também pode especificar um arquivo de áudio.
  3. Use SpeechConfig e AudioConfig para criar um objeto SpeechRecognizer. Esse objeto é um cliente proxy para a API de conversão de fala em texto.
  4. Use os métodos do objeto SpeechRecognizer para chamar as funções de API subjacentes. Por exemplo, o método RecognizeOnceAsync() usa o serviço de Fala de IA do Azure para traduzir de modo assíncrono um único enunciado falado.
  5. Processe a resposta do serviço de Fala de IA do Azure. No caso do método RecognizeOnceAsync(), o resultado é um objeto SpeechRecognitionResult que inclui as seguintes propriedades:
    • Duration
    • OffsetInTicks
    • Propriedades
    • Motivo
    • ResultId
    • Texto

Se a operação tiver sido bem-sucedida, a propriedade Reason terá o valor enumerado RecognizedSpeech e a propriedade Text conterá a transcrição. Outros valores possíveis para Resultado incluem NoMatch (indicando que o áudio foi analisado com êxito, mas nenhuma fala foi reconhecida) ou Cancelado, indicando que ocorreu um erro (nesse caso, você pode verificar a propriedade CancellationReason na coleção Propriedades para determinar o que deu errado).