Gerenciar problemas com entrada de áudio

Artigo
04/06/2023

Saiba como gerenciar problemas na precisão do reconhecimento de fala causados pela qualidade da entrada de áudio.

APIs importantes: SpeechRecognizer, RecognitionQualityDegrading, SpeechRecognitionAudioProblem

Avaliar a qualidade da entrada de áudio

Quando o reconhecimento de fala estiver ativo, use o evento RecognitionQualityDegrading de seu reconhecedor de fala para determinar se um ou mais problemas de áudio podem estar interferindo na entrada de fala. O argumento do evento (SpeechRecognitionQualityDegradingEventArgs) fornece a propriedade Problem, que descreve os problemas detectados com a entrada de áudio.

O reconhecimento pode ser afetado por excesso de ruído de fundo, um microfone mudo e o volume ou a velocidade do alto-falante.

Aqui, configuramos um reconhecedor de fala e começamos a escutar o evento RecognitionQualityDegrading.

private async void WeatherSearch_Click(object sender, RoutedEventArgs e)
{
    // Create an instance of SpeechRecognizer.
    var speechRecognizer = new Windows.Media.SpeechRecognition.SpeechRecognizer();

    // Listen for audio input issues.
    speechRecognizer.RecognitionQualityDegrading += speechRecognizer_RecognitionQualityDegrading;

    // Add a web search grammar to the recognizer.
    var webSearchGrammar = new Windows.Media.SpeechRecognition.SpeechRecognitionTopicConstraint(Windows.Media.SpeechRecognition.SpeechRecognitionScenario.WebSearch, "webSearch");


    speechRecognizer.UIOptions.AudiblePrompt = "Say what you want to search for...";
    speechRecognizer.UIOptions.ExampleText = "Ex. 'weather for London'";
    speechRecognizer.Constraints.Add(webSearchGrammar);

    // Compile the constraint.
    await speechRecognizer.CompileConstraintsAsync();

    // Start recognition.
    Windows.Media.SpeechRecognition.SpeechRecognitionResult speechRecognitionResult = await speechRecognizer.RecognizeWithUIAsync();
    //await speechRecognizer.RecognizeWithUIAsync();

    // Do something with the recognition result.
    var messageDialog = new Windows.UI.Popups.MessageDialog(speechRecognitionResult.Text, "Text spoken");
    await messageDialog.ShowAsync();
}

Gerenciar a experiência de reconhecimento de fala

Use a descrição fornecida pela propriedade Problem para ajudar o usuário a melhorar condições para o reconhecimento.

Aqui, criamos um manipulador para o evento RecognitionQualityDegrading que verifica se há um nível de volume baixo. Em seguida, usamos um objeto SpeechSynthesizer para sugerir que o usuário tente falar mais alto.

private async void speechRecognizer_RecognitionQualityDegrading(
    Windows.Media.SpeechRecognition.SpeechRecognizer sender,
    Windows.Media.SpeechRecognition.SpeechRecognitionQualityDegradingEventArgs args)
{
    // Create an instance of a speech synthesis engine (voice).
    var speechSynthesizer =
        new Windows.Media.SpeechSynthesis.SpeechSynthesizer();

    // If input speech is too quiet, prompt the user to speak louder.
    if (args.Problem == Windows.Media.SpeechRecognition.SpeechRecognitionAudioProblem.TooQuiet)
    {
        // Generate the audio stream from plain text.
        Windows.Media.SpeechSynthesis.SpeechSynthesisStream stream;
        try
        {
            stream = await speechSynthesizer.SynthesizeTextToStreamAsync("Try speaking louder");
            stream.Seek(0);
        }
        catch (Exception)
        {
            stream = null;
        }

        // Send the stream to the MediaElement declared in XAML.
        await CoreApplication.MainView.CoreWindow.Dispatcher.RunAsync(Windows.UI.Core.CoreDispatcherPriority.High, () =>
        {
            this.media.SetSource(stream, stream.ContentType);
        });
    }
}

Interações de controle por voz

Amostras

Exemplo de reconhecimento de fala e sintetização de controle por voz

Partilhar via

Gerenciar problemas com entrada de áudio

Avaliar a qualidade da entrada de áudio

Gerenciar a experiência de reconhecimento de fala

Recursos adicionais

Partilhar via

Gerenciar problemas com entrada de áudio

Avaliar a qualidade da entrada de áudio

Gerenciar a experiência de reconhecimento de fala

Artigos relacionados

Recursos adicionais