Compartilhar via


Avaliação de pronúncia no Estúdio de IA

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

A avaliação de pronúncia usa a capacidade de conversão de fala em texto para fornecer comentários subjetivos e objetivos para os aprendizes de idioma. Praticar a pronúncia e obter comentários oportunos é essencial para melhorar as habilidades de linguagem. As avaliações orientadas por professores experientes podem levar muito tempo e esforço, tornando uma avaliação de alta qualidade cara para os alunos. A avaliação de pronúncia pode ajudar a tornar a avaliação de idioma mais envolvente e acessível aos alunos de todas as origens.

Observação

Para obter informações sobre a disponibilidade da avaliação de pronúncia, consulte idiomas com suporte e regiões disponíveis.

Este artigo descreve como usar a ferramenta de avaliação de pronúncia sem escrever nenhum código pelo Estúdio de IA. Para obter informações sobre como integrar a avaliação de pronúncia em seus aplicativos de fala, consulte Como usar a avaliação de pronúncia.

Cenários de leitura e fala

Para avaliação de pronúncia, há dois cenários: Leitura e Fala.

  • Leitura: esse cenário foi projetado para avaliação com script. Ele requer que o aprendiz leia um determinado texto. O texto de referência é fornecido com antecedência.
  • Fala: esse cenário foi projetado para avaliação sem script. Ele requer que o aprendiz fale sobre um determinado texto. O texto de referência não é fornecido com antecedência.

Realizar uma avaliação com script

Siga estas etapas para avaliar a pronúncia do texto de referência:

  1. Acesse a Avaliação de pronúncia no Estúdio de IA.

    Captura de tela de como ir para a Avaliação de pronúncia no Estúdio de IA.

  2. Na guia Leitura, escolha um idioma com suporte no qual você deseja avaliar a pronúncia.

    Captura de tela da escolha de um idioma com suporte na guia de leitura em que você quer avaliar a pronúncia.

  3. Você pode usar exemplos de texto provisionados ou inserir seu script.

    Ao ler o texto, você deve estar perto do microfone para garantir que a voz gravada não esteja muito baixa.

    Captura de tela de onde gravar áudio com um microfone na guia de leitura.

    Caso contrário, você poderá carregar áudio gravado para avaliação de pronúncia. Depois de carregado com êxito, o áudio é avaliado automaticamente pelo sistema, conforme mostrado na captura de tela a seguir.

    Captura de tela do upload de áudio para ser avaliado.

Realizar uma avaliação sem script

Se você quiser realizar uma avaliação sem script, selecione a guia Fala. Esse recurso permite que você realize uma avaliação sem script sem fornecer texto de referência com antecedência. Veja como proceder:

  1. Acesse a Avaliação de pronúncia no Estúdio de IA.

  2. Na guia Fala, escolha um idioma com suporte no qual você deseja avaliar a pronúncia.

    Captura de tela da escolha de um idioma com suporte na guia de fala em que você quer avaliar a pronúncia.

  3. Em seguida, você pode selecionar entre os tópicos de exemplo fornecidos ou inserir seu tópico. Essa escolha permite que você avalie sua capacidade de falar sobre um determinado assunto sem um script predefinido.

    Captura de tela da entrada de um tópico na guia de fala para avaliar sua capacidade de falar sobre determinado assunto sem um script predefinido.

    Ao gravar sua fala para avaliação de pronúncia, é importante garantir que o tempo de gravação fique dentro do intervalo recomendado de 15 segundos (equivalente a mais de 50 palavras) a dez minutos. Esse intervalo de tempo é ideal para avaliar o conteúdo da fala com precisão. Para receber uma pontuação de tópico, o áudio falado deve conter pelo menos três frases.

    Você também poderá carregar áudio gravado para avaliação de pronúncia. Depois de carregado com êxito, o áudio é avaliado automaticamente pelo sistema.

Resultados da avaliação de pronúncia

Depois de gravar sua fala ou carregar o áudio gravado, o Resultado da avaliação é a saída. O resultado inclui o áudio falado e os comentários sobre sua avaliação de fala. Você pode ouvir o áudio falado e baixá-lo, se necessário.

Você também pode verificar o resultado da avaliação de pronúncia no JSON. As pontuações de precisão de nível de palavra, nível de sílaba e nível de fonema são incluídas no arquivo JSON.

Captura de tela mostrando o resultado da avaliação na janela de exibição, que inclui transcrição e comentários na sua fala.

A palavra é realçada de acordo com o tipo de erro. Os tipos de erro na avaliação de pronúncia são representados usando cores diferentes. Essa distinção visual facilita a identificação e a análise de erros específicos. Ele fornece uma visão geral dos tipos e frequências de erros no áudio falado, ajudando você a concentrar-se nas áreas que precisam de melhorias. Você pode ativar/desativar cada tipo de erro para se concentrar em tipos específicos de erros ou excluir determinados tipos da exibição. Esse recurso fornece flexibilidade na forma como você analisa e analisa os erros em seu áudio falado. Ao passar o mouse sobre cada palavra, você pode ver pontuações de precisão para a palavra inteira ou fonemas específicos.

Na parte inferior do Resultado da avaliação, os resultados da pontuação são exibidos. Para avaliação de pronúncia com script, somente a pontuação de pronúncia (incluindo pontuação de precisão, fluência, integridade e prosódia) é fornecida. Para avaliação de pronúncia sem script, a pontuação de pronúncia (incluindo pontuação de precisão, fluência e prosódia) e a pontuação de conteúdo (incluindo pontuação de vocabulário, gramática e tópico) são exibidas.

Granularidade da avaliação de pronúncia

A avaliação de pronúncia fornece vários resultados de avaliação em granularidades diferentes, desde fonemas individuais até toda a entrada de texto.

  • No nível de texto completo, a avaliação de pronúncia oferece pontuações adicionais de Fluência, Integridade e Prosódia: a Fluência indica a proximidade com que a fala corresponde ao uso de quebras silenciosas entre palavras por um orador nativo, e a Integridade indica quantas palavras são pronunciadas na fala para a entrada de texto de referência; a Prosódia indica quão bem um narrador transmite elementos de naturalidade, expressividade e prosódia em geral em sua fala. Uma pontuação geral agregada de Precisão, Fluência, Integridade e Prosódia é fornecida para indicar a qualidade geral da pronúncia da fala fornecida. A avaliação de pronúncia também oferece pontuação de conteúdo (Vocabulário, Gramática e Tópico) no nível de texto completo.
  • No nível da palavra, a avaliação de pronúncia pode detectar erros e fornecer a pontuação de precisão simultaneamente, o que fornece informações mais detalhadas sobre omissão, repetição, inserções e erro de pronúncia na fala fornecida.
  • No momento, as pontuações de precisão no nível de sílaba só estão disponíveis por meio do arquivo JSON ou SDK de Fala.
  • No nível do fonema, a avaliação de pronúncia fornece pontuações de precisão de cada fonema, ajudando os alunos a entender melhor os detalhes de pronúncia de sua fala.

Além das pontuações de linha de base de precisão, fluência e integridade, o recurso de avaliação de pronúncia no Estúdio de IA inclui pontuações mais abrangentes para fornecer comentários detalhados sobre vários aspectos do desempenho e compreensão da fala. As pontuações aprimoradas são as seguintes: pontuação de prosódia, vocabulário, gramática e tópico. Essas pontuações oferecem insights valiosos sobre prosódia de fala, uso de vocabulário, exatidão gramatical e compreensão de tópicos.

Captura de tela da pontuação geral de pronúncia e da pontuação geral de conteúdo no Estúdio de IA.

Na parte inferior do resultado da Avaliação, duas pontuações gerais são exibidas: pontuação de pronúncia e pontuação de conteúdo. Na guia Leitura, você encontra a pontuação de pronúncia exibida. Na guia de fala, a Pontuação de pronúncia e a Pontuação de conteúdo são exibidas.

Pontuação de pronúncia: essa pontuação representa uma avaliação agregada da qualidade da pronúncia e inclui quatro subfatores. Essas pontuações estão disponíveis nas guias de leitura e de fala para avaliações com script e sem script.

  • Pontuação de precisão: avalia a exatidão da pronúncia.
  • Pontuação de fluência: mede o nível de uniformidade e naturalidade na fala.
  • Pontuação de integridade: reflete o número de palavras pronunciadas corretamente.
  • Pontuação de prosódia: avalia o uso de entonação, ritmo e acento apropriados. Vários outros tipos de erro relacionados à avaliação de prosódia são introduzidos, como Interrupção inesperada, Interrupção ausente e Monotonalidade. Esses tipos de erro fornecem informações mais detalhadas sobre erros de pronúncia em comparação com o mecanismo anterior.

Pontuação de conteúdo: essa pontuação fornece uma avaliação agregada do conteúdo da fala e inclui três subaspectos. Essa pontuação só está disponível na guia de fala para uma avaliação sem script.

  • Pontuação de vocabulário: avalia o uso efetivo de palavras do orador e sua adequação dentro do contexto fornecido para expressar ideias com precisão, bem como o nível de complexidade léxica.
  • Pontuação gramatical: avalia a exatidão do uso gramatical e a variedade de padrões de frase. Ela considera a precisão léxica, a precisão gramatical e a diversidade de estruturas de frases, fornecendo uma avaliação mais abrangente da proficiência da linguagem.
  • Pontuação do tópico: avalia o nível de compreensão e envolvimento com o tópico discutido na fala. Ela avalia a capacidade do orador de expressar efetivamente ideias e opiniões relacionadas ao tópico especificado.

Essas pontuações gerais oferecem uma avaliação abrangente da pronúncia e do conteúdo, fornecendo aos alunos comentários valiosos sobre vários aspectos do desempenho e compreensão de fala deles. Com esses recursos aprimorados, os alunos de idiomas podem obter insights mais profundos sobre suas vantagens e áreas de aprimoramento, tanto na pronúncia quanto na expressão do conteúdo.

Observação

As avaliações de conteúdo e prosódia só estão disponíveis na localidade en-US.

Pontuações de avaliação no modo de streaming

A avaliação de pronúncia dá suporte ao modo de streaming ininterrupto. A demonstração do Estúdio de IA permite até 60 minutos de gravação no modo de streaming para avaliação. Desde que você não pressione o botão parar gravação, o processo de avaliação não é concluído e você pode pausar e retomar a avaliação quando for conveniente.

A avaliação da pronúncia avalia vários aspectos da pronúncia. Na parte inferior do Resultado da avaliação, você pode ver a Pontuação de pronúncia como pontuação geral agregada, que inclui quatro sub-aspectos: Pontuação de precisão, Pontuação de fluência, Pontuação de integridade e Pontuação de prosódia. No modo de streaming, uma vez que a Pontuação de precisão, Pontuação de fluênciae Pontuação prosódia variam com o tempo durante o processo de gravação, demonstramos uma abordagem no Estúdio deIA para exibir a pontuação geral aproximada de forma incremental antes do final da avaliação, que pondera apenas a Pontuação de precisão, Pontuação de fluência e Pontuação de prosódia. A Pontuação de Integridade só é calculada no final da avaliação depois que você pressiona o botão parar, portanto, a pontuação geral final de pronúncia é a agregação ponderada da Pontuação de precisão, da Pontuação de fluência, da Pontuação de integridade e da Pontuação de prosódia.

Veja os exemplos de demonstração abaixo para todo o processo de avaliação da pronúncia no modo de streaming.

Iniciar gravação

Ao iniciar a gravação, as pontuações na parte inferior começam a ser alteradas a partir de 0.

Captura de tela das pontuações da avaliação geral ao começar a gravar.

Durante a gravação

Durante a gravação de um parágrafo longo, você pode pausar a gravação a qualquer momento. Você pode continuar avaliando sua gravação, desde que não pressione o botão parar.

Captura de tela da pontuação geral das avaliações durante a gravação.

Concluir gravação

Depois de pressionar o botão parar, você pode ver a Pontuação de pronúncia, a Pontuação de precisão, a Pontuação de fluência, a Pontuação de integridade e a Pontuação de prosódia na parte inferior.

Captura de tela da pontuação geral das avaliações após a gravação.

Preços

Como linha de base, o uso da avaliação de pronúncia custa o mesmo preço que o pagamento conforme o uso da conversão de fala em texto para o nível pago conforme o uso ou o nível de compromisso. Se você comprar um nível de compromisso para conversão de fala em texto, o gasto pela avaliação de pronúncia servirá para atender ao compromisso.

O recurso de avaliação de pronúncia também oferece outras pontuações que não estão incluídas no preço de linha de base de conversão de fala em texto: prosódia, gramática, tópico e vocabulário. Essas pontuações estão disponíveis como um encargo complementar somado ao preço de linha de base da conversão de fala em texto. Para obter mais informações sobre preços, confira preços da conversão de fala em texto.

Aqui está uma tabela de pontuações de avaliação de pronúncia disponíveis, se ela está disponível em avaliações com script ou sem script e se ela está incluída ou não no preço de linha de base da conversão de fala em texto ou no preço complementar.

Pontuação Com script ou sem script Incluído no preço de linha de base da conversão de fala em texto?
Precisão Com script e sem script Sim
Fluência Com script e sem script Sim
Integridade Com script Sim
Erro Com script e sem script Sim
Prosódia Com script e sem script Não
Gramática Somente sem script Não
Tópico Somente sem script Não
Vocabulário Somente sem script Não

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que irão usá-la, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.

Próximas etapas