Este artigo responde às perguntas frequentes sobre a capacidade de conversão de fala em texto. Caso não encontre respostas para suas perguntas aqui, confira outras opções de suporte.
Geral
Qual é a diferença entre um modelo de base e um modelo personalizado de conversão de fala em texto?
Um modelo de conversão de fala em texto de linha de base é treinado com os dados de propriedade da Microsoft e já está implantado na nuvem. Você pode criar e usar um modelo personalizado a fim de adequá-lo melhor a um ambiente que tenha um ruído ambiente ou um idioma específico. Chãos de fábrica, carros, ruas barulhentas exigiriam um modelo acústico adaptado. Tópicos como biologia, física, radiologia, nomes de produtos e acrônimos personalizados exigem um modelo de linguagem adaptado. Se você deseja treinar um modelo personalizado, comece com um texto relacionado para aprimorar o reconhecimento de termos e frases especiais.
Por onde começar se eu quiser usar um modelo de base?
Primeiro, obtenha a chave e a região do recurso de Fala no portal do Azure. Caso deseje fazer chamadas REST a um modelo de linha de base pré-implantado, confira a documentação das APIs REST. Caso deseje usar o WebSockets, baixe o SDK de Fala.
Preciso sempre criar um modelo de fala personalizada?
Não. Se o aplicativo usa linguagem genérica diária, você não precisa personalizar um modelo. Se o aplicativo é usado em um ambiente em que há pouco ou nenhum ruído de fundo, você não precisa personalizar um modelo.
Você pode implantar modelos personalizados e de linha de base no portal e, em seguida, executar testes de precisão neles. Você pode usar esse recurso para medir a precisão de um modelo de base em comparação com um modelo personalizado.
Como posso saber quando o processamento do meu conjunto de dados ou do modelo está completo?
Atualmente, a única maneira de saber isso é ver o status do modelo ou do conjunto de dados na tabela. Quando o processamento for concluído, o status será Bem-sucedido.
Posso criar mais de um modelo?
Não há um limite para o número de modelos que você pode ter na sua coleção.
Percebi que cometi um erro. Como fazer para cancelar uma importação de dados ou a criação de um modelo em andamento?
Atualmente, não é possível reverter um processo de adaptação acústica ou de linguagem. Você pode excluir modelos e dados importados quando estão em um estado terminal.
Obtenho vários resultados para cada frase com o formato de saída detalhado. Qual deles devo usar?
Sempre use o primeiro resultado, mesmo que outro ("N-melhor") tenha um valor de confiança maior. O serviço de Fala considera o primeiro resultado como o melhor. O resultado também pode ser uma cadeia de caracteres vazia se nenhuma fala foi reconhecida.
Os outros resultados provavelmente são piores e podem não ter a capitalização e pontuação total aplicadas. Esses resultados são mais úteis em cenários especiais, como oferecer aos usuários a opção de escolher correções em uma lista ou tratar comandos reconhecidos incorretamente.
Por que há vários modelos base?
Você pode escolher entre mais de um modelo base no serviço de Fala. Cada nome de modelo contém a data em que foi adicionado. Ao começar a treinar um modelo personalizado, use o modelo mais recente para obter a melhor precisão. Os modelos base mais antigos ainda ficam disponíveis por algum tempo depois que um novo modelo é disponibilizado. Você pode continuar usando o modelo com o qual trabalhou até que ele seja desativado (confira Ciclo de vida do modelo e do ponto de extremidade). Ainda recomendamos mudar para o modelo base mais recente para obter uma precisão maior.
Posso atualizar meu modelo existente (empilhamento de modelo)?
Não é possível atualizar um modelo existente. Como solução, combine o conjunto de dados antigo ao novo conjunto de dados e readapte-os.
O conjunto de dados antigo e o novo devem ser combinados em um único arquivo .zip (para dados acústicos) ou em um arquivo .txt (para dados de linguagem). Quando a adaptação for concluída, reimplante o novo modelo atualizado para obter um novo ponto de extremidade.
Quando uma nova versão de um modelo de base está disponível, minha implantação é atualizada automaticamente?
As implantações não são atualizadas automaticamente.
Se você adaptou e implantou um modelo, a implantação existente permanecerá como está. Você pode desativar o modelo implantado, readaptá-lo usando a última versão do modelo base e reimplantá-lo para obter uma melhor precisão.
Os modelos base e os modelos personalizados são desativados após algum tempo (confira Ciclo de vida de modelo e ponto de extremidade).
Posso baixar meu modelo e executá-lo localmente?
Você pode executar um modelo personalizado localmente em um contêiner do Docker.
Posso copiar ou mover meus conjuntos de dados, modelos e implantações para outra região ou assinatura?
Você pode usar a API REST Models_Copy para copiar um modelo personalizado para outra região ou assinatura. Conjuntos de dados e implantações não podem ser copiados. Você pode importar um conjunto de dados novamente em outra assinatura e criar pontos de extremidade nela usando as cópias do modelo.
Minhas solicitações são registradas em log?
Por padrão, as solicitações não são registradas em log (nem em áudio ou transcrição). Se necessário, você pode selecionar a opção Registrar o conteúdo desse ponto de extremidade em log ao criar um ponto de extremidade personalizado. Habilite também o log de áudio no SDK de Fala por solicitação sem a necessidade de criar um ponto de extremidade personalizado. Em ambos os casos, os resultados de áudio e de reconhecimento de solicitações serão armazenados no armazenamento seguro. As assinaturas que usam o armazenamento de propriedade da Microsoft ficam disponíveis por 30 dias.
Você pode exportar os arquivos registrados na página de implantação no Speech Studio se usar um ponto de extremidade personalizado com a opção Registrar o conteúdo desse ponto de extremidade habilitada. Se o registro em log de áudio for habilitado por meio do SDK, chame a API para acessar os arquivos. Você também pode usar a API para excluir os logs a qualquer momento.
Minhas solicitações são limitadas?
Para saber mais, confira Limites e cotas do serviço de Fala.
Como sou cobrado pelo áudio de dois canais?
Se enviar cada canal separadamente em um arquivo próprio, você será cobrado pela duração do áudio de cada arquivo. Se você enviar um arquivo individual com os canais multiplexados juntos, será cobrado pela duração do arquivo individual. Para saber mais sobre preços, consulte a página de preços dos Serviços de IA do Azure.
Importante
Caso tenha outros problemas de privacidade que impeçam você de usar o serviço de voz personalizada, entre em contato com um dos canais de suporte.
Aumentando a simultaneidade
Para saber mais, confira Limites e cotas do serviço de Fala.
Importando dados
Qual é o limite de tamanho de um conjunto de dados, e por que esse é o limite?
O limite é devido à restrição no tamanho dos arquivos para upload HTTP. Para ver o limite real, confira Cotas e limites do serviço de Fala. Você pode dividir seus dados em vários conjuntos de dados e selecionar todos eles para treinar o modelo.
Posso compactar meus arquivos de texto para carregar um arquivo de texto maior?
Não. No momento são permitidos apenas os arquivos de texto não compactados.
O relatório de dados indica que houve enunciados com falha. Qual é o problema?
Uma falha em carregar 100% dos enunciados em um arquivo não é problema. Se a maioria dos enunciados em um conjunto de dados acústicos ou linguísticos (por exemplo, mais de 95%) for importada com sucesso, o conjunto de dados poderá ser usado. No entanto, ainda recomendamos que você tente entender por que os enunciados falharam e corrija o problema. Os problemas mais comuns, como a formatação de erros, são difíceis de resolver.
Criar um modelo acústico
Quantos dados acústicos são necessários?
Recomendamos começar com um intervalo de 30 minutos a uma hora de dados acústicos.
Quais dados devem ser coletados?
Colete dados que sejam os mais próximos possíveis do cenário do aplicativo e do caso de uso. A coleta de dados deve corresponder ao aplicativo de destino e aos usuários em termos de dispositivo ou dispositivos, ambientes e tipos de alto-falantes. Em geral, você deve coletar dados de uma variedade de falantes o mais ampla possível.
Como devo coletar dados acústicos?
Você pode criar um aplicativo autônomo de coleta de dados ou usar um software de gravação de áudio pronto para uso. Você também pode criar uma versão do seu aplicativo que registre os dados de áudio e usá-los.
Preciso transcrever os dados de adaptação?
Sim. Você pode transcrever você mesmo ou usar um serviço profissional de transcrição. Alguns usuários preferem transcritores profissionais, e outros usam crowdsourcing ou eles mesmos transcrevem os dados.
Quanto tempo leva para treinar um modelo personalizado com os dados de áudio?
Treinar um modelo com os dados de áudio pode ser um processo longo. Dependendo da quantidade de dados, pode levar vários dias para criar um modelo personalizado. Se ele não puder ser concluído em uma semana, o serviço poderá anular a operação de treinamento e relatar o modelo como com falha.
Em geral, o serviço de Fala processa aproximadamente dez horas de dados de áudio por dia em regiões que têm um hardware dedicado. O treinamento somente com texto é mais rápido e normalmente termina em minutos.
Use uma das regiões em que o hardware dedicado está disponível para treinamento. O serviço de Fala usa até 100 horas de áudio para treinamento nessas regiões.
Teste de precisão
O que é o WER (taxa de erros de palavras) e como ele é calculado?
O WER é a métrica de avaliação para o reconhecimento de fala. O WER é calculado como o número total de erros (inserções, exclusões e substituições), dividido pelo número total de palavras na transcrição de referência. Para obter mais informações, confira o Modelo de teste quantitativamente.
Como fazer para determinar se os resultados de um teste de precisão são adequados?
Os resultados mostram uma comparação entre o modelo de base e o modelo personalizado. Para que a personalização seja útil, você deve tentar superar o modelo de base.
Como fazer para determinar o WER de um modelo base para ver se houve um aprimoramento?
Os resultados do teste offline mostram a precisão da linha de base do modelo personalizado e a melhoria em relação à linha de base.
Criar um modelo de linguagem
Qual é a quantidade de dados de texto que preciso carregar?
Isso depende da diferença entre as frases e o vocabulário usados no aplicativo e os modelos de linguagem iniciais. Para todas as palavras novas, é útil fornecer o maior número possível de exemplos do uso dessas palavras. Para frases comuns que são usadas no seu aplicativo, incluir frases nos dados do idioma fornecendo vários exemplos é útil, porque instrui o sistema a escutar esses termos também. É comum ter, pelo menos, 100 e, normalmente, várias centenas ou mais enunciados no conjunto de dados do idioma. Além disso, se alguns tipos de consultas são mais comuns do que outras, você pode inserir várias cópias das consultas comuns no conjunto de dados.
Posso simplesmente carregar uma lista de palavras?
Carregar uma lista de palavras as adiciona ao vocabulário, mas não ensina ao sistema como as palavras são normalmente usadas. Fornecendo enunciados completos ou parciais (orações ou frases de itens que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizado é bom não apenas para incluir novas palavras no sistema, mas também para ajustar a probabilidade de palavras conhecidas para sua aplicação. Fornecer utterances completas ajuda o sistema Saiba mais.