Práticas recomendadas de treinamento de modelo de fala
Nota
A personalização do modelo de fala, incluindo o treinamento de pronúncia, só é suportada nas contas de avaliação do Azure do Indexador de Vídeo e nas contas do Gerenciador de Recursos. Não é suportado em contas clássicas. Para obter orientação sobre como atualizar seu tipo de conta gratuitamente, consulte Atualizar sua conta do Azure AI Video Indexer. Para obter orientação sobre como usar a experiência de idioma personalizada, consulte Personalizar um modelo de idioma.
Por meio da integração do Azure AI Video Indexer com os serviços de Fala do Azure AI, um Modelo de Linguagem Universal é utilizado como um modelo base que é treinado com dados de propriedade da Microsoft e reflete a linguagem falada comumente usada. O modelo base é pré-treinado com dialetos e fonética representando vários domínios comuns. O modelo base funciona bem na maioria dos cenários de reconhecimento de fala.
No entanto, às vezes, a transcrição do modelo base não lida com precisão com algum conteúdo. Nessas situações, um modelo de fala personalizado pode ser usado para melhorar o reconhecimento do vocabulário específico do domínio ou da pronúncia específica do seu conteúdo, fornecendo dados de texto para treinar o modelo. Através do processo de criação e adaptação de modelos de personalização de fala, o seu conteúdo pode ser devidamente transcrito. Não há cobrança adicional para usar a personalização de fala dos Indexadores de Vídeo.
Quando usar um modelo de fala personalizado?
Se o seu conteúdo contiver terminologia específica do setor ou ao analisar os resultados da transcrição do Video Indexer você notar imprecisões, poderá criar e treinar um modelo de fala personalizado para reconhecer os termos e melhorar a qualidade da transcrição. Pode valer a pena criar um modelo personalizado se se espera que as palavras e nomes relevantes apareçam repetidamente no conteúdo que você planeja indexar. O treinamento de um modelo às vezes é um processo iterativo e você pode descobrir que, após o treinamento inicial, os resultados ainda podem ser melhorados e se beneficiariam de treinamento adicional, consulte a seção Melhorar seu modelo personalizado para obter orientação.
No entanto, se você notar algumas palavras ou nomes transcritos incorretamente na transcrição, um modelo de fala personalizado pode não ser necessário, especialmente se não se espera que as palavras ou nomes sejam comumente usados no conteúdo que você planeja indexar no futuro. Você pode simplesmente editar e corrigir a transcrição no site do Video Indexer (consulte Exibir e atualizar transcrições no site do Azure AI Video Indexer) e não precisa abordá-la por meio de um modelo de fala personalizado.
Para obter uma lista de idiomas que dão suporte a modelos personalizados e pronúncia, consulte as colunas Personalização e Pronúncia da tabela de suporte a idiomas em Suporte de idiomas no Azure AI Video Indexer.
Conjuntos de dados de trem
Ao indexar um vídeo, você pode usar um modelo de fala personalizado para melhorar a transcrição. Os modelos são treinados carregando-os com conjuntos de dados que podem incluir dados de texto simples e dados de pronúncia.
O texto usado para testar e treinar um modelo personalizado deve incluir exemplos de um conjunto diversificado de conteúdo e cenários que você deseja que seu modelo reconheça. Considere os seguintes fatores ao criar e treinar seus conjuntos de dados:
- Inclua texto que abranja os tipos de declarações verbais que os usuários fazem quando estão interagindo com seu modelo. Por exemplo, se o seu conteúdo estiver relacionado principalmente a um esporte, treine o modelo com conteúdo contendo terminologia e assuntos relacionados ao esporte.
- Inclua todas as variações de fala que você deseja que seu modelo reconheça. Muitos fatores podem variar a fala, incluindo sotaques, dialetos e mistura de idiomas.
- Inclua apenas dados relevantes para o conteúdo que pretende transcrever. A inclusão de outros dados pode prejudicar a qualidade do reconhecimento em geral.
Tipos de conjuntos de dados
Há dois tipos de conjunto de dados que você pode usar para personalização. Para ajudar a determinar qual conjunto de dados usar para resolver seus problemas, consulte a tabela a seguir:
Caso de utilização | Tipo de dados |
---|---|
Melhore a precisão do reconhecimento em vocabulário e gramática específicos do setor, como terminologia médica ou jargão de TI. | Texto simples |
Defina a forma fonética e exibida de uma palavra ou termo que tenha pronúncia fora do padrão, como nomes de produtos ou siglas. | Dados de pronúncia |
Dados de texto simples para treinamento
Um conjunto de dados que inclua frases de texto simples de texto relacionado pode ser usado para melhorar o reconhecimento de palavras e frases específicas do domínio. Frases de texto relacionadas podem reduzir erros de substituição relacionados ao reconhecimento incorreto de palavras comuns e palavras específicas do domínio, mostrando-as no contexto. Palavras específicas de domínio podem ser palavras incomuns ou inventadas, mas sua pronúncia deve ser simples para ser reconhecida.
Práticas recomendadas para conjuntos de dados de texto sem formatação
- Forneça frases relacionadas ao domínio em um único arquivo de texto. Em vez de usar frases completas, você pode carregar uma lista de palavras. No entanto, embora isso os adicione ao vocabulário, não ensina ao sistema como as palavras são normalmente usadas. Ao fornecer enunciados totais ou parciais (frases ou frases de coisas que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizada é bom não apenas para adicionar novas palavras ao sistema, mas também para ajustar a probabilidade de palavras conhecidas para seu aplicativo. Fornecer enunciados completos ajuda o sistema a aprender melhor.
- Use dados de texto próximos aos enunciados falados esperados. Os enunciados não precisam ser completos ou gramaticalmente corretos, mas devem refletir com precisão a entrada falada que você espera que o modelo reconheça.
- Tente ter cada frase ou palavra-chave em uma linha separada.
- Para aumentar o peso de um termo, como nomes de produtos, adicione várias frases que incluam o termo.
- Para frases comuns que são usadas em seu conteúdo, fornecer muitos exemplos é útil porque diz ao sistema para ouvir esses termos.
- Evite incluir símbolos incomuns (~, # @ % &) como ser descartado. As frases em que aparecem também são descartadas.
- Evite colocar entradas muito grandes, como centenas de milhares de frases, porque isso dilui o efeito de impulsionar.
Use esta tabela para garantir que seu arquivo de conjunto de dados de texto sem formatação esteja formatado corretamente:
Property | Valor |
---|---|
Codificação de texto | UTF-8 BOM |
Número de enunciados por linha | 1 |
Tamanho máximo do ficheiro | 200 MB |
Tente seguir estas diretrizes em seus arquivos de texto sem formatação:
- Evite repetir caracteres, palavras ou grupos de palavras mais de três vezes, como "sim sim sim sim", pois o serviço pode soltar linhas com muitas repetições.
- Não use caracteres especiais ou UTF-8 acima de U+00A1.
- Os URIs são rejeitados.
- Para alguns idiomas, como japonês ou coreano, a importação de grandes quantidades de dados de texto pode levar muito tempo ou atingir o tempo limite. Considere dividir o conjunto de dados em vários arquivos de texto com até 20.000 linhas em cada.
Dados de pronúncia para treinamento
Você pode adicionar ao seu modelo de fala personalizado um conjunto de dados de pronúncia personalizado para melhorar o reconhecimento de palavras, frases ou nomes mal pronunciados.
Os conjuntos de dados de pronúncia precisam incluir a forma falada de uma palavra ou frase, bem como a forma exibida reconhecida. A forma falada é a sequência fonética escrita, como "Triple A". Pode ser composto por letras, palavras, sílabas ou uma combinação dos três. A forma exibida reconhecida é como você gostaria que a palavra ou frase aparecesse na transcrição. Esta tabela inclui alguns exemplos:
Formulário exibido reconhecido | Forma falada |
---|---|
3CPO | três c p o |
CNTK | c n t k |
AAA | Triplo A |
Você fornece conjuntos de dados de pronúncia em um único arquivo de texto. Inclua o enunciado falado e uma pronúncia personalizada para cada um. Cada linha do arquivo deve começar com o formulário reconhecido, depois um caractere de tabulação e, em seguida, a sequência fonética delimitada por espaço.
3CPO three c p o
CNTK c n t k
IEEE i triple e
Considere o seguinte ao criar e treinar conjuntos de dados de pronúncia:
Não é recomendado o uso de arquivos de pronúncia personalizados para alterar a pronúncia de palavras comuns.
Se houver algumas variações de como uma palavra ou nome é transcrito incorretamente, considere usar alguns ou todos eles ao treinar o conjunto de dados de pronúncia. Por exemplo, se Robert é mencionado cinco vezes no vídeo e transcrito como Robort, Ropert e ladrões. Você pode tentar incluir todas as variações no arquivo como no exemplo a seguir, mas seja cauteloso ao treinar com palavras reais como ladrões, como se ladrões fosse mencionado no vídeo, ele é transcrito como Robert.
Robert Roport
Robert Ropert
Robert Robbers
O modelo de pronúncia não se destina a abordar siglas. Por exemplo, se você quiser que o Doctor seja transcrito como Dr., isso não pode ser alcançado através de um modelo de pronúncia.
Consulte a tabela a seguir para garantir que seus arquivos de conjunto de dados de pronúncia sejam válidos e formatados corretamente.
Property | Valor |
---|---|
Codificação de texto | UTF-8 BOM (ANSI também é suportado para inglês) |
Número de pronúncias por linha | 1 |
Tamanho máximo do ficheiro | 1 MB (1 KB para o nível gratuito) |
Melhore os seus modelos personalizados
Treinar um modelo de pronúncia pode ser um processo iterativo, pois você pode obter mais conhecimento sobre a pronúncia do assunto após o treinamento inicial e a avaliação dos resultados do seu modelo. Como os modelos existentes não podem ser editados ou modificados, o treinamento iterativo de um modelo requer a criação e o upload de conjuntos de dados com informações adicionais, bem como o treinamento de novos modelos personalizados com base nos novos conjuntos de dados. Em seguida, você reindexaria os arquivos de mídia com o novo modelo de fala personalizado.
Exemplo:
Digamos que você planeje indexar conteúdo esportivo e antecipar problemas de precisão de transcrição com terminologia esportiva específica, bem como nos nomes de jogadores e treinadores. Antes da indexação, você criou um modelo de fala com um conjunto de dados de texto simples com conteúdo contendo terminologia esportiva relevante e um conjunto de dados de pronúncia com alguns dos nomes de jogadores e treinadores. Você indexa alguns vídeos usando o modelo de fala personalizado e, ao revisar a transcrição gerada, descobre que, embora a terminologia esteja transcrita corretamente, muitos nomes não são. Você pode seguir as seguintes etapas para melhorar o desempenho no futuro:
Analise a transcrição e anote todos os nomes transcritos incorretamente. Podem dividir-se em dois grupos:
- Nomes que não estão no arquivo de pronúncia.
- Nomes no arquivo de pronúncia, mas ainda estão transcritos incorretamente.
Crie um novo arquivo de conjunto de dados. Faça o download do arquivo do conjunto de dados de pronúncia ou modifique o original salvo localmente. Para o grupo A, adicione os novos nomes ao arquivo com a forma como foram transcritos incorretamente (Michael Mikel). Para o grupo B, adicione linhas adicionais com cada linha com o nome correto e um exemplo único de como ela foi transcrita incorretamente. Por exemplo:
Stephen Steven
Stephen Steafan
Stephen Steevan
Carregue este arquivo como um novo arquivo de conjunto de dados.
Crie um novo modelo de fala e adicione o conjunto de dados de texto sem formatação original e o novo arquivo de conjunto de dados de pronúncia.
Reindexe o vídeo com o novo modelo de fala.
Se necessário, repita os passos 1 a 5 até que os resultados sejam satisfatórios.