Partilhar via


Personalizar um modelo de linguagem com o Azure AI Video Indexer

O Azure AI Video Indexer suporta o reconhecimento automático de voz através da integração com o Serviço de Voz Personalizado da Microsoft. Você pode personalizar o modelo de idioma carregando o texto de adaptação. Este texto vem do domínio cujo vocabulário você gostaria que o motor usasse para adaptar. Depois de treinar seu modelo, novas palavras que aparecem no texto de adaptação são reconhecidas, assumindo a pronúncia padrão, e o modelo de linguagem aprende novas sequências prováveis de palavras. Consulte a lista de idiomas suportados pelo Azure AI Video Indexer em idiomas suportados.

Por exemplo, "Kubernetes" (no contexto do serviço Kubernetes do Azure) é uma palavra altamente específica. Como a palavra é nova no Azure AI Video Indexer, ela é reconhecida como "comunidades". Treine o modelo para reconhecê-lo como "Kubernetes". Em outros casos, as palavras existem, mas o modelo de linguagem não espera que elas apareçam em um determinado contexto. Por exemplo, "serviço de contêiner" não é uma sequência de 2 palavras que um modelo de linguagem não especializado reconheceria como um conjunto específico de palavras.

Há duas maneiras de personalizar um modelo de linguagem:

  • Opção 1: Edite a transcrição gerada pelo Azure AI Video Indexer. Ao editar e corrigir a transcrição, você está treinando um modelo de linguagem para fornecer melhores resultados no futuro.
  • Opção 2: Carregue o(s) ficheiro(s) de texto para treinar o modelo linguístico. O arquivo pode conter uma lista de palavras como você gostaria que elas aparecessem na transcrição do Video Indexer ou as palavras relevantes incluídas naturalmente em frases e parágrafos. À medida que melhores resultados são alcançados com esta última abordagem, recomenda-se que o arquivo de upload contenha frases completas ou parágrafos relacionados ao seu conteúdo.

Importante

Não inclua as palavras ou frases atualmente transcritas incorretamente (por exemplo, "comunidades") no arquivo de upload, pois isso negará o impacto pretendido. Inclua apenas as palavras como você gostaria que elas aparecessem (por exemplo, "Kubernetes").

Otimize seu modelo de idioma personalizado

O Azure AI Video Indexer aprende com base nas probabilidades de combinações de palavras, para aprender melhor:

  • Dê exemplos reais suficientes de frases como elas seriam faladas.
  • Coloque apenas uma frase por linha, não mais. Caso contrário, o sistema aprenderá probabilidades entre frases.
  • Não há problema em colocar uma palavra como frase para impulsionar a palavra contra outras, mas o sistema aprende melhor com frases completas.
  • Ao introduzir novas palavras ou siglas, se possível, dê o maior número possível de exemplos de uso em uma frase completa para dar o máximo de contexto possível ao sistema.
  • Tente colocar várias opções de adaptação, e veja como elas funcionam para você.
  • Evite repetir a mesma frase várias vezes. Isso pode criar preconceito contra o resto da entrada.
  • Evite incluir símbolos incomuns (~, # @% &), pois eles serão descartados. As frases em que aparecem também serão descartadas.
  • Evite colocar entradas muito grandes, como centenas de milhares de frases, porque isso diluirá o efeito do impulsionamento.

Pré-requisitos

  • Uma conta do Azure
  • Uma conta do Azure AI Video Indexer

Criar um modelo de idioma

  1. Aceda ao Web site do Azure AI Video Indexer e inicie sessão.
  2. Para personalizar um modelo na sua conta, selecione o botão Personalização do modelo de conteúdo à esquerda da página.
  3. Selecione a guia Idioma. Você verá uma lista de idiomas suportados.
  4. No idioma desejado, selecione Adicionar modelo.
  5. Digite o nome do modelo de idioma e pressione enter. Esta etapa cria o modelo e dá a opção de carregar arquivos de texto para o modelo.
  6. Para adicionar um arquivo de texto, selecione Adicionar arquivo. O explorador de ficheiros será aberto.
  7. Navegue até o arquivo de texto e selecione-o. Você pode adicionar vários arquivos de texto a um modelo de idioma. Você também pode adicionar um arquivo de texto selecionando o botão ... no lado direito do modelo de idioma e selecionando Adicionar arquivo.
  8. Quando terminar de carregar os arquivos de texto, selecione a opção verde Trem .

O processo de treinamento pode levar alguns minutos. Uma vez feito o treinamento, Trained aparece ao lado do modelo. Você pode visualizar, baixar e excluir o arquivo do modelo.

Usando um modelo de idioma em um novo vídeo

Para usar seu modelo de idioma em um novo vídeo, execute uma das seguintes ações:

  1. Selecione o botão Carregar na parte superior da página.
  2. Solte seu arquivo de áudio ou vídeo ou procure seu arquivo.
  3. Selecione um modelo de idioma criado na lista suspensa Idioma de origem do vídeo.
  4. Selecione a opção Carregar na parte inferior da página e seu novo vídeo será indexado usando seu modelo de idioma.

Usando um modelo de linguagem para reindexar

  1. Entre na home page do Azure AI Video Indexer .
  2. Clique no botão ... no vídeo e selecione Reindexar.
  3. Selecione a lista suspensa Idioma de origem do vídeo e selecione um modelo de idioma que você criou na lista.
  4. Selecione o botão Reindexar e seu vídeo será reindexado usando seu modelo de idioma.

Editar um modelo de idioma

Você pode editar um modelo de idioma alterando seu nome, adicionando arquivos a ele e excluindo arquivos dele. Se você adicionar ou excluir arquivos do modelo de idioma, terá que treinar o modelo novamente selecionando a opção Trem verde.

Renomear o modelo de idioma

Você pode alterar o nome do modelo de idioma selecionando o botão de reticências (...) no lado direito do modelo de idioma e selecionando Renomear. Insira o novo nome.

Add files

  1. Selecione Add file (Adicionar ficheiro). O explorador de ficheiros será aberto.
  2. Navegue até o arquivo de texto e selecione-o. Você pode adicionar vários arquivos de texto a um modelo de idioma.

Você também pode adicionar um arquivo de texto selecionando o botão de reticências (...) no lado direito do modelo de idioma e selecionando Adicionar arquivo.

Eliminar ficheiros

Esta ação remove completamente o arquivo do modelo de linguagem.

  1. Selecione o botão de reticências (...) no lado direito do ficheiro de texto.
  2. Selecione Eliminar. Uma nova janela aparece informando que a exclusão não pode ser desfeita.
  3. Selecione a opção Excluir na nova janela.

Excluir um modelo de idioma

Esta ação remove completamente o modelo de idioma da sua conta. Qualquer vídeo que estava usando o modelo deletedlLanguage manterá o mesmo índice até que você reindexe o vídeo. Se você reindexar o vídeo, poderá atribuir um novo modelo de idioma ao vídeo. Caso contrário, o Azure AI Video Indexer usará seu modelo padrão para reindexar o vídeo.

  1. Selecione o botão de reticências (...) no lado direito do modelo de linguagem.
  2. Selecione Eliminar. Uma nova janela aparece informando que a exclusão não pode ser desfeita.
  3. Selecione a opção Excluir na nova janela.

Personalizar modelos de linguagem corrigindo transcrições

O Azure AI Video Indexer personaliza modelos de linguagem com base nas correções reais que os usuários fazem nas transcrições de seus vídeos. Ele captura todas as linhas que você corrigiu na transcrição do seu vídeo e as adiciona a um arquivo de texto chamado From transcript edits. Essas edições são usadas para treinar novamente o modelo de linguagem que foi usado para indexar o vídeo.

As edições que foram feitas na linha do tempo do widget também estão incluídas.

Se você não especificou um modelo de idioma ao indexar este vídeo, todas as edições deste vídeo serão armazenadas em um modelo de idioma padrão chamado Account adaptations dentro do idioma detetado do vídeo.

Caso várias edições tenham sido feitas na mesma linha, apenas a última versão da linha corrigida é usada para atualizar o modelo de idioma.

Nota

Apenas correções textuais são usadas para a personalização. As correções que não envolvem palavras reais (por exemplo, sinais de pontuação ou espaços) não são incluídas.

  1. Selecione o vídeo que pretende editar a partir da sua biblioteca.
  2. Selecione a guia Linha do tempo.
  3. Selecione o ícone de lápis para editar a transcrição da sua transcrição.
  4. Você verá as correções de transcrição exibidas na guia Idioma da página de personalização do modelo de conteúdo. Para ver o arquivo "Das edições de transcrição" para cada um dos seus modelos de idioma, selecione-o para abri-lo.