Partilhar via


Treine seu modelo de compreensão de linguagem conversacional

Depois de concluir a rotulagem de seus enunciados, você pode começar a treinar um modelo. O treinamento é o processo em que o modelo aprende com seus enunciados rotulados.

Para treinar um modelo, inicie um trabalho de treinamento. Somente trabalhos concluídos com êxito criam um modelo. Os trabalhos de formação expiram após sete dias, após este período já não poderá recuperar os detalhes do trabalho. Se o seu trabalho de treinamento foi concluído com êxito e um modelo foi criado, ele não será afetado pela expiração do trabalho. Você só pode ter um trabalho de treinamento em execução de cada vez, e você não pode iniciar outros trabalhos no mesmo projeto.

Os tempos de treinamento podem ser de alguns segundos ao lidar com projetos simples, até algumas horas quando você atinge o limite máximo de enunciados.

A avaliação do modelo é acionada automaticamente após a conclusão bem-sucedida do treinamento. O processo de avaliação começa usando o modelo treinado para executar previsões sobre os enunciados no conjunto de testes, e compara os resultados previstos com os rótulos fornecidos (que estabelece uma linha de base de verdade).

Pré-requisitos

Equilibrar dados de treinamento

Quando se trata de dados de treinamento, tente manter seu esquema bem equilibrado. Incluir grandes quantidades de uma intenção e muito poucas de outra resulta em um modelo tendencioso para intenções específicas.

Para resolver esse cenário, talvez seja necessário reduzir a amostra do conjunto de treinamento. Ou você pode precisar adicionar a ele. Para reduzir a amostra, você pode:

  • Livre-se de uma certa porcentagem dos dados de treinamento aleatoriamente.
  • Analise o conjunto de dados e remova entradas duplicadas sobre-representadas, o que é uma maneira mais sistemática.

Para adicionar ao conjunto de treinamento, no Language Studio, na guia Rotulagem de dados, selecione Sugerir enunciados. O Entendimento de Linguagem de Conversação envia uma chamada para o Azure OpenAI para gerar expressões semelhantes.

Captura de tela que mostra uma sugestão de enunciado no Language Studio.

Você também deve procurar "padrões" não intencionais no conjunto de treinamento. Por exemplo, veja se o conjunto de treinamento para uma determinada intenção é todo minúsculo ou começa com uma frase específica. Nesses casos, o modelo que você treina pode aprender esses vieses não intencionais no conjunto de treinamento em vez de ser capaz de generalizar.

Recomendamos que introduza a diversidade de invólucros e pontuação no conjunto de treino. Se se espera que o seu modelo lide com variações, certifique-se de ter um conjunto de treinamento que também reflita essa diversidade. Por exemplo, inclua alguns enunciados no invólucro adequado e alguns em todas as letras minúsculas.

Divisão de dados

Antes de iniciar o processo de treinamento, os enunciados rotulados em seu projeto são divididos em um conjunto de treinamento e um conjunto de testes. Cada um deles tem uma função diferente. O conjunto de treinamento é usado no treinamento do modelo, este é o conjunto a partir do qual o modelo aprende os enunciados rotulados. O conjunto de testes é um conjunto cego que não é introduzido no modelo durante o treinamento, mas apenas durante a avaliação.

Depois que o modelo é treinado com sucesso, o modelo pode ser usado para fazer previsões a partir dos enunciados no conjunto de testes. Essas previsões são usadas para calcular métricas de avaliação. Recomenda-se certificar-se de que todas as suas intenções e entidades estão adequadamente representadas no conjunto de treinamento e teste.

O entendimento de linguagem conversacional suporta dois métodos para divisão de dados:

  • Dividir automaticamente o conjunto de testes dos dados de treinamento: o sistema dividirá seus dados marcados entre os conjuntos de treinamento e teste, de acordo com as porcentagens que você escolher. A divisão percentual recomendada é de 80% para treinamento e 20% para testes.

Nota

Se você escolher a opção Dividir automaticamente o conjunto de testes dos dados de treinamento , somente os dados atribuídos ao conjunto de treinamento serão divididos de acordo com as porcentagens fornecidas.

  • Use uma divisão manual de dados de treinamento e teste: esse método permite que os usuários definam quais enunciados devem pertencer a qual conjunto. Esta etapa só será habilitada se você tiver adicionado expressões ao conjunto de testes durante a rotulagem.

Modos de formação

CLU suporta dois modos para treinar seus modelos

  • O treinamento padrão usa algoritmos rápidos de aprendizado de máquina para treinar seus modelos com relativa rapidez. Atualmente, isso está disponível apenas para inglês e está desativado para qualquer projeto que não use inglês (EUA) ou inglês (Reino Unido) como idioma principal. Esta opção de formação é gratuita. O treinamento padrão permite adicionar expressões e testá-las rapidamente sem nenhum custo. As pontuações de avaliação mostradas devem orientá-lo sobre onde fazer alterações no seu projeto e adicionar mais enunciados. Depois de iterar algumas vezes e fazer melhorias incrementais, você pode considerar o uso de treinamento avançado para treinar outra versão do seu modelo.

  • O treinamento avançado usa a mais recente tecnologia de aprendizado de máquina para personalizar modelos com seus dados. Espera-se que isso mostre melhores pontuações de desempenho para seus modelos e permitirá que você use os recursos multilíngues da CLU também. O preço da formação avançada é diferente. Consulte as informações de preços para obter detalhes.

Use as pontuações de avaliação para orientar suas decisões. Pode haver momentos em que um exemplo específico é previsto incorretamente no treinamento avançado, em oposição a quando você usou o modo de treinamento padrão. No entanto, se os resultados gerais da avaliação forem melhores usando avançado, então recomenda-se usar o seu modelo final. Se esse não for o caso e você não estiver procurando usar nenhum recurso multilíngue, você pode continuar a usar o modelo treinado com o modo padrão.

Nota

Você deve esperar ver uma diferença nos comportamentos nas pontuações de confiança de intenção entre os modos de treinamento, pois cada algoritmo calibra suas pontuações de forma diferente.

Preparar o modelo

Para começar a treinar o seu modelo a partir do Language Studio:

  1. Selecione Modelo de trem no menu do lado esquerdo.

  2. Selecione Iniciar um trabalho de treinamento no menu superior.

  3. Selecione Treinar um novo modelo e insira um novo nome de modelo na caixa de texto. Caso contrário, para substituir um modelo existente por um modelo treinado nos novos dados, selecione Substituir um modelo existente e, em seguida, selecione um modelo existente. A substituição de um modelo treinado é irreversível, mas não afetará os modelos implantados até que você implante o novo modelo.

  4. Selecione o modo de treinamento. Você pode escolher o treinamento padrão para treinamento mais rápido, mas ele só está disponível para inglês. Ou pode escolher a formação avançada, que é suportada para outras línguas e projetos multilingues, mas envolve tempos de formação mais longos. Saiba mais sobre os modos de preparação.

  5. Selecione um método de divisão de dados. Você pode escolher Dividir automaticamente o conjunto de testes dos dados de treinamento, onde o sistema dividirá suas declarações entre os conjuntos de treinamento e teste, de acordo com as porcentagens especificadas. Ou você pode usar uma divisão manual de dados de treinamento e teste, essa opção só é habilitada se você tiver adicionado enunciados ao seu conjunto de teste quando rotulou seus enunciados.

  6. Selecione o botão Trem .

    Uma captura de tela mostrando a página de treinamento no Language Studio.

  7. Selecione o ID do trabalho de treinamento na lista. Será exibido um painel onde você pode verificar o progresso do treinamento, status do trabalho e outros detalhes para este trabalho.

    Nota

    • Apenas trabalhos de formação concluídos com sucesso gerarão modelos.
    • O treinamento pode levar algum tempo entre alguns minutos e algumas horas com base na contagem de enunciados.
    • Só pode ter um trabalho de preparação em execução de cada vez. Você não pode iniciar outros trabalhos de treinamento dentro do mesmo projeto até que o trabalho em execução seja concluído.
    • O aprendizado de máquina usado para treinar modelos é atualizado regularmente. Para treinar em uma versão de configuração anterior, selecione Selecionar aqui para alterar na página Iniciar um trabalho de treinamento e escolha uma versão anterior.

Cancelar trabalho de formação

Para cancelar um trabalho de formação a partir do Language Studio

  1. Na página Modelo de trem , selecione o trabalho de treinamento que deseja cancelar e selecione Cancelar no menu superior.

Próximos passos