Partilhar via


Treine seu modelo personalizado de Análise de Texto para integridade

O treinamento é o processo em que o modelo aprende com seus dados rotulados. Após a conclusão do treinamento, você poderá visualizar o desempenho do modelo para determinar se precisa melhorar seu modelo.

Para treinar um modelo, você inicia um trabalho de treinamento e somente trabalhos concluídos com êxito criam um modelo. Os trabalhos de treinamento expiram após sete dias, o que significa que você não poderá recuperar os detalhes do trabalho após esse período. Se o seu trabalho de treinamento for concluído com êxito e um modelo tiver sido criado, o modelo não será afetado. Você só pode ter um trabalho de treinamento em execução de cada vez, e você não pode iniciar outros trabalhos no mesmo projeto.

Os tempos de treinamento podem ser de alguns minutos ao lidar com poucos documentos, até várias horas, dependendo do tamanho do conjunto de dados e da complexidade do seu esquema.

Pré-requisitos

Consulte o ciclo de vida de desenvolvimento do projeto para obter mais informações.

Divisão de dados

Antes de iniciar o processo de treinamento, os documentos rotulados em seu projeto são divididos em um conjunto de treinamento e um conjunto de testes. Cada um deles tem uma função diferente. O conjunto de treinamento é usado no treinamento do modelo, este é o conjunto do qual o modelo aprende as entidades rotuladas e quais extensões de texto devem ser extraídas como entidades. O conjunto de testes é um conjunto cego que não é introduzido no modelo durante o treinamento, mas apenas durante a avaliação. Depois que o treinamento do modelo é concluído com sucesso, o modelo é usado para fazer previsões a partir dos documentos no teste e, com base nessas previsões, as métricas de avaliação são calculadas. Modelo de formação e avaliação são apenas para entidades recém-definidas com componentes aprendidos; portanto, as entidades de Análise de Texto para saúde são excluídas do treinamento e avaliação do modelo por serem entidades com componentes pré-construídos. É recomendável certificar-se de que todas as entidades rotuladas estejam adequadamente representadas no conjunto de treinamento e teste.

A Análise de Texto Personalizada para integridade oferece suporte a dois métodos de divisão de dados:

  • Dividir automaticamente o conjunto de testes dos dados de treinamento:O sistema divide os dados rotulados entre os conjuntos de treinamento e teste, de acordo com as porcentagens escolhidas. A divisão percentual recomendada é de 80% para treinamento e 20% para testes.

Nota

Se você escolher a opção Dividir automaticamente o conjunto de testes dos dados de treinamento , somente os dados atribuídos ao conjunto de treinamento serão divididos de acordo com as porcentagens fornecidas.

  • Use uma divisão manual de dados de treinamento e teste: esse método permite que os usuários definam quais documentos rotulados devem pertencer a qual conjunto. Esta etapa só será habilitada se você tiver adicionado documentos ao conjunto de testes durante a rotulagem de dados.

Preparar o modelo

Para começar a treinar o seu modelo a partir do Language Studio:

  1. Selecione Trabalhos de treinamento no menu do lado esquerdo.

  2. Selecione Iniciar um trabalho de treinamento no menu superior.

  3. Selecione Treinar um novo modelo e digite o nome do modelo na caixa de texto. Você também pode substituir um modelo existente selecionando essa opção e escolhendo o modelo que deseja substituir no menu suspenso. A substituição de um modelo treinado é irreversível, mas não afetará os modelos implantados até que você implante o novo modelo.

    Uma captura de ecrã a mostrar o ecrã de criação de emprego de formação no Language Studio.

  4. Selecione o método de divisão de dados. Você pode escolher Dividir automaticamente o conjunto de testes dos dados de treinamento, onde o sistema dividirá seus dados rotulados entre os conjuntos de treinamento e teste, de acordo com as porcentagens especificadas. Ou você pode usar uma divisão manual de dados de treinamento e teste, essa opção só é ativada se você tiver adicionado documentos ao seu conjunto de testes. Consulte a rotulagem de dados e como treinar um modelo para obter informações sobre a divisão de dados.

  5. Selecione o botão Trem .

  6. Se você selecionar o ID do Trabalho de Treinamento na lista, um painel lateral aparecerá onde você poderá verificar o progresso do Treinamento, o status do Trabalho e outros detalhes para este trabalho.

    Nota

    • Apenas trabalhos de formação concluídos com sucesso gerarão modelos.
    • O treinamento pode levar algum tempo entre alguns minutos e várias horas com base no tamanho dos dados rotulados.
    • Só pode ter um trabalho de preparação em execução de cada vez. Não pode iniciar outro trabalho de preparação no mesmo projeto sem que o trabalho em execução esteja concluído.

Cancelar trabalho de formação

Para cancelar um trabalho de formação a partir do Language Studio, aceda à página Empregos de formação. Selecione o trabalho de treinamento que deseja cancelar e selecione Cancelar no menu superior.

Próximos passos

Após a conclusão do treinamento, você poderá visualizar o desempenho do modelo para, opcionalmente, melhorar seu modelo, se necessário. Quando estiver satisfeito com seu modelo, você poderá implantá-lo, disponibilizando-o para uso para extrair entidades do texto.