Termos e definições usados na classificação de texto personalizada
Use este artigo para saber mais sobre algumas das definições e termos que você pode encontrar ao usar a classificação de texto personalizada.
Classe
Uma classe é uma categoria definida pelo usuário que indica a classificação geral do texto. Os desenvolvedores rotulam seus dados com suas classes antes de passá-los para o modelo para treinamento.
Pontuação F1
A pontuação F1 é uma função de Precisão e Recall. É necessário quando se procura um equilíbrio entre precisão e recordação.
Modelo
Um modelo é um objeto treinado para realizar uma determinada tarefa, neste caso tarefas de classificação de texto. Os modelos são treinados fornecendo dados rotulados para aprender para que possam ser usados posteriormente para tarefas de classificação.
- O treinamento de modelo é o processo de ensinar seu modelo a classificar documentos com base em seus dados rotulados.
- A avaliação do modelo é o processo que acontece logo após o treinamento para saber o desempenho do seu modelo.
- A implantação é o processo de atribuir seu modelo a uma implantação para disponibilizá-lo para uso por meio da API de previsão.
Precisão
Mede o quão preciso/preciso é o seu modelo. É a relação entre os positivos corretamente identificados (verdadeiros positivos) e todos os positivos identificados. A métrica de precisão revela quantas das classes previstas estão corretamente rotuladas.
Project
Um projeto é uma área de trabalho para criar seus modelos de ML personalizados com base em seus dados. Seu projeto só pode ser acessado por você e outras pessoas que têm acesso ao recurso do Azure que está sendo usado.
Como pré-requisito para criar um projeto de classificação de texto personalizado, você precisa conectar seu recurso a uma conta de armazenamento com seu conjunto de dados ao criar um novo projeto. Seu projeto inclui automaticamente todos os .txt
arquivos disponíveis em seu contêiner.
Dentro do seu projeto, você pode fazer o seguinte:
- Rotule seus dados: o processo de rotular seus dados para que, quando você treinar seu modelo, ele aprenda o que você deseja extrair.
- Crie e treine seu modelo: a etapa central do seu projeto, onde seu modelo começa a aprender com seus dados rotulados.
- Exibir detalhes da avaliação do modelo: analise o desempenho do modelo para decidir se há espaço para melhorias ou se você está satisfeito com os resultados.
- Implantação: depois de analisar o desempenho do modelo e decidir que ele é adequado para ser usado em seu ambiente, você precisa atribuí-lo a uma implantação para poder consultá-lo. A atribuição do modelo a uma implantação o torna disponível para uso por meio da API de previsão.
- Modelo de teste: depois de implantar seu modelo, você pode usar essa operação no Language Studio para testá-la e ver como ela funcionaria na produção.
Tipos de projeto
A classificação de texto personalizada suporta dois tipos de projetos
- Classificação de rótulo único - você pode atribuir uma única classe para cada documento em seu conjunto de dados. Por exemplo, um roteiro de filme só pode ser classificado como "Romance" ou "Comédia".
- Classificação de vários rótulos - você pode atribuir várias classes para cada documento em seu conjunto de dados. Por exemplo, um roteiro de filme pode ser classificado como "Comédia" ou "Romance" e "Comédia".
Recuperar
Mede a capacidade do modelo de prever classes positivas reais. É a relação entre os verdadeiros positivos previstos e o que foi realmente marcado. A métrica de recall revela quantas das classes previstas estão corretas.
Próximos passos
- Limites de dados e serviços.
- Visão geral da classificação de texto personalizada.