Definir o problema
Começando com o primeiro passo, você quer definir o problema que o modelo deve resolver, entendendo:
- Qual deve ser a saída do modelo.
- Que tipo de tarefa de aprendizado de máquina você usa.
- Que critérios tornam um modelo bem-sucedido?
Dependendo dos dados que você tem e da saída esperada do modelo, você pode identificar a tarefa de aprendizado de máquina. A tarefa determina quais tipos de algoritmos você pode usar para treinar o modelo.
Algumas tarefas comuns de aprendizado de máquina são:
- Classificação: Preveja um valor categórico.
- Regressão: Preveja um valor numérico.
- Previsão de séries cronológicas: Prever valores numéricos futuros com base em dados de séries cronológicas.
- Visão computacional: Classificar imagens ou detetar objetos em imagens.
- Processamento de linguagem natural (PNL): extraia insights do texto.
Para treinar um modelo, você tem um conjunto de algoritmos que pode usar, dependendo da tarefa que deseja executar. Para avaliar o modelo, você pode calcular métricas de desempenho, como precisão ou precisão. As métricas disponíveis também dependem da tarefa que seu modelo precisa executar e ajudam você a decidir se um modelo é bem-sucedido em sua tarefa.
Explore um exemplo
Considere um cenário em que você queira determinar se os pacientes têm diabetes. O problema que você está tentando resolver e o tipo de dados disponíveis determinam a tarefa de aprendizado de máquina escolhida. Neste caso, os dados disponíveis são outros pontos de dados de saúde dos pacientes. Podemos representar a saída que queremos como informação categórica de que ou o paciente tem diabetes ou não tem diabetes. Assim, a tarefa de machine learning é a classificação.
Entender todo o processo antes de começar lhe dá a oportunidade de mapear as decisões que você precisa tomar para projetar uma solução de aprendizado de máquina bem-sucedida. A seguir, é um diagrama mostrando uma maneira de abordar o problema de identificar diabetes em um paciente. No diagrama, os dados são preparados, divididos e treinados usando algoritmos específicos. Depois, o modelo é avaliado quanto à qualidade.
- Carregar dados: importe e inspecione o conjunto de dados.
- Pré-processar dados: normalize e limpe para obter consistência.
- Dividir dados: Separe em conjuntos de treinamento e teste.
- Escolha o modelo: selecione e configure um algoritmo.
- Modelo de treinamento: aprenda padrões com os dados de treinamento.
- Modelo de pontuação: gerar previsões sobre dados de teste.
- Avaliar: Calcular métricas de desempenho.
Treinar um modelo de aprendizado de máquina geralmente é um processo iterativo, onde você passa por cada uma dessas etapas várias vezes para encontrar o modelo de melhor desempenho.