Melhore os modelos com hiperparâmetros
Modelos simples com conjuntos de dados pequenos geralmente podem ser ajustados em uma única etapa, enquanto conjuntos de dados maiores e modelos mais complexos devem ser ajustados usando repetidamente o modelo com dados de treinamento e comparando a saída com o rótulo esperado. Se a previsão for precisa o suficiente, consideramos o modelo treinado. Caso contrário, ajustamos ligeiramente o modelo e voltamos a fazer um loop.
Hiperparâmetros são valores que alteram a maneira como o modelo é ajustado durante esses loops. A taxa de aprendizagem, por exemplo, é um hiperparâmetro que define o quanto um modelo é ajustado durante cada ciclo de treinamento. Uma alta taxa de aprendizagem significa que um modelo pode ser treinado mais rapidamente; Mas se for muito alto, os ajustes podem ser tão grandes que o modelo nunca é "ajustado" e não é o ideal.
Pré-processamento de dados
O pré-processamento refere-se às alterações feitas nos seus dados antes de serem passados para o modelo. Já lemos anteriormente que o pré-processamento pode envolver a limpeza do seu conjunto de dados. Embora isso seja importante, o pré-processamento também pode incluir a alteração do formato dos dados para que seja mais fácil para o modelo usar. Por exemplo, os dados descritos como "vermelho", "laranja", "amarelo", "limão" e "verde" podem funcionar melhor se convertidos em um formato mais nativo dos computadores, como números que indicam a quantidade de vermelho e a quantidade de verde.
Recursos de dimensionamento
A etapa de pré-processamento mais comum é dimensionar os recursos para que fiquem entre zero e um. Por exemplo, o peso de uma bicicleta e a distância que uma pessoa percorre numa bicicleta podem ser dois números muito diferentes, mas ao dimensionar ambos os números para entre zero e um permite que os modelos aprendam de forma mais eficaz com os dados.
Usando categorias como recursos
No aprendizado de máquina, você também pode usar recursos categóricos como "bicicleta", "skate" ou "carro". Essas características são representadas por 0 ou 1 valores em vetores de um calor, vetores que têm um 0 ou 1 para cada valor possível. Por exemplo, bicicleta, skate e carro podem ser, respectivamente, (1,0,0), (0,1,0) e (0,0,1).