Aprimorar modelos com hiperparâmetros
Modelos simples com conjuntos de dados pequenos geralmente podem ser ajustados em apenas uma etapa, enquanto conjuntos de dados maiores e modelos mais complexos precisam ser ajustados usando repetidamente o modelo com os dados de treinamento e comparando a saída com o rótulo esperado. Se a previsão for suficientemente precisa, consideraremos o modelo treinado. Se não for, ajustaremos o modelo ligeiramente e faremos um novo loop.
Hiperparâmetros são valores que alteram a maneira como o modelo é ajustado durante esses loops. A taxa de aprendizado, por exemplo, é um hiperparâmetro que define quanto um modelo é ajustado durante cada ciclo de treinamento. Uma taxa de aprendizado alta significa que um modelo pode ser treinado mais rapidamente; porém, se for muito alta, os ajustes podem ser tão grandes que o modelo nunca será "ajustado com precisão" e não será o ideal.
Dados de pré-processamento
O pré-processamento se refere às alterações feitas em seus dados antes que eles sejam passados para o modelo. Lemos anteriormente que o pré-processamento pode envolver a limpeza do seu conjunto de dados. Embora isso seja importante, o pré-processamento também pode incluir a alteração do formato de seus dados para que o modelo possa utilizá-los com mais facilidade. Por exemplo, os dados descritos como "vermelho", "laranja", "amarelo", "limão" e "verde" podem funcionar melhor se forem convertidos em um formato mais nativo dos computadores, como números que indicam a quantidade de vermelho e a quantidade de verde.
Recursos de dimensionamento
A etapa de pré-processamento mais comum é dimensionar os recursos para que eles fiquem entre zero e um. Por exemplo, o peso de uma bicicleta e a distância que uma pessoa percorre em uma bicicleta podem ser dois números muito diferentes, mas dimensionar ambos os números entre zero e um permite que o aprendizado dos modelos com os dados seja mais eficiente.
Como usar categorias como recursos
No aprendizado de máquina, você também pode utilizar recursos categóricos, como "bicicleta", "skate" ou "carro". Esses recursos são representados por valores 0 ou 1 em vetores one-hot; vetores que têm um 0 ou 1 para cada valor possível. Por exemplo, bicicleta, skate e carro podem ser, respectivamente, (1,0,0), (0,1,0) e (0,0,1).