Descobrir novos modelos de regressão
Na Unidade 2, vimos como ajustar uma linha reta aos pontos de dados. No entanto, a regressão pode se ajustar a muitos tipos de relações, incluindo aqueles com vários fatores e aqueles em que a importância de um fator depende de outro.
Experimentação com modelos
Os modelos de regressão geralmente são escolhidos porque funcionam com pequenas amostras de dados, são robustos, fáceis de interpretar e existem em variedade.
A regressão linear é a forma mais simples de regressão, sem limite para o número de recursos usados. A regressão linear vem em muitas formas, geralmente nomeadas pelo número de recursos usados e pela forma da curva que se ajusta.
As árvores de decisão usam uma abordagem passo a passo para prever uma variável. Se pensarmos em nosso exemplo das bicicletas, a árvore de decisão poderá primeiro dividir os exemplos entre aqueles na primavera/verão e no outono/inverno, fazendo uma previsão com base no dia da semana. A segunda-feira nas estações primavera/verão pode ter uma taxa de locação de bicicletas de 100 por dia, enquanto a segunda-feira de outono/inverno pode ter uma taxa de locação de 20 por dia.
Os algoritmos de ensemble constroem não apenas uma árvore de decisão, mas um grande número de árvores, permitindo melhores previsões em dados mais complexos. Algoritmos de ensemble, como o de floresta aleatória, são amplamente usados em machine learning e ciência de dados devido às suas fortes capacidades de previsão.
Os cientistas de dados geralmente experimentam o uso de modelos diferentes. No exercício a seguir, experimentaremos diferentes tipos de modelos para comparar o desempenho deles com os mesmos dados.