Nieuwe regressiemodellen ontdekken

Voltooid

In les 2 hebben we gekeken naar het passend maken van een rechte lijn naar gegevenspunten. Regressie kan echter geschikt zijn voor veel soorten relaties, waaronder relaties met meerdere factoren en relaties waarbij het belang van de ene factor afhankelijk is van een andere.

Experimenteren met modellen

Regressiemodellen worden vaak gekozen omdat ze werken met kleine gegevensvoorbeelden, robuust, eenvoudig te interpreteren zijn en een verscheidenheid bestaan.

Lineaire regressie is de eenvoudigste vorm van regressie, zonder limiet voor het aantal gebruikte functies. Lineaire regressie komt in veel vormen, vaak genoemd door het aantal gebruikte kenmerken en de vorm van de curve die past.

Beslissingsstructuren nemen een stapsgewijze benadering voor het voorspellen van een variabele. Als we denken aan ons fietsvoorbeeld, kan de beslissingsstructuur eerst worden gesplitst tussen voorbeelden die zich in de lente/zomer en herfst/winter bevinden, een voorspelling doen op basis van de dag van de week. Lente/zomer-maandag kan een fietsverhuurtarief van 100 per dag hebben, terwijl herfst/winter-maandag een huurtarief van 20 per dag kan hebben.

Ensemblealgoritmen maken niet alleen één beslissingsstructuur , maar een groot aantal bomen, waardoor betere voorspellingen over complexere gegevens mogelijk zijn. Ensemblealgoritmen, zoals Random Forest, worden veel gebruikt in machine learning en data science vanwege hun sterke voorspellingsmogelijkheden.

Gegevenswetenschappers experimenteren vaak met het gebruik van verschillende modellen. In de volgende oefening experimenteren we met verschillende typen modellen om te vergelijken hoe ze presteren op dezelfde gegevens.