Modellen verbeteren met hyperparameters
Eenvoudige modellen met kleine gegevenssets kunnen vaak in één stap passen, terwijl grotere gegevenssets en complexere modellen moeten passen door het model herhaaldelijk te gebruiken met trainingsgegevens en de uitvoer te vergelijken met het verwachte label. Als de voorspelling nauwkeurig genoeg is, beschouwen we het getrainde model. Zo niet, dan passen we het model iets aan en herhalen we het opnieuw.
Hyperparameters zijn waarden die de manier wijzigen waarop het model past tijdens deze lussen. Leersnelheid is bijvoorbeeld een hyperparameter waarmee wordt ingesteld hoeveel een model tijdens elke trainingscyclus wordt aangepast. Een hoog leerpercentage betekent dat een model sneller kan worden getraind; maar als het te hoog is, kunnen de aanpassingen zo groot zijn dat het model nooit "nauwkeurig afgestemd" is en niet optimaal is.
Gegevens vooraf verwerken
Voorverwerking verwijst naar wijzigingen die u aanbrengt in uw gegevens voordat deze worden doorgegeven aan het model. We hebben eerder gelezen dat het vooraf verwerken van uw gegevensset kan omvatten. Hoewel dit belangrijk is, kan voorverwerking ook het wijzigen van de indeling van uw gegevens omvatten, zodat het model gemakkelijker kan worden gebruikt. Gegevens die worden beschreven als 'rood', 'oranje', 'geel', 'kalk' en 'groen' werken mogelijk beter als ze worden geconverteerd naar een indeling die meer systeemeigen is voor computers, zoals getallen die de hoeveelheid rood en de hoeveelheid groen aangeven.
Schaalfuncties
De meest voorkomende voorverwerkingsstap is het schalen van functies, zodat ze tussen nul en één vallen. Het gewicht van een fiets en de afstand die een persoon op een fiets reist, kan bijvoorbeeld twee zeer verschillende getallen zijn, maar door beide getallen tussen nul en één te schalen, kunnen modellen effectiever leren van de gegevens.
Categorieën gebruiken als functies
In machine learning kunt u ook categorische functies gebruiken, zoals 'fiets', 'skateboard' of 'auto'. Deze functies worden vertegenwoordigd door 0 of 1 waarden in een hot vectoren; vectoren met een 0 of 1 voor elke mogelijke waarde. Fiets, skateboard en auto kunnen bijvoorbeeld (respectievelijk 1,0,0), (0,1,0) en (0,0,1) zijn.