Inleiding

Voltooid

Het is niet verwonderlijk dat de rol van een data scientist voornamelijk betrekking heeft op het verkennen en analyseren van gegevens. Hoewel het eindresultaat van gegevensanalyse een rapport of een machine learning-model kan zijn, beginnen gegevenswetenschappers met gegevens, waarbij Python de populairste programmeertaalgegevenswetenschappers zijn om met gegevens te werken.

Na tientallen jaren opensource-ontwikkeling biedt Python uitgebreide functionaliteit met krachtige statistische en numerieke bibliotheken:

  • NumPy en Pandas vereenvoudigen het analyseren en bewerken van gegevens
  • Matplotlib biedt aantrekkelijke gegevensvisualisaties
  • Scikit-learn biedt eenvoudige en effectieve voorspellende gegevensanalyse
  • TensorFlow en PyTorch leveren mogelijkheden voor machine learning en deep learning

Voorbeeldscenario

Meestal is een project voor gegevensanalyse ontworpen om inzichten te verkrijgen over een bepaald scenario of om een hypothese te testen.

Stel dat een universiteitsprofessor gegevens verzamelt over hun studenten, waaronder het aantal colleges dat is gevolgd, de uren die zijn besteed aan het studeren en het eindcijfer dat aan het einde van het termijnexamen is behaald. De professor kan de gegevens analyseren om te bepalen of er een relatie is tussen de hoeveelheid studie die een student onderneemt en het eindcijfer dat ze behalen. De professor kan de gegevens gebruiken om een hypothese te testen die alleen studenten die gedurende een minimum aantal uren studeren, een cijfer kunnen verwachten.

Diagram van les- en studietijd met betrekking tot de cijfers van studenten.

Wat gaan we doen?

In deze trainingsmodule verkennen en analyseren we cijfergegevens voor een fictieve universiteitsklasse vanuit het oogpunt van een professor. We gebruiken Jupyter-notebooks en verschillende Python-hulpprogramma's en -bibliotheken om de gegevensset op te schonen, statistische technieken toe te passen om verschillende hypothesen over de gegevens te testen en de gegevens te visualiseren om de relaties tussen variabelen te bepalen.