Gegevens verkennen met NumPy en Pandas

Voltooid

Gegevenswetenschappers kunnen verschillende hulpprogramma's en technieken gebruiken om gegevens te verkennen, visualiseren en bewerken. Een van de meest voorkomende manieren waarop gegevenswetenschappers met gegevens werken, is het gebruik van de Python-taal en een aantal specifieke pakketten voor gegevensverwerking.

Wat is NumPy?

NumPy is een Python-bibliotheek die functionaliteit biedt die vergelijkbaar is met wiskundige hulpprogramma's zoals MATLAB en R. Hoewel NumPy de gebruikerservaring aanzienlijk vereenvoudigt, biedt het ook uitgebreide wiskundige functies.

Wat is Pandas?

Pandas is een zeer populaire Python-bibliotheek voor gegevensanalyse en -manipulatie. Pandas is vergelijkbaar met een spreadsheettoepassing voor Python en biedt gebruiksvriendelijke functionaliteit voor gegevenstabellen.

Diagram van Pandas DF.

Gegevens verkennen in een Jupyter-notebook

Jupyter-notebooks zijn een populaire manier om basisscripts uit te voeren met behulp van uw webbrowser. Deze notebooks zijn doorgaans één webpagina, onderverdeeld in tekstsecties en codesecties die worden uitgevoerd op de server in plaats van uw lokale computer. Door code uit te voeren in Jupyter-notebooks op een server, kunt u snel aan de slag zonder Python of andere hulpprogramma's op uw lokale computer te hoeven installeren.

Hypothesen testen

Gegevensverkenning en -analyse is doorgaans een iteratief proces, waarbij de data scientist een steekproef van gegevens neemt en de volgende soorten taken uitvoert om deze te analyseren en hypothesen te testen:

  • Gegevens opschonen om fouten, ontbrekende waarden en andere problemen te verwerken.
  • Pas statistische technieken toe om meer inzicht te krijgen in de gegevens en hoe de steekproef naar verwachting de werkelijke populatie van gegevens vertegenwoordigt, waardoor willekeurige variatie mogelijk is.
  • Visualiseer gegevens om relaties tussen variabelen te bepalen en identificeer in het geval van een machine learning-project functies die mogelijk voorspellend zijn voor het label.
  • Pas de hypothese aan en herhaal het proces.