Introduzione
Non sorprende che il ruolo di uno scienziato dei dati comporti principalmente l'esplorazione e l'analisi dei dati. Anche se il risultato finale dell'analisi dei dati potrebbe essere un report o un modello di Machine Learning, gli scienziati dei dati iniziano il loro lavoro con i dati, con Python che è il linguaggio di programmazione più diffuso in ambito data science.
Dopo decenni di sviluppo open source, Python offre oggi una gamma completa di funzionalità con avanzate librerie statistiche e numeriche:
- NumPy e Pandas semplificano l'analisi e la modifica dei dati
- Matplotlib offre attraenti visualizzazioni dati
- Scikit-learn offre semplici ed efficienti funzionalità di analisi predittiva
- TensorFlow e PyTorch forniscono funzionalità di Machine Learning e Deep Learning
Scenario di esempio
In genere, un progetto di analisi dei dati è concepito in modo da stabilire informazioni dettagliate su uno scenario specifico o per testare un'ipotesi.
Si supponga, ad esempio, che un professore universitario raccolga dati sui suoi studenti, tra cui il numero di lezioni frequentate, le ore di studio e il voto ottenuto all'esame finale. Il professore potrebbe quindi analizzare i dati per determinare se esiste una relazione tra il numero di ore di studio e il voto finale conseguito da uno studente. Il professore potrebbe usare i dati per testare un'ipotesi secondo la quale solo gli studenti che dedicano un numero minimo di ore allo studio possono aspettarsi di conseguire un buon voto.
Cosa si fa?
In questo modulo di formazione verranno esaminati e analizzati i dati dei voti per una classe universitaria fittizia dal punto di vista del professore. Verranno usati notebook di Jupyter e diversi strumenti e librerie di Python per pulire il set di dati, applicare tecniche statistiche per testare diverse ipotesi sui dati e visualizzare i dati per determinare le relazioni tra variabili.