Esplorare i dati con NumPy e Pandas

Completato

I data scientist possono usare un'ampia gamma di strumenti e tecniche per esplorare, visualizzare e modificare i dati. Uno dei modi più comuni in cui gli scienziati dei dati elaborano i dati consiste nell'usare il linguaggio Python e alcuni pacchetti specifici per l'elaborazione dati.

Che cos'è NumPy?

NumPy è una libreria Python che offre funzionalità paragonabili a strumenti matematici come MATLAB e R. Semplifica in modo significativo l'esperienza utente e, al tempo stesso, offre funzioni matematiche complete.

Che cos'è Pandas?

Pandas è una libreria Python molto diffusa per l'analisi e la modifica dei dati. Pandas offre funzionalità facili da usare per le tabelle dati, per cui può essere considerato come un'applicazione di fogli di calcolo per Python.

Diagramma di Pandas DF.

Esplorare i dati in un Jupyter Notebook

I notebook di Jupyter costituiscono uno strumento molto diffuso per l'esecuzione di script di base tramite il Web browser. Questi notebook, in genere, sono costituiti da una singola pagina Web, suddivisa in sezioni di testo e sezioni di codice che vengono eseguite nel server anziché nel computer locale. Eseguendo il codice nei notebook di Jupyter in un server, è possibile iniziare rapidamente senza dover installare Python o altri strumenti nel computer locale.

Esecuzione di test di ipotesi

L'esplorazione e l'analisi dei dati sono in genere un processo iterativo in cui lo scienziato dei dati prende un campione di dati ed esegue i tipi di attività seguenti per analizzarlo e testare le ipotesi:

  • Pulire i dati per gestire errori, valori mancanti e altri problemi.
  • Applicazione di tecniche statistiche per comprendere meglio i dati e la probabilità con cui il campione rappresenterà la popolazione reale di dati, consentendo variazioni casuali.
  • Visualizzare i dati per determinare le relazioni tra le variabili e, nel caso di un progetto di apprendimento automatico, identificare le caratteristiche potenzialmente predittive dell'etichetta.
  • Revisione dell'ipotesi e ripetizione del processo.