Introdução
Sem surpresa, o papel de um cientista de dados envolve principalmente explorar e analisar dados. Embora o resultado final da análise de dados possa ser um relatório ou um modelo de aprendizado de máquina, os cientistas de dados começam seu trabalho com dados, com o Python sendo a linguagem de programação mais popular que os cientistas de dados usam para trabalhar com dados.
Após décadas de desenvolvimento de código aberto, o Python fornece ampla funcionalidade com poderosas bibliotecas estatísticas e numéricas:
- NumPy e Pandas simplificam a análise e manipulação de dados
- Matplotlib fornece visualizações de dados atraentes
- O Scikit-learn oferece uma análise de dados preditiva simples e eficaz
- O TensorFlow e o PyTorch fornecem recursos de aprendizado de máquina e aprendizado profundo
Cenário de exemplo
Normalmente, um projeto de análise de dados é projetado para estabelecer insights em torno de um cenário específico ou para testar uma hipótese.
Por exemplo, suponha que um professor universitário colete dados sobre seus alunos, incluindo o número de aulas assistidas, as horas gastas estudando e a nota final obtida no exame de final de período. O professor poderia analisar os dados para determinar se há uma relação entre a quantidade de estudos que um aluno realiza e a nota final que ele alcança. O professor pode usar os dados para testar uma hipótese de que apenas os alunos que estudam por um número mínimo de horas podem esperar alcançar uma nota de aprovação.
O que vamos fazer?
Neste módulo de treinamento, exploraremos e analisaremos os dados de notas de uma aula universitária fictícia do ponto de vista de um professor. Usaremos notebooks Jupyter e várias ferramentas e bibliotecas Python para limpar o conjunto de dados, aplicar técnicas estatísticas para testar várias hipóteses sobre os dados e visualizar os dados para determinar as relações entre variáveis.