Explore dados com o NumPy e o Pandas

Concluído

Os cientistas de dados podem usar várias ferramentas e técnicas para explorar, visualizar e manipular dados. Uma das maneiras mais comuns pelas quais os cientistas de dados trabalham com dados é usar a linguagem Python e alguns pacotes específicos para processamento de dados.

Qual é NumPy?

NumPy é uma biblioteca Python que fornece funcionalidade comparável a ferramentas matemáticas como MATLAB e R. Embora o NumPy simplifique significativamente a experiência do usuário, ele também oferece funções matemáticas abrangentes.

Qual é Pandas?

Pandas é uma biblioteca Python extremamente popular para análise e manipulação de dados. Pandas é como um aplicativo de planilha para Python, fornecendo funcionalidade fácil de usar para tabelas de dados.

Diagrama de Pandas DF.

Explore dados em um bloco de anotações Jupyter

Os blocos de anotações Jupyter são uma maneira popular de executar scripts básicos usando seu navegador da web. Normalmente, esses blocos de anotações são uma única página da Web, dividida em seções de texto e seções de código que são executadas no servidor em vez de na máquina local. Ao executar código em blocos de anotações Jupyter em um servidor, você pode começar rapidamente sem precisar instalar o Python ou outras ferramentas em seu computador local.

Hipóteses de teste

A exploração e análise de dados é tipicamente um processo iterativo , no qual o cientista de dados pega uma amostra de dados e executa os seguintes tipos de tarefas para analisá-los e testar hipóteses:

  • Limpe dados para lidar com erros, valores ausentes e outros problemas.
  • Aplicar técnicas estatísticas para compreender melhor os dados e como se pode esperar que a amostra represente a população de dados do mundo real, permitindo variações aleatórias.
  • Visualize dados para determinar relações entre variáveis e, no caso de um projeto de aprendizado de máquina, identifique recursos que são potencialmente preditivos do rótulo.
  • Reveja a hipótese e repita o processo.