Exercício – Carregar dados e criar um gráfico de dispersão

Concluído

Os Jupyter Notebooks são compostos por células. Cada célula recebe um dos três tipos:

  • Markdown para inserir o texto no formato markdown
  • Código para inserir o código que é executado de forma interativa
  • NBConvert Bruto para inserção de dados embutidos

O código inserido em células de código é executado por um kernel, que fornece um ambiente isolado no qual executar o notebook. O kernel popular do IPython dá suporte ao código escrito no Python, mas dezenas de outros kernels estão disponíveis para dar suporte a outras linguagens. O Azure Notebooks dá suporte pronto para uso ao Python, ao R e ao F#. Ele também dá suporte à instalação das muitas bibliotecas e dos muitos pacotes que são comumente usados em pesquisas.

Atualmente, o editor de notebook mostra uma célula vazia. Neste exercício, você adicionará conteúdo a essa célula e adicionará outras células para importar pacotes do Python, como NumPy, carregará um par de arquivos de dados da NASA contendo dados de clima e criará um gráfico de dispersão com base nos dados.

  1. Na primeira célula, defina o tipo de célula como Markdown e insira a "Análise de Mudanças Climáticas do Azure Notebook" na própria célula:

    Definir uma célula markdown.

    Definindo uma célula de markdown

  2. Clique no botão + na barra de ferramentas para adicionar uma nova célula. Verifique se o tipo de célula é Código e, em seguida, insira o seguinte código Python na célula:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adicionar uma célula de código.

    Adicionando uma célula de código

  3. Agora, clique no botão Executar para executar a célula de código e importar os pacotes especificados nas instruções import. Ignore os avisos exibidos enquanto o ambiente é preparado pela primeira vez.

    Remova os avisos selecionando a célula de código e executando-a novamente.

    Executar uma célula de código.

    Executando uma célula de código

  4. Clique em Arquivo no menu na parte superior da página e selecione Carregar no menu suspenso. Em seguida, carregue os arquivos 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.

    Carregar os dados no notebook.

    Carregando dados no notebook

  5. Selecione /project como a Pasta de Destino para garantir a persistência dos arquivos. Clique em Iniciar Upload para carregar os arquivos e em OK depois que eles forem carregados com êxito.

    Selecionar a pasta de destino para os dados.

    Selecionando a pasta de destino para os dados

  6. Coloque o cursor na célula vazia na parte inferior do notebook. Insira "Importar dados" como o texto e altere o tipo de célula para Markdown.

  7. Agora, adicione uma célula de Código e cole o código a seguir.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Clique no botão Executar para executar a célula e use a função loadtxt do NumPy para carregar os dados carregados. Os dados agora estão na memória e podem ser usados pelo aplicativo.

    Como carregar os dados.

    Carregando os dados

  9. Coloque o cursor na célula vazia na parte inferior do notebook. Altere o tipo de célula para Markdown e insira "Criar um gráfico de dispersão" como o texto.

  10. Adicione uma célula de Código e cole o código a seguir, que usa Matplotlib para criar um gráfico de dispersão.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Clique em Executar para executar a célula e criar um gráfico de dispersão.

    Gráfico de dispersão produzido pelo Matplotlib.

    Gráfico de dispersão produzido pelo Matplotlib

O conjunto de dados carregado usa uma média de 30 anos entre 1951 e 1980 para calcular uma temperatura base para esse período e, em seguida, usa temperaturas médias de 5 anos para calcular a diferença entre a média de 5 anos e a média de 30 anos de cada ano. O gráfico de dispersão mostra as diferenças de temperatura anuais.