Exercício – Carregar Dados e Criar Gráfico de Dispersão

Concluído

Os blocos de notas do Jupyter são compostos por células. É atribuído um de três tipos a cada célula:

  • Markdown para introduzir texto no formato markdown
  • Code para introduzir código que é executado interativamente
  • Raw NBConvert para introduzir dados inline

O código introduzido nas células de código é executado por um kernel que proporciona um ambiente isolado para executar o bloco de notas. O kernel popular IPython suporta código escrito em Python, mas estão disponíveis muitos outros kernels noutros idiomas. O Azure Notebooks suporta Python, R, e F# prontos a utilizar. Também suporta a instalação de vários pacotes e bibliotecas que são frequentemente utilizados em investigação.

Neste momento, o editor do bloco de notas apresenta uma célula vazia. Neste exercício, irá adicionar conteúdos a essa célula e adicionar outras células para importar pacotes Python, tais como NumPy, carregar um par de ficheiros de dados da NASA com dados climáticos e criar um gráfico de dispersão a partir dos dados.

  1. Na primeira célula, defina o tipo de célula para Markdown e introduza "Azure Notebook Climate Change Analysis" na própria célula:

    Definindo uma célula de marcação.

    Definir uma célula de markdown

  2. Clique no botão + na barra de ferramentas para adicionar uma nova célula. Certifique-se de que o tipo da célula é Code (Código) e, em seguida, introduza o seguinte código Python na célula:

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Adicionar uma célula de código.

    Adicionar uma célula de código

  3. Agora clique no botão Run (Executar) para executar a célula de código e importar os pacotes especificados nas instruções import. Ignore todos os avisos que são apresentados enquanto o ambiente é preparado pela primeira vez.

    Pode remover os avisos ao selecionar a célula de código e executá-la novamente.

    Executando uma célula de código.

    Executar uma célula de código

  4. Clique em File (Ficheiro) no menu na parte superior da página e selecione Upload (Carregar) a partir do menu pendente. Em seguida, carregue os arquivos chamados 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.

    Carregar dados para o bloco de notas.

    Carregar dados para o bloco de notas

  5. Selecione /project como a sua Destination Folder (Pasta de Destino) para garantir que os seus ficheiros persistem. Clique em Start Upload (Iniciar Carregamento) para carregar os ficheiros e clique em OK quando forem carregados com êxito.

    Seleção da pasta de destino para os dados.

    Selecionar a pasta de destino para os dados

  6. Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Introduza "Import data" (Importar dados) como o texto e altere o tipo da célula para Markdown.

  7. Agora, adicione uma célula do tipo Code (Código) e cole o seguinte código.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Clique no botão Run (Executar) para executar a célula e utilize a função loadtxt do NumPy para carregar os dados que carregou. Os dados estão agora na memória e podem ser utilizados pela aplicação.

    Carregando os dados.

    Carregar os dados

  9. Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Altere o tipo da célula para Markdown e introduza "Create a scatter plot" (Criar um gráfico de dispersão) como o texto.

  10. Adicione uma célula do tipo Code (Código) e cole o seguinte código, que utiliza Matplotlib para criar um gráfico de dispersão.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Clique em Run (Executar) para executar a célula e criar um gráfico de dispersão.

    Scatter plot produzido por Matplotlib.

    Gráfico de dispersão produzido pela Matplotlib

O conjunto de dados que carregou utiliza a média de 30 anos, entre 1951 e 1980, para calcular a temperatura base durante esse período e, em seguida, utiliza a média de cinco anos para calcular a diferença entre a média de cinco anos e a média de 30 anos para cada ano. O gráfico de dispersão apresenta as diferenças de temperatura anuais.