Exercício – Carregar Dados e Criar Gráfico de Dispersão
Os blocos de notas do Jupyter são compostos por células. É atribuído um de três tipos a cada célula:
- Markdown para introduzir texto no formato markdown
- Code para introduzir código que é executado interativamente
- Raw NBConvert para introduzir dados inline
O código introduzido nas células de código é executado por um kernel que proporciona um ambiente isolado para executar o bloco de notas. O kernel popular IPython suporta código escrito em Python, mas estão disponíveis muitos outros kernels noutros idiomas. O Azure Notebooks suporta Python, R, e F# prontos a utilizar. Também suporta a instalação de vários pacotes e bibliotecas que são frequentemente utilizados em investigação.
Neste momento, o editor do bloco de notas apresenta uma célula vazia. Neste exercício, irá adicionar conteúdos a essa célula e adicionar outras células para importar pacotes Python, tais como NumPy, carregar um par de ficheiros de dados da NASA com dados climáticos e criar um gráfico de dispersão a partir dos dados.
Na primeira célula, defina o tipo de célula para Markdown e introduza "Azure Notebook Climate Change Analysis" na própria célula:
Definir uma célula de markdown
Clique no botão + na barra de ferramentas para adicionar uma nova célula. Certifique-se de que o tipo da célula é Code (Código) e, em seguida, introduza o seguinte código Python na célula:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Adicionar uma célula de código
Agora clique no botão Run (Executar) para executar a célula de código e importar os pacotes especificados nas instruções
import
. Ignore todos os avisos que são apresentados enquanto o ambiente é preparado pela primeira vez.Pode remover os avisos ao selecionar a célula de código e executá-la novamente.
Executar uma célula de código
Clique em File (Ficheiro) no menu na parte superior da página e selecione Upload (Carregar) a partir do menu pendente. Em seguida, carregue os arquivos chamados 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.
Carregar dados para o bloco de notas
Selecione /project como a sua Destination Folder (Pasta de Destino) para garantir que os seus ficheiros persistem. Clique em Start Upload (Iniciar Carregamento) para carregar os ficheiros e clique em OK quando forem carregados com êxito.
Selecionar a pasta de destino para os dados
Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Introduza "Import data" (Importar dados) como o texto e altere o tipo da célula para Markdown.
Agora, adicione uma célula do tipo Code (Código) e cole o seguinte código.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
Clique no botão Run (Executar) para executar a célula e utilize a função
loadtxt
do NumPy para carregar os dados que carregou. Os dados estão agora na memória e podem ser utilizados pela aplicação.Carregar os dados
Coloque o cursor numa célula vazia na parte inferior do bloco de notas. Altere o tipo da célula para Markdown e introduza "Create a scatter plot" (Criar um gráfico de dispersão) como o texto.
Adicione uma célula do tipo Code (Código) e cole o seguinte código, que utiliza Matplotlib para criar um gráfico de dispersão.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()
Clique em Run (Executar) para executar a célula e criar um gráfico de dispersão.
Gráfico de dispersão produzido pela Matplotlib
O conjunto de dados que carregou utiliza a média de 30 anos, entre 1951 e 1980, para calcular a temperatura base durante esse período e, em seguida, utiliza a média de cinco anos para calcular a diferença entre a média de cinco anos e a média de 30 anos para cada ano. O gráfico de dispersão apresenta as diferenças de temperatura anuais.