Exercício – Carregar dados e criar um gráfico de dispersão
Os Jupyter Notebooks são compostos por células. Cada célula recebe um dos três tipos:
- Markdown para inserir o texto no formato markdown
- Código para inserir o código que é executado de forma interativa
- NBConvert Bruto para inserção de dados embutidos
O código inserido em células de código é executado por um kernel, que fornece um ambiente isolado no qual executar o notebook. O kernel popular do IPython dá suporte ao código escrito no Python, mas dezenas de outros kernels estão disponíveis para dar suporte a outras linguagens. O Azure Notebooks dá suporte pronto para uso ao Python, ao R e ao F#. Ele também dá suporte à instalação das muitas bibliotecas e dos muitos pacotes que são comumente usados em pesquisas.
Atualmente, o editor de notebook mostra uma célula vazia. Neste exercício, você adicionará conteúdo a essa célula e adicionará outras células para importar pacotes do Python, como NumPy, carregará um par de arquivos de dados da NASA contendo dados de clima e criará um gráfico de dispersão com base nos dados.
Na primeira célula, defina o tipo de célula como Markdown e insira a "Análise de Mudanças Climáticas do Azure Notebook" na própria célula:
Definindo uma célula de markdown
Clique no botão + na barra de ferramentas para adicionar uma nova célula. Verifique se o tipo de célula é Código e, em seguida, insira o seguinte código Python na célula:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Adicionando uma célula de código
Agora, clique no botão Executar para executar a célula de código e importar os pacotes especificados nas instruções
import
. Ignore os avisos exibidos enquanto o ambiente é preparado pela primeira vez.Remova os avisos selecionando a célula de código e executando-a novamente.
Executando uma célula de código
Clique em Arquivo no menu na parte superior da página e selecione Carregar no menu suspenso. Em seguida, carregue os arquivos 5-year-mean-1951-1980.csv e 5-year-mean-1882-2014.csv.
Carregando dados no notebook
Selecione /project como a Pasta de Destino para garantir a persistência dos arquivos. Clique em Iniciar Upload para carregar os arquivos e em OK depois que eles forem carregados com êxito.
Selecionando a pasta de destino para os dados
Coloque o cursor na célula vazia na parte inferior do notebook. Insira "Importar dados" como o texto e altere o tipo de célula para Markdown.
Agora, adicione uma célula de Código e cole o código a seguir.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
Clique no botão Executar para executar a célula e use a função
loadtxt
do NumPy para carregar os dados carregados. Os dados agora estão na memória e podem ser usados pelo aplicativo.Carregando os dados
Coloque o cursor na célula vazia na parte inferior do notebook. Altere o tipo de célula para Markdown e insira "Criar um gráfico de dispersão" como o texto.
Adicione uma célula de Código e cole o código a seguir, que usa Matplotlib para criar um gráfico de dispersão.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()
Clique em Executar para executar a célula e criar um gráfico de dispersão.
Gráfico de dispersão produzido pelo Matplotlib
O conjunto de dados carregado usa uma média de 30 anos entre 1951 e 1980 para calcular uma temperatura base para esse período e, em seguida, usa temperaturas médias de 5 anos para calcular a diferença entre a média de 5 anos e a média de 30 anos de cada ano. O gráfico de dispersão mostra as diferenças de temperatura anuais.