Ejercicio: Carga de datos y creación de un gráfico de dispersión
Los cuadernos de Jupyter se componen de celdas. A cada celda se le asigna uno de entre tres tipos:
- Markdown para escribir texto en formato Markdown
- Código para escribir código que se ejecuta de forma interactiva
- Raw NBConvert para escribir datos en línea
El código escrito en celdas de código es ejecutado por un kernel, que proporciona un entorno aislado para la ejecución del cuaderno. El popular kernel de IPython admite código escrito en Python, pero hay docenas de otros kernels disponibles que admiten otros lenguajes. Azure Notebooks admite Python, R, y F# de forma predeterminada. También admite la instalación de los muchos paquetes y bibliotecas que se usan habitualmente en investigación.
Actualmente, el editor del cuaderno muestra una celda vacía. En este ejercicio se agrega contenido a esa celda y se agregan otras celdas para importar paquetes de Python como NumPy, cargar un par de archivos de datos de la NASA que contienen datos climatológicos y crear un gráfico de dispersión a partir de los datos.
En la primera celda, establezca el tipo de celda en Markdown y escriba "Análisis de cambio climático de Azure Notebooks" en la propia celda:
Definición de una celda de Markdown
Haga clic en el botón + de la barra de herramientas para agregar una nueva celda. Asegúrese de que el tipo de celda sea Código y luego escriba el siguiente código de Python en la celda:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Incorporación de una celda de código
Ahora haga clic en el botón Ejecutar para ejecutar la celda de código e importar los paquetes especificados en las instrucciones
import
. Omita las advertencias que aparezcan al preparar el entorno por primera vez.Puede quitar las advertencias si selecciona la celda de código y la vuelve a ejecutar.
Ejecución de una celda de código
Haga clic en Archivo en el menú de la parte superior de la página y seleccione Cargar en el menú desplegable. Luego, cargue los archivos denominados 5-year-mean-1951-1980.csv y 5-year-mean-1882-2014.csv.
Carga de datos en el cuaderno
Seleccione /project como Carpeta de destino para asegurarse de que los archivos se conserven. Haga clic en Iniciar cargar para cargar los archivos y en Aceptar una vez que se hayan cargado correctamente.
Selección de la carpeta de destino de los datos
Coloque el cursor en la celda vacía de la parte inferior del cuaderno. Escriba "Importar datos" como texto y cambie el tipo de celda a Markdown.
Ahora agregue una celda de tipo Código y pegue el siguiente código.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
Haga clic en el botón Ejecutar para ejecutar la celda y use la función
loadtxt
de NumPy para cargar los datos que ha cargado. Los datos ya están en memoria y la aplicación puede usarlos.Carga de los datos
Coloque el cursor en la celda vacía de la parte inferior del cuaderno. Cambie el tipo de celda a Markdown y escriba "Crear un gráfico de dispersión" como texto.
Agregue una celda de tipo Código y pegue el código siguiente, que usa Matplotlib para crear un gráfico de dispersión.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()
Haga clic en Ejecutar para ejecutar la celda y crear un gráfico de dispersión.
Gráfico de dispersión generado por Matplotlib
El conjunto de datos cargado usa una media de 30 años entre 1951 y 1980 para calcular una temperatura base para ese período y luego emplea temperaturas medias de 5 años para calcular la diferencia entre la media de 5 años y la media de 30 años de cada año. En el gráfico de dispersión se muestran las diferencias de temperatura anuales.