Oefening: gegevens uploaden en spreidingsplot maken
Jupyter-notebooks bestaan uit cellen. Aan elke cel wordt een van volgende drie typen toegewezen:
- Markdown voor het invoeren van tekst in de markdown-indeling
- Code voor het invoeren van code die interactief wordt uitgevoerd
- Raw NBConvert voor het inline invoeren van gegevens
De code die wordt ingevoerd in de cellen, wordt uitgevoerd door een kernel. Deze kernel biedt een geïsoleerde omgeving waarin het notebook kan worden uitgevoerd. De populaire IPython-kernel biedt ondersteuning voor code die is geschreven in Python, maar er zijn tal van andere kernels beschikbaar die andere talen ondersteunen. Azure-notebooks bieden standaard ondersteuning voor Python, R en F#. Ze bieden ook ondersteuning voor de installatie van diverse andere pakketten en bibliotheken die vaak voor onderzoeksdoeleinden worden gebruikt.
De notebookeditor bevat momenteel een lege cel. In deze oefening voegt u inhoud aan de cel toe en voegt u andere cellen toe om Python-pakketten zoals NumPy te importeren, een paar NASA-gegevensbestanden met klimaatgegevens te laden en een spreidingsplot van de gegevens te maken.
Stel de eerste cel in op Markdown en geef in de cel zelf de tekst 'Azure Notebook klimaatveranderingsanalyse' op:
Een markdowncel definiëren
Klik op de knop + op de werkbalk om een nieuwe cel toe te voegen. Zorg ervoor dat de cel van het type Code is en geef vervolgens de volgende Python-code in de cel op:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Een codecel toevoegen
Klik nu op de knop Uitvoeren om de codecel uit te voeren en de pakketten te importeren die zijn opgegeven in de
import
-instructies. Eventuele waarschuwingen kunnen worden genegeerd, aangezien de omgeving voor het eerst wordt voorbereid.U kunt de waarschuwingen verwijderen door de codecel te selecteren en deze opnieuw uit te voeren.
Een codecel uitvoeren
Klik in het menu bovenaan de pagina op Bestand en selecteer in de vervolgkeuzelijst de optie Uploaden. Upload vervolgens de bestanden met de naam 5-year-mean-1951-1980.csv en 5-year-mean-1882-2014.csv.
Gegevens uploaden naar het notebook
Selecteer /project als uw Doelmap om ervoor te zorgen dat uw bestanden behouden blijven. Klik op Uploaden starten om de bestanden te uploaden en klik op OK zodra ze zijn geüpload.
Een doelmap voor de gegevens selecteren
Plaats de muisaanwijzer in de lege cel onderaan het notebook. Voer de tekst 'Gegevens importeren' in en wijzig het celtype in Markdown.
Voeg nu een cel van het type Code toe en plak de volgende code in de cel.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
Klik op de knop Uitvoeren om de cel uit te voeren en gebruik de NumPy-functie
loadtxt
om de gegevens te laden die u hebt geüpload. De gegevens staan nu in het geheugen en kunnen worden gebruikt door de toepassing.De gegevens laden
Plaats de muisaanwijzer in de lege cel onderaan het notebook. Wijzig het type cel in Markdown en voer de tekst 'Een spreidingsplot maken' in.
Voeg een cel van het type Code toe en plak de volgende code in de cel. De code maakt gebruik van Matplotlib om een spreidingsplot te maken.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()
Klik op Uitvoeren om de cel uit te voeren en een spreidingsplot te maken.
Spreidingsplot gemaakt met Matplotlib
De gegevensset die u hebt geladen gebruikt een gemiddelde over een periode van dertig jaar, tussen 1951 en 1980, om een referentietemperatuur voor die periode te berekenen. Vervolgens wordt de gemiddelde temperatuur over een periode van vijf jaar gebruikt om het verschil tussen het gemiddelde over 5 jaar en het gemiddelde over 30 jaar voor elk jaar te berekenen. De spreidingsplot toont de jaarlijkse temperatuurverschillen.