Übung: Hochladen von Daten und Erstellen eines Punktdiagramms
Jupyter-Notebooks bestehen aus Zellen. Jeder Zelle wird einer von drei Typen zugewiesen:
- Markdown für die Eingabe von Text im Format Markdown
- Code für die Eingabe von Code, der interaktiv ausgeführt wird
- Unformatierte NBConvert für die Inlineeingabe von Daten
Code, der in Codezellen eingegeben wird, wird von einem Kernel ausgeführt, der eine isolierte Umgebung für die Ausführung des Notebooks bereitstellt. Der beliebte IPython-Kernel unterstützt Code, der in Python geschrieben wurde, aber es sind Dutzende andere Kernel verfügbar, die andere Sprachen unterstützen. Azure-Notebooks unterstützen sofort Python, R und F#. Sie unterstützen auch die Installation der vielen Pakete und Bibliotheken, die häufig in der Forschung verwendet werden.
Der Notebook-Editor zeigt aktuell eine leere Zelle an. In dieser Übung fügen Sie dieser Zelle Inhalte hinzu. Außerdem fügen Sie weitere Zellen für den Import von Python-Paketen wie NumPy hinzu, laden ein Paar NASA-Datendateien mit Klimadaten und erstellen aus den Daten ein Punktdiagramm.
Legen Sie den Zellentyp in der ersten Zelle auf Markdown fest, und geben Sie in die Zelle „Azure Notebook Climate Change Analysis“ (Azure-Notebook Klimawandelanalyse) ein:
Definieren einer Markdownzelle
Klicken Sie in der Symbolleiste auf die Schaltfläche +, um eine neue Zelle hinzuzufügen. Stellen Sie sicher, dass der Zellentyp Code ist, und geben Sie dann den folgenden Python-Code in die Zelle ein:
import matplotlib.pyplot as plt import numpy as np from sklearn.linear_model import LinearRegression import seaborn as sns; sns.set()
Hinzufügen einer Codezelle
Klicken Sie nun auf die Schaltfläche Ausführen, um die Codezelle auszuführen und die in den
import
-Anweisungen angegebenen Pakete zu importieren. Ignorieren Sie alle Warnungen, die angezeigt werden, wenn die Umgebung zum ersten Mal vorbereitet wird.Sie können die Warnungen entfernen, indem Sie die Codezelle auswählen und erneut ausführen.
Ausführen einer Codezelle
Klicken Sie im Menü oben auf der Seite auf Datei, und wählen Sie im Dropdownmenü Upload (Hochladen) aus. Laden Sie dann die Dateien 5-year-mean-1951-1980.csv und 5-year-mean-1882-2014.csv hoch.
Hochladen von Daten in das Notebook
Wählen Sie /project (/Projekt) als Zielordner aus, um Ihre Dateien dauerhaft bereitzustellen. Klicken Sie zum Hochladen der Dateien auf Upload starten und nach dem erfolgreichen Hochladen auf OK.
Auswählen des Zielordners für die Daten
Platzieren Sie den Cursor in die leere Zelle unten im Notebook. Geben Sie als Text „Import data“ (Daten importieren) ein, und ändern Sie den Zellentyp in Markdown.
Fügen Sie nun eine Codezelle hinzu, und fügen Sie den folgenden Code ein.
yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True) years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
Klicken Sie auf die Schaltfläche Ausführen, um die Zelle auszuführen, und verwenden Sie die Funktion
loadtxt
von NumPy, um die hochgeladenen Daten zu laden. Die Daten befinden sich nun im Arbeitsspeicher und können von der Anwendung verwendet werden.Laden der Daten
Platzieren Sie den Cursor in die leere Zelle unten im Notebook. Ändern Sie den Zellentyp in Markdown, und geben Sie als Text „Create a scatter plot“ (Punktdiagramm erstellen) ein.
Fügen Sie eine Zelle vom Typ Code hinzu, und fügen Sie den folgenden Code ein, in dem Matplotlib zum Erstellen eines Punktdiagramms verwendet wird.
plt.scatter(yearsBase, meanBase) plt.title('scatter plot of mean temp difference vs year') plt.xlabel('years', fontsize=12) plt.ylabel('mean temp difference', fontsize=12) plt.show()
Klicken Sie auf Ausführen, um die Zelle auszuführen und ein Punktdiagramm zu erstellen.
Von Matplotlib erzeugtes Punktdiagramm
In dem Dataset, das Sie geladen haben, wird ein Mittelwert für einen Zeitraum von 30 Jahren von 1951 bis 1980 verwendet, um eine Basistemperatur für diesen Zeitraum zu berechnen. Dann werden Durchschnittstemperaturen aus einem Zeitraum von 5 Jahren verwendet, um den Unterschied zwischen dem 5-Jahre-Mittelwert und dem 30-Jahre-Mittelwert für jedes Jahr zu berechnen. Das Punktdiagramm stellt die jährlichen Temperaturunterschiede dar.