Übung: Visualisieren der Ausgabe des Modells
In dieser Lerneinheit importieren Sie Matplotlib in das Notebook, mit dem Sie bis jetzt gearbeitet haben, und konfigurieren das Notebook so, dass es Matplotlib-Inlineausgaben unterstützt.
Wechseln Sie zurück zum Azure-Notebook, das Sie im vorherigen Abschnitt erstellt haben. Wenn Sie das Notebook geschlossen haben, können Sie sich erneut beim Microsoft Azure Notebooks-Portal anmelden, Ihr Notebook öffnen und mit Cell>Run all (Zelle > Alle ausführen) alle Zellen im Notebook nach dem Öffnen erneut ausführen.
Führen Sie dazu den folgenden Code in einer neuen Zelle am Ende des Notebooks aus: Ignorieren Sie Warnmeldungen bezüglich des Zwischenspeicherns von Schriftarten:
%matplotlib inline import matplotlib.pyplot as plt import seaborn as sns sns.set()
Die erste Anweisung ist einer von mehreren magic-Befehlen, die vom Python-Kernel unterstützt werden, den Sie ausgewählt haben, als Sie das Notebook erstellt haben. Mit diesem Befehl kann Jupyter Matplotlib-Ausgaben in einem Notebook rendern, ohne show wiederholt aufrufen zu müssen. Er muss verwendet werden, bevor Verweise auf Matplotlib hinzugefügt werden. Sie letzte Anweisung konfiguriert Seaborn, sodass die Ausgabe von Matplotlib optimiert wird.
Sie können sich die Funktionsweise von Matplotlib ansehen. Führen Sie dazu den folgenden Code in einer neuen Zelle aus, um die ROC-Kurve für das Machine Learning-Modell zu plotten, das Sie im vorherigen Lab erstellt haben:
from sklearn.metrics import roc_curve fpr, tpr, _ = roc_curve(test_y, probabilities[:, 1]) plt.plot(fpr, tpr) plt.plot([0, 1], [0, 1], color='grey', lw=1, linestyle='--') plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate')
Dann sollten Sie die folgende Ausgabe sehen:
ROC-Kurve, die mit Matplotlib generiert wurde
Die gestrichelte Linie in der Mitte des Graphen stellt eine 50-50-Chance einer korrekten Antwort dar. Die blaue Kurve ist die Treffergenauigkeit Ihres Modells. Darüber hinaus ist es wichtig, dass dieses Diagramm überhaupt angezeigt wird, denn das bedeutet, dass Sie Matplotlib in einem Jupyter-Notebook verwenden können.
Sie haben ein Machine Learning-Modell erstellt, um vorherzusagen, ob ein Flug pünktlich sein wird. In dieser Übung schreiben Sie eine Python-Funktion, die das Machine Learning-Modell aufruft, dass Sie im vorherigen Lab erstellt haben, um die Wahrscheinlichkeit der Pünktlichkeit des Fluges zu berechnen. Dann analysieren Sie mit dieser Funktion mehrere Flüge.
Geben Sie die folgende Funktionsdefinition in eine neue Zelle ein, und führen Sie diese aus.
def predict_delay(departure_date_time, origin, destination): from datetime import datetime try: departure_date_time_parsed = datetime.strptime(departure_date_time, '%d/%m/%Y %H:%M:%S') except ValueError as e: return 'Error parsing date/time - {}'.format(e) month = departure_date_time_parsed.month day = departure_date_time_parsed.day day_of_week = departure_date_time_parsed.isoweekday() hour = departure_date_time_parsed.hour origin = origin.upper() destination = destination.upper() input = [{'MONTH': month, 'DAY': day, 'DAY_OF_WEEK': day_of_week, 'CRS_DEP_TIME': hour, 'ORIGIN_ATL': 1 if origin == 'ATL' else 0, 'ORIGIN_DTW': 1 if origin == 'DTW' else 0, 'ORIGIN_JFK': 1 if origin == 'JFK' else 0, 'ORIGIN_MSP': 1 if origin == 'MSP' else 0, 'ORIGIN_SEA': 1 if origin == 'SEA' else 0, 'DEST_ATL': 1 if destination == 'ATL' else 0, 'DEST_DTW': 1 if destination == 'DTW' else 0, 'DEST_JFK': 1 if destination == 'JFK' else 0, 'DEST_MSP': 1 if destination == 'MSP' else 0, 'DEST_SEA': 1 if destination == 'SEA' else 0 }] return model.predict_proba(pd.DataFrame(input))[0][0]
Die Funktion akzeptiert ein Datum und eine Uhrzeit und den Code eines Abflug- und eines Zielflughafens als Eingabe und gibt einen Wert zwischen 0,0 und 1,0 zurück, der die Wahrscheinlichkeit der pünktlichen Ankunft eines Fluges angibt. Sie verwendet das Machine Learning-Modell aus dem vorherigen Lab, um die Wahrscheinlichkeit zu berechnen. Sie ruft das Modell auf, indem Sie eine Datenmatrix mit den Eingabewerten an
predict_proba
übergibt. Die Struktur der Datenmatrix stimmt genau mit der Struktur der Datenmatrix überein, die wir bereits verwendet haben.Hinweis
Das Datum, das als Eingabe an die
predict_delay
-Funktion übergeben wird, weist das internationalen Datumsformatdd/mm/year
auf.Mit dem unten stehenden Code können Sie die Wahrscheinlichkeit berechnen, mit der ein Flug von New York nach Atlanta am Abend des 1. Oktobers pünktlich sein wird. Das eingegebene Jahr ist nicht relevant, da es nicht vom Modell verwendet wird.
predict_delay('1/10/2018 21:45:00', 'JFK', 'ATL')
Die Ausgabe sollte besagen, dass die Wahrscheinlichkeit der pünktlichen Ankunft des Fluges bei 60 % liegt:
Vorhersagen der Pünktlichkeit eines Fluges
Passen Sie den Code an, um zu berechnen, wie wahrscheinlich der Flug einen Tag später pünktlich sein wird:
predict_delay('2/10/2018 21:45:00', 'JFK', 'ATL')
Wie wahrscheinlich ist es, dass dieser Flug pünktlich ist? Wenn Sie flexibel reisen können, würden Sie in Erwägung ziehen, Ihre Reise um einen Tag zu verschieben?
Passen Sie den Code an, um zu berechnen, wie wahrscheinlich ein Morgenflug am gleichen Tag von Atlanta nach Seattle pünktlich sein wird:
predict_delay('2/10/2018 10:00:00', 'ATL', 'SEA')
Wie wahrscheinlich ist es, dass dieser Flug pünktlich ist?
Jetzt können Sie ganz einfach mit nur einer Codezeile vorhersagen, wie wahrscheinlich ein Flug pünktlich sein wird. Probieren Sie auch andere Datumsangaben, Uhrzeiten und Abflug- und Zielflughäfen aus, um sich unterschiedliche Ergebnisse anzusehen. Denken Sie jedoch daran, dass die Ergebnisse nur für die Flughafencodes ATL, DTW, JFK, MSP und SEA aussagekräftig sind, da das Modell nur mit diesen Codes trainiert wurde.
Führen Sie den folgenden Code aus, um die Wahrscheinlichkeit der Pünktlichkeit eines Abendflugs von JFK nach ATL zu plotten:
import numpy as np labels = ('Oct 1', 'Oct 2', 'Oct 3', 'Oct 4', 'Oct 5', 'Oct 6', 'Oct 7') values = (predict_delay('1/10/2018 21:45:00', 'JFK', 'ATL'), predict_delay('2/10/2018 21:45:00', 'JFK', 'ATL'), predict_delay('3/10/2018 21:45:00', 'JFK', 'ATL'), predict_delay('4/10/2018 21:45:00', 'JFK', 'ATL'), predict_delay('5/10/2018 21:45:00', 'JFK', 'ATL'), predict_delay('6/10/2018 21:45:00', 'JFK', 'ATL'), predict_delay('7/10/2018 21:45:00', 'JFK', 'ATL')) alabels = np.arange(len(labels)) plt.bar(alabels, values, align='center', alpha=0.5) plt.xticks(alabels, labels) plt.ylabel('Probability of On-Time Arrival') plt.ylim((0.0, 1.0))
Vergewissern Sie sich, dass die Ausgabe folgendermaßen aussieht:
Wahrscheinlichkeit der pünktlichen Ankunft mit verschiedenen Datumswerten
Passen Sie den Code an, um ein ähnliches Diagramm für Flüge von JFK nach MSP vom 10. bis zum 16. April zu erzeugen. Wie unterscheidet sich die Ausgabe von der vorherigen Ausgabe?
Schreiben Sie selbstständig Code, um die Wahrscheinlichkeit der Pünktlichkeit von Flügen von SEA nach ATL am 30. Januar um 9:00 Uhr, 12:00 Uhr, 15:00 Uhr, 18:00 Uhr und 21:00 Uhr grafisch darzustellen. Vergewissern Sie sich, dass die Ausgabe folgendermaßen aussieht:
Wahrscheinlichkeit der pünktlichen Ankunft mit verschiedenen Uhrzeitwerten
Wenn Sie Matplotlib noch nicht gut kennen und gerne mehr darüber erfahren würden, finden Sie unter https://www.labri.fr/perso/nrougier/teaching/matplotlib/.. Matplotlib hat viele weitere Funktionen, die wir hier nicht besprochen haben, die zu seiner Beliebtheit in der Python-Community beitragen.