Ćwiczenie — tworzenie notesu platformy Azure i importowanie danych
Najpierw należy utworzyć nowy notes platformy Azure. Notesy platformy Azure znajdują się w projektach, których głównym celem jest grupowanie powiązanych notesów. W trakcie tej lekcji utworzysz nowy projekt, a następnie utworzysz w nim notes.
W przeglądarce przejdź do strony https://notebooks.azure.com
Zaloguj się za pomocą konta Microsoft.
W menu w górnej części strony kliknij pozycję My Projects (Moje projekty).
Kliknij przycisk + New Project (+ Nowy projekt) znajdujący się u góry strony „Moje projekty”.
Utwórz nowy projekt o nazwie „ML Notebooks” lub podobnej. Jeśli chcesz, możesz usunąć zaznaczenie pola wyboru „Public” (Publiczny), ale upublicznienie projektu umożliwia udostępnienie innym osobom znajdujących się w nim notesów za pośrednictwem linków, mediów społecznościowych lub wiadomości e-mail. Jeśli nie wiesz, co wybrać, możesz łatwo zmienić stan projektu na publiczny lub prywatny w późniejszym czasie.
Tworzenie projektu
Kliknij pozycję + New (+ Nowy) i wybierz z menu pozycję Notebook (Notes), aby dodać notes do projektu.
Dodawanie notesu do projektu
Nadaj notesowi nazwę, na przykład „On-Time Flight Arrivals.ipynb” (Przyloty punktualne.ipynb), a następnie wybierz język Python 3.6. Spowoduje to utworzenie notesu za pomocą jądra języka Python 3.6 na potrzeby wykonywania kodu w języku Python. Jedną z zalet notesów platformy Azure jest to, że można w nich używać różnych języków, wybierając różne jądra.
Tworzenie notesu
Jeśli jesteś ciekawy, rozszerzenie .ipynb file-name oznacza "IPython notebook". Notesy Jupyter były pierwotnie znane jako notesy IPython (Interactive Python) i obsługiwały tylko język Python jako język programowania. Nazwa Jupyter to połączenie nazw języków Julia, Python i R — głównych języków programowania obsługiwanych przez program Jupyter.
Kliknij notes, aby otworzyć go do edycji.
Otwieranie notesu
Podczas pracy w usłudze Azure Notebooks możesz tworzyć dodatkowe projekty i notesy. Możesz tworzyć notesy od podstaw lub przekazywać istniejące notesy.
Notesy programu Jupyter są wysoce interaktywne, a ponieważ mogą zawierać kod wykonywalny, stanowią doskonałą platformę do manipulowania danymi i tworzenia na ich podstawie modeli predykcyjnych.
Wprowadź następujące polecenie w pierwszej komórce notesu:
!curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
Napiwek
curl
to polecenie powłoki Bash. W notesie programu Jupyter możesz wykonywać polecenia powłoki Bash, poprzedzając je znakiem wykrzyknika. To polecenie pobiera plik CSV z magazynu obiektów blob platformy Azure i zapisuje go przy użyciu nazwy flightdata.csv.Kliknij przycisk Run (Uruchom), aby wykonać polecenie
curl
.Importowanie zestawu danych
W drugiej komórce notesu wprowadź następujący kod języka Python, aby załadować plik flightdata.csv, utworzyć na jego podstawie obiekt DataFrame biblioteki Pandas i wyświetlić pięć pierwszych wierszy.
import pandas as pd df = pd.read_csv('flightdata.csv') df.head()
Kliknij przycisk Run (Uruchom), aby wykonać kod. Upewnij się, że dane wyjściowe są podobne do danych pokazanych poniżej.
Ładowanie zestawu danych
Utworzony obiekt DataFrame zawiera informacje o punktualnych przylotach dla dużej amerykańskiej linii lotniczej. Zawiera on ponad 11 000 wierszy i 26 kolumn. (Dane wyjściowe zawierają wartość "5 wierszy", ponieważ funkcja head ramki danych zwraca tylko pięć pierwszych wierszy). Każdy wiersz reprezentuje jeden lot i zawiera informacje, takie jak źródło, miejsce docelowe, zaplanowany czas odlotu i czy lot przybył na czas, czy późno. Przyjrzymy się tym danym dokładniej nieco później w tym module.
Użyj polecenia File ->Save and Checkpoint, aby zapisać notes.
Użyj poziomego paska przewijania, aby przewinąć w lewo i w prawo i wyświetlić wszystkie kolumny w zestawie danych. Ile kolumn zawiera zestaw danych? Czy na podstawie nazw kolumn potrafisz zgadnąć, co reprezentuje każda kolumna?