練習 - 建立 Azure Notebook 並匯入資料
首要之務是建立新的 Azure 筆記本。 Azure 筆記本會包含在專案中,其主要用途是將相關的筆記本分組。 在此單元中,您將建立新的專案,然後在其中建立筆記本。
在瀏覽器中巡覽至 https://notebooks.azure.com
使用您的 Microsoft 帳戶登入。
在頁面頂端的功能表中,按一下 [我的專案]。
按一下 [我的專案] 頁面頂端的 [+ New Project] (+ 新增專案) 按鈕。
建立名為 "ML Notebooks" 的新專案或類似的專案。 需要的話,您可以取消核取 [公用] 方塊,但將專案設定為公用可透過連結、社交媒體或電子郵件與其他人共用其中的筆記本。 如果您不確定要選擇哪一項,可在稍後輕鬆將專案變更為公用或私人。
建立專案
按一下 [+ 新增],然後選取功能表中的 [筆記本],將筆記本將新增至專案。
「正在將筆記本新增至專案」
將筆記本命名為 "On-Time Flight Arrivals.ipynb" 之類的名稱,然後選取 Python 3.6 作為語言。 這會建立具有 Python 3.6 核心的筆記本,用於執行 Python 程式碼。 Azure 筆記本的其中一個優點,就是您可以藉由選擇不同核心來使用不同語言。
建立筆記本
若您想要知道 .ipynb 副檔名是什麼,其代表 "IPython notebook"。Jupyter Notebook 原本稱為 IPython (互動式 Python) Notebook,且僅支援 Python 作為程式設計語言。 Jupyter 這個名稱是 Julia、Python 和 R 的組合,這些是 Jupyter 支援的核心程式設計語言。
按一下筆記本加以開啟,以便編輯。
開啟筆記本
當您使用 Azure Notebook 時,您可以建立其他專案和筆記本。 您可以從頭建立筆記本,也可以上傳現有的筆記本。
Jupyter Notebook 的互動性極高,因為其可以包含可執行的程式碼,所以能夠針對從中操作資料及建置預測性模型等作業提供完美的平台。
在筆記本的第一個儲存格中輸入下列命令:
!curl https://topics.blob.core.windows.net/public/FlightData.csv -o flightdata.csv
提示
curl
是 Bash 命令。 您可以在 Jupyter 筆記本中,透過在 Bash 命令前面加上驚嘆號來執行這些命令。 此命令會從 Azure Blob 儲存體下載 CSV 檔案,並使用 flightdata.csv 名稱加以儲存。按一下 [執行] 按鈕以執行
curl
命令。「匯入資料集」
在筆記本的第二個資料格中,輸入下列 Python 程式碼以載入 flightdata.csv,從中建立 Pandas DataFrame,並顯示前五個資料列。
import pandas as pd df = pd.read_csv('flightdata.csv') df.head()
按一下 [執行] 按鈕以執行程式碼。 確認輸出類似於以下輸出。
「正在載入資料集」
您建立的 DataFrame 包含美國主要航空公司的準時抵達資訊。 其擁有超過 11,000 個資料列與 26 個資料行。 (輸出顯示「5 個資料列」,因為 DataFrame 的 head 函式只會傳回前五個資料列。) 每個資料列都代表一個航班,其中包含起點、目的地、已排程出發時間,以及航班是否準時抵達的資訊。 我們將在本課程模組稍後更深入探討此資料。
使用 File ->Save and Checkpoint 命令來儲存筆記本。
您可以使用水平捲軸左右捲動,並檢視資料集內的所有資料行。 資料集包含多少個資料行? 您能從資料行名稱猜出每個資料行代表的項目嗎?