練習 - 清理和準備資料
您必須先了解資料集的內容和結構,才能準備資料集。 在上一個實驗室中,您匯入了包含美國主要航空公司之準時到達資訊的資料集。 該資料包含 26 個資料行和數千個資料列,每個資料列代表一個航班,包含航班出發地、目的地,以及表定起飛時間等資訊。 您也將資料載入 Jupyter 筆記本中,並使用簡單的 Python 指令碼從中建立 Pandas DataFrame。
DataFrame 是二維標記資料結構。 DataFrame 中的資料行可以是不同類型,就像試算表或資料庫資料表中的資料行一樣。 其為 Pandas 中最常使用的物件。 在此練習中,您會更仔細檢查 DataFrame 及其內部的資料。
切換回您在上一節中建立的 Azure 筆記本。 如果您已關閉筆記本,您可以重新登入 Microsoft Azure Notebooks 入口網站,開啟筆記本並使用 [資料格] ->[全部執行],並於開啟筆記本後在其中重新執行所有資料格。
FlightData 筆記本
您在上一個實驗中新增至筆記本的程式碼,會從 flightdata.csv 建立 DataFrame,並在其上呼叫 DataFrame.head 以顯示前五個資料列。 關於資料集,您通常想要了解的第一件事,是其所包含的資料列數目。 若要取得計數,請在筆記本結尾的空白資料格中輸入下列陳述式並執行:
df.shape
確認 DataFrame 包含 11,231 個資料列和 26 個資料行:
取得資料列和資料行計數
現在請花點時間檢查資料集內的 26 個資料行。 它們包含重要資訊,例如航班的日期 (YEAR、MONTH 和 DAY_OF_MONTH)、起點和終點 (ORIGIN 和 DEST)、表定起飛和到達時間 (CRS_DEP_TIME 和 CRS_ARR_TIME)、表定到達時間和實際到達時間之間的分鐘差異 (ARR_DELAY),以及航班是否誤點 15 分鐘以上 (ARR_DEL15)。
下列是資料集中資料行的完整清單。 時間以 24 小時制軍事時間表示。 例如,1130 等於上午 11:30,而 1500 等於下午 3:00。
資料行 描述 YEAR 航班的年份 QUARTER 航班的季度 (1-4) MONTH 航班的月份 (1-12) DAY_OF_MONTH 航班月份中的日期 (1-31) DAY_OF_WEEK 航班是星期幾 (1=星期一、2=星期二,依此類推) UNIQUE_CARRIER 航空公司代碼 (例如 DL) TAIL_NUM 飛機尾端號碼 FL_NUM 航班編號 ORIGIN_AIRPORT_ID 出發地機場的識別碼 ORIGIN 出發地機場代碼 (ATL、DFW、SEA 等等) DEST_AIRPORT_ID 目的地機場的識別碼 DEST 目的地機場代碼 (ATL、DFW、SEA 等等) CRS_DEP_TIME 表定起飛時間 DEP_TIME 實際起飛時間 DEP_DELAY 誤點分鐘數 DEP_DEL15 0=航班誤點低於 15 分鐘、1=航班誤點 15 分鐘以上 CRS_ARR_TIME 表定到達時間 ARR_TIME 實際到達時間 ARR_DELAY 航班誤點分鐘數 ARR_DEL15 0=誤點不超過 15 分鐘,1=誤點 15 分鐘以上 CANCELLED 0=航班未取消,1=航班已取消 DIVERTED 0=航班未轉向,1=航班已轉向 CRS_ELAPSED_TIME 表定飛行時間 (分鐘) ACTUAL_ELAPSED_TIME 實際飛行時間 (分鐘) DISTANCE 航行距離 (英哩)
該資料集的全年日期分佈大致平均,這很重要,因為明尼阿波里斯市航班在 7 月時不太可能像在 1 月時的冬季風暴而誤點。 但是,此資料集還遠遠稱不上是「乾淨」且已隨時可用。 讓我們撰寫一些 Pandas 程式碼來加以清理。
準備用於機器學習之資料集的最重要層面之一是,選取與您嘗試預測結果相關的「功能」資料行,同時篩選掉不會影響結果的資料行,可能會以負面方式對其造成偏差,或可能產生 Multicollinearity (多重共線性)。 另一個重要工作是去除遺漏的值,方式為刪除包含這些值的資料列或資料行,或以有意義的值來加以取代。 在此練習中,您將刪除多餘的資料行,並取代其餘資料行中的遺漏值。
資料科學家通常會在資料集中尋找的第一個項目,就是遺漏的值。 沒有簡單的方法可檢查 Pandas 中的遺漏值。 為了示範,請在筆記本結尾的資料格中執行下列程式碼:
df.isnull().values.any()
確認輸出為 "True",指出資料集中至少有一個遺漏值。
檢查遺漏值
下一步是找出遺漏值的位置。 若要執行此動作,請執行下列程式碼:
df.isnull().sum()
確認您有看到下列輸出,列出每一個資料行中遺漏值的計數:
每一個資料行中的遺漏值數
奇怪的是,第 26 個資料行 ("未命名: 25") 包含 11,231 個遺漏值,這等於資料集中的資料列數。 此資料行是不小心建立的,因為您匯入的 CSV 檔案在每一行結尾都包含了一個逗號。 若要消除該資料行,請將下列程式碼新增到筆記本中並加以執行:
df = df.drop('Unnamed: 25', axis=1) df.isnull().sum()
檢查輸出並確認第 26 資料行已從 DataFrame 中消失:
移除第 26 資料行的 DataFrame
DataFrame 仍包含許多遺失值,但其中某些遺失值並不實用,因為包含它們之資料行與您正在建置的模型無關。 該模型的目標是預測您正在考慮預訂的航班可能會準時抵達。 若您知道該航班可能會延誤,您便可能會選擇其他航班。
因此,下一步便是篩選資料集來消除與預測模型無關的資料行。 例如,飛機的尾端號碼與航班是否會準時抵達可能沒什麼關係,且當您預訂機票時,您也無法得知航班是否會遭到取消、改道或延誤。 相較之下,表定起飛時間可能會與準時抵達「高度相關」。 由於大多數航空公司使用的中樞和支點系統,上午的航班通常會比下午或晚上航班更常準時。 而在某些主要機場中,交通可能會在白天大量堆疊,增加後續航班延誤的可能性。
Pandas 提供一種簡單的方式,可讓您篩選掉您不需要的資料行。 請在筆記本結尾的新資料格中執行下列程式碼:
df = df[["MONTH", "DAY_OF_MONTH", "DAY_OF_WEEK", "ORIGIN", "DEST", "CRS_DEP_TIME", "ARR_DEL15"]] df.isnull().sum()
輸出會顯示 DataFrame 現在只包含與模型相關的資料行,且遺漏值的數量也已大幅減少:
篩選後的 DataFrame
現在包含遺失值的唯一資料行即是 ARR_DEL15 資料行,該資料行使用 0s 來識別準時抵達的航班,並使用 1s 來識別未準時抵達的航班。 請使用下列程式碼來顯示具有遺漏值的前五個資料列:
df[df.isnull().values.any(axis=1)].head()
Pandas 會使用
NaN
來代表遺漏值,其代表「非數字」。 輸出會顯示這些資料列的確在 ARR_DEL15 資料行中遺漏了值:具有遺漏值的資料列
這些資料列遺漏 ARR_DEL15 值的原因是它們全部都對應到遭到取消或改道的航班。 您可以在 DataFrame 上呼叫 dropna 來移除這些資料列。 但由於遭到取消或改道至另一個機場的航班可被視為「延誤」,因此讓我們使用 fillna 方法來將遺漏值取代為 1s。
使用下列程式碼將 ARR_DEL15 資料行中的遺失值取代為 1s,並顯示第 177 至第 184 資料列:
df = df.fillna({'ARR_DEL15': 1}) df.iloc[177:185]
確認位於第 177、179 與 184 資料列的
NaN
都已取代為 1s,指出航班已延誤抵達:替換成 1s 的 NaN
由於遺漏值皆已取代,且資料行的清單也已縮減至與模型最相關項目,因此資料集現在在這方面已可視為「乾淨」。 但是您還未完成。 準備資料集以用於機器學習服務,仍需要許多作業來進行準備。
您正在使用資料集中的 CRS_DEP_TIME 資料行代表排程後的起飛時間。 此資料行中數字的細微性 (包含超過 500 個唯一值) 可能會對機器學習服務模型中的正確性產生不良影響。 您可以使用稱為量化的技術來解決此問題。 若您將此資料行中每個數字都除以 100 並捨去到最接近的整數會怎麼樣? 1030 會變成 10,1925 會變成 19 等,且您將會需要面對此資料行中最多 24 個離散值。 直覺來說,這很合理,因為航班究竟是上午 10:30 或上午 10:40 起飛並沒有太大差別。但如果是上午 10:30 或下午 5:30 起飛,就有差別了。
此外,資料集的 ORIGIN 和 DEST 資料行包含機場代碼,代表類別機器學習值。 這些資料行也需要轉換成包含指示變數 (有時稱為「虛擬」變數) 的離散資料行。 換句話說,包含五個機場代碼的 ORIGIN 資料行需要轉換成五個資料行 (每個機場各一個),其中每個資料行都包含 1s 和 0s,指出航班是否來自該資料行代表的機場。 DEST 資料行需要以類似的方式處理。
在此練習中,您會「拋棄」 CRS_DEP_TIME 資料行中的起飛時間,然後使用 Pandas 的 get_dummies 方法來從 ORIGIN 和 DEST 資料行建立指示資料行。
使用下列命令來顯示 DataFrame 的前五個資料列:
df.head()
觀察 CRS_DEP_TIME 資料行包含 0 到 2359 的值,表示軍事時間。
包含尚未拋棄起飛時間的 DataFrame
使用下列陳述式來拋棄起飛時間:
import math for index, row in df.iterrows(): df.loc[index, 'CRS_DEP_TIME'] = math.floor(row['CRS_DEP_TIME'] / 100) df.head()
確認 CRS_DEP_TIME 資料行中數字現在介於 0 到 23 的範圍內:
包含拋棄後起飛時間的 DataFrame
現在使用下列陳述式來從 ORIGIN 和 DEST 資料行產生指示資料行,同時卸除 ORIGIN 及 DEST 資料行本身:
df = pd.get_dummies(df, columns=['ORIGIN', 'DEST']) df.head()
檢查產生的 DataFrame 並觀察 ORIGIN 和 DEST 資料行已使用對應到原始資料行中機場代碼的資料行來取代。 新的資料行現在會包含 1s 和 0s,指出指定的航班是否來自或目標是否為對應的機場。
包含指示資料行的 DataFrame
使用 File ->Save and Checkpoint 命令來儲存筆記本。
資料集看起來與剛開始的時候相當不同,但現在已針對機器學習服務進行最佳化。