教學課程:搭配 Apache Spark 使用筆記本來查詢 KQL 資料庫
筆記本都是可讀取的文件,其中包含資料分析描述和結果,以及可執行進行資料分析的可執行檔。 在本文中,您將瞭解如何使用 Microsoft Fabric 筆記本,使用 Apache Spark 將資料讀取和寫入 KQL 資料庫。 本教學課程會在即時智慧和 Microsoft Fabric 中的 資料工程師 環境中使用預先建立的資料集和筆記本。 如需筆記本的更多資訊,請參閱如何使用 Microsoft Fabric 筆記本。
具體而言,您將了解如何:
- 建立 KQL 資料庫
- 匯入筆記本
- 使用 Apache Spark 將資料寫入 KQL 資料庫
- 從 KQL 資料庫查詢資料
必要條件
1- 建立 KQL 資料庫
從左側導覽列選取您的工作區。
請遵循下列其中一個步驟來開始建立事件串流:
- 選取 新增項目 然後 Eventhouse。 在 [
Eventhouse 名稱 ] 字段中,輸入nycGreenTaxi ,然後選擇 [建立]。 KQL 資料庫會以相同的名稱建立。 - 在現有的 eventhouse 中,選取 資料庫。 在 [KQL 資料庫] 中選取 [+],在 [KQL 資料庫名稱] 欄位中輸入 [nycGreenTaxi],然後選取 [建立]。
- 選取 新增項目 然後 Eventhouse。 在 [
從資料庫儀表板中的資料庫詳細資料卡片複製 [查詢 URI],並將它貼到某處,例如記事本,以在稍後的步驟中使用。
2- 下載 NYC GreenTaxi 筆記本
我們已建立範例筆記本,以帶您完成使用 Spark 連接器將資料載入資料庫中需要的所有步驟。
在 GitHub 上開啟 Fabric 範例存放庫,以下載 NYC GreenTaxi KQL 筆記本。
將筆記本儲存在本機到您的裝置。
注意
筆記本必須以
.ipynb
檔格式儲存。
3- 匯入該筆記本
此工作流程的其餘部分會在產品的 資料工程師 區段中發生,並使用Spark筆記本在 KQL 資料庫中載入和查詢資料。
從您的工作區選擇 匯入>筆記本>,從這部電腦>上傳,然後選擇您在上一個步驟中下載的 NYC GreenTaxi 筆記本。
匯入完成後,請從您的工作區開啟筆記本。
4- 取得資料
若要使用 Spark 連接器查詢資料庫,您必須提供 NYC GreenTaxi Blob 容器的讀取和寫入權限。
選取播放按鈕以執行下列單元格,或選取單元格,然後按 Shift+ Enter。 針對每個程式碼資料格重複此步驟。
注意
等候完成複選標記出現,再執行下一個單元格。
執行下列資料格,以啟用NYC GreenTaxi Blob容器的存取權。
在 KustoURI 中,貼上您稍早複製的查詢 URI,而不是佔位元文字。
將佔位元資料庫名稱變更為 nycGreenTaxi。
將佔位元資料表名稱變更為 GreenTaxiData。
執行儲存格。
執行下一個資料格,將資料寫入資料庫。 此步驟可能需要幾分鐘的時間才能完成。
您的資料庫現在已將資料載入名為 GreenTaxiData 的資料表中。
5- 執行該筆記本
循序執行其餘兩個資料格,以查詢資料表中的資料。 結果顯示按年記錄的前 20 名最高和最低計程車車資和距離。
6- 清理資源
導覽至建立工作區的位置,清理所建立的項目。