教學課程:寫入儲存在 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表
本教學課程說明如何建立串流分析作業,以寫入 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表。 在本教學課程中,您會了解如何:
- 部署將範例數據傳送至事件中樞的事件產生器
- 建立串流分析作業
- 使用差異數據表設定 Azure Data Lake 儲存體 Gen2
- 執行串流分析作業
必要條件
開始之前,請先完成下列步驟:
- 如果您沒有 Azure 訂閱,請建立免費帳戶。
- 若要將 TollApp 事件產生器部署至 Azure,請使用此連結來部署 TollApp Azure 範本。 將 'interval' 參數設定為 1。 建立並使用此步驟的新資源群組。
- 建立 Data Lake 儲存體 Gen2 帳戶。
建立串流分析作業
登入 Azure 入口網站。
選取左側功能表上的 [所有服務]。
將滑鼠移至 [分析] 區段中的 [串流分析作業] 上方,然後選取 [+ ][加號]。
選取 Azure 入口網站左上角的 [建立資源] 。
從結果清單中選取 [分析]>[串流分析作業]。
在 [新增串流分析作業] 頁面上,遵循下列步驟:
- 針對 [訂用帳戶],選取您的 Azure 訂用帳戶。
- 針對 [ 資源群組],選取您稍早在TollApp部署中使用的相同資源。
- 針對 [名稱],輸入作業的名稱。 串流分析作業名稱只可包含英數字元、連字號與底線,且其長度必須介於 3 到 63 個字元之間。
- 針對 [裝載環境],確認已選取 [雲端]。
- 針對 [串流單位],選取 [1]。 串流單位代表執行作業所需的計算資源。 若要深入了解如何調整串流單位,請參閱了解與調整串流單位一文。
選取頁面底部的 [檢閱 + 建立] 。
在 [檢閱 + 建立] 頁面上檢閱設定,然後選取 [建立] 以建立串流分析頁面。
在 [部署] 頁面上,選取 [移至資源] 以瀏覽至 [串流分析作業] 頁面。
設定作業輸入
下一個步驟是定義作業的輸入來源,以使用 TollApp 部署中建立的事件中樞來讀取數據。
尋找在上一節中建立的串流分析作業。
在串流分析作業的 [作業拓撲] 區段中,選取 [輸入]。
選取 [+ 新增輸入 ] 和 [事件中樞]。
填寫輸入表單,其中包含透過 TollApp Azure 範本建立的下列值:
針對 [輸入別名],輸入 entrystream。
選擇 [從您的訂用帳戶選取事件中樞]。
針對 [訂用帳戶],選取您的 Azure 訂用帳戶。
針對 [ 事件中樞命名空間],選取您在上一節中建立的事件中樞命名空間。
在其餘設定上使用預設選項,然後選取 [ 儲存]。
設定作業輸出
下一個步驟是定義作業可以寫入數據的輸出接收。 在本教學課程中,您會將輸出寫入 Azure Data Lake 儲存體 Gen2 中的 Delta 數據表。
在串流分析作業的 [ 作業拓撲 ] 區段中,選取 [ 輸出 ] 選項。
選取 [+ 新增輸出>Blob 記憶體/ADLS Gen2]。
以下列詳細數據填入輸出表單,然後選取 [ 儲存]:
針對 [ 輸出別名],輸入 DeltaOutput。
選擇 [從您的訂用帳戶選取 Blob 記憶體/ADLS Gen2]。
針對 [訂用帳戶],選取您的 Azure 訂用帳戶。
針對 儲存體 帳戶,請選擇您建立的 ADLS Gen2 帳戶(開頭為 tollapp 的帳戶。
針對 容器,選取 [ 新建 ],並提供唯 一的容器名稱。
針對 [ 事件串行化格式],選取 [ Delta Lake]。 雖然 Delta Lake 在這裡列為其中一個選項,但它不是數據格式。 Delta Lake 會使用已建立版本的 Parquet 檔案來儲存您的數據。 若要深入瞭解 Delta Lake。
針對 Delta 資料表路徑,輸入 tutorial 資料夾/差異數據表。
在其餘設定上使用預設選項,然後選取 [ 儲存]。
建立查詢
此時,您已設定串流分析作業來讀取傳入數據流。 下一個步驟是建立可即時分析數據的查詢。 查詢會使用類似 SQL 的語言,其具有串流分析特定的一些擴充功能。
現在,從左側功能表中選取 [作業拓撲] 底下的 [查詢]。
將下列查詢輸入查詢視窗中。 在此範例中,查詢會從事件中樞讀取數據,並將選取的值複製到 ADLS Gen2 中的 Delta 數據表。
SELECT State, CarModel.Make, TollAmount INTO DeltaOutput FROM EntryStream TIMESTAMP BY EntryTime
在工具列上選取 [儲存查詢]。
啟動串流分析工作並查看輸出
返回 Azure 入口網站 中的作業概觀頁面,然後選取 [開始]。
在 [ 開始作業] 頁面上,確認 [現在 ] 已選取 [作業輸出開始時間],然後選取 頁面底部的 [開始 ]。
幾分鐘後,在入口網站中尋找您設定為作業輸出的儲存體帳戶和容器。 您現在可以在容器中指定的資料夾中看到差異資料表。 第一次啟動作業需要幾分鐘的時間,作業一旦啟動後,即會在資料送達時繼續執行。
清除資源
若不再需要,請刪除資源群組、串流分析作業和所有相關資源。 刪除作業可避免因為作業使用串流單位而產生費用。 如果您計劃在未來使用該作業,您可以將其停止並在之後需要時重新啟動。 如果您不打算繼續使用此作業,請使用下列步驟刪除本教學課程所建立的所有資源:
- 從 Azure 入口網站的左側功能表中,選取 [資源群組],然後選取您所建立資源的名稱。
- 在資源群組頁面上,選取 [刪除],在文字方塊中輸入要刪除的資源名稱,然後選取 [刪除]。
下一步
在本教學課程中,您已建立簡單的串流分析作業、篩選傳入數據,並在 ADLS Gen2 帳戶中的 Delta 數據表中寫入結果。 若要深入瞭解串流分析作業: