快速入門:使用 Azure Synapse Pipelines 內嵌數據 (預覽)
在本快速入門中,您將瞭解如何將數據從數據源載入 Azure Synapse 數據總管集區。
必要條件
Azure 訂用帳戶。 建立免費的 Azure 帳戶。
建立數據總管資料庫。
在 Synapse Studio 的左側窗格中,選取 [數據]。
選取 + [新增資源] >資料總管集區,並使用下列資訊:
設定 建議的值 描述 集區名稱 contosodataexplorer 要使用的數據總管集區名稱 名稱 TestDatabase 資料庫名稱在叢集中必須是唯一的。 預設保留期限 365 保證數據可供查詢的時間範圍(以天為單位)。 時間範圍是從擷取數據的時間開始測量。 默認快取期間 31 要保留 SSD 記憶體或 RAM 中經常查詢資料的時間範圍(以天為單位),而不是在長期記憶體中提供。 選取 [建立] 以建立資料庫。 建立通常需要不到一分鐘的時間。
建立表格
- 在 Synapse Studio 的左側窗格中,選取 [開發]。
- 在 [KQL 腳本] 下,選取 + [新增資源] >KQL 腳本。 在右側窗格中,您可以為腳本命名。
- 在 [要 連線] 功能表中,選取 [contosodataexplorer]。
- 在 [ 使用資料庫] 功能表中,選取 [TestDatabase]。
- 貼上下列命令,然後選取 [ 執行 ] 以建立數據表。
.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
提示
確認數據表已成功建立。 在左側窗格中,選取 [數據],選取 contosodataexplorer 更多 功能表,然後選取 [ 重新整理]。 在 contosodataexplorer 下,展開 [數據表 ],並確定 StormEvents 數據表出現在清單中。
取得查詢和數據擷取端點。 您需要查詢端點來設定連結的服務。
在 Synapse Studio 的左側窗格中,選取 [管理>數據總管集區]。
選取您想要用來檢視其詳細數據的 [數據總管] 集區。
記下查詢和數據擷取端點。 設定數據總管集區的連線時,請使用查詢端點作為叢集。 設定數據擷取的 SDK 時,請使用資料擷取端點。
建立連結服務
在 Azure Synapse Analytics 中,連結服務可讓您定義其他服務的連線資訊。 在本節中,您將建立 Azure 數據總管的鏈接服務。
在 Synapse Studio 的左側窗格中,選取 [管理>鏈接的服務]。
選取 + 新增。
從資源 庫選取 Azure 數據總管 服務,然後選取 [ 繼續]。
在 [新增鏈接服務] 頁面中,使用下列資訊:
設定 建議的值 名描述 Name contosodataexplorerlinkedservice 新 Azure 資料總管連結服務的名稱。 驗證方法 受控識別 新服務的驗證方法。 帳戶選取方法 手動輸入 指定查詢端點的方法。 端點 https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net 您稍早記下的查詢端點。 Database TestDatabase 您要內嵌資料的資料庫。 選取 [測試連線 ] 以驗證設定,然後選取 [ 建立]。
建立管線以內嵌數據
管線包含一組活動的執行邏輯流程。 在本節中,您將建立包含複製活動的管線,以將數據從您慣用的來源內嵌至數據總管集區。
在 Synapse Studio 的左側窗格中,選取 [ 整合]。
選取 [+>管線]。 在右側窗格中,您可以為管線命名。
在 [活動移動和轉換]>下,將 [複製數據] 拖曳到管線畫布上。
選取複製活動並移至 [來源 ] 索引標籤。選取或建立新的來源數據集作為複製數據的來源。
移至 [ 接收 ] 索引標籤。選取 [新增 ] 以建立新的接收數據集。
從資源 庫選取 Azure 數據總管 數據集,然後選取 [ 繼續]。
在 [ 設定屬性] 窗格中,使用下列資訊,然後選取 [ 確定]。
設定 建議的值 名描述 Name AzureDataExplorerTable 新管線的名稱。 連結服務 contosodataexplorerlinkedservice 您稍早建立的連結服務。 Table StormEvents 您稍早建立的數據表。 若要驗證管線,請選取工具列上的 [ 驗證 ]。 您會在頁面右側看到管線驗證輸出的結果。
偵錯和發佈管線
完成管線設定之後,您可以在發佈成品之前執行偵錯執行,以確認所有專案都正確無誤。
選取 工具列上的 [偵錯 ]。 您會在視窗底部的 [輸出] 索引標籤中看到管線執行狀態。
管線執行成功之後,在頂端工具欄中,選取 [ 全部發佈]。 此動作會將您建立的實體(數據集和管線)發佈至 Synapse Analytics 服務。
等到您看到 成功發佈的 訊息。 若要查看通知訊息,請選取右上方的鈴鐺按鈕。
觸發和監視管線
在本節中,您會手動觸發在上一個步驟中發佈的管線。
選取 工具列上的 [新增觸發程式 ],然後選取 [ 立即觸發]。 在 [ 管線執行] 頁面上,選取 [ 確定]。
移至 位於左側提要欄位中的 [監視] 索引標籤。 您會看到由手動觸發程式觸發的管線執行。
當管線執行成功完成時,請選取 [管線名稱] 數據行底下的連結,以檢視活動執行詳細數據,或重新執行管線。 在此範例中,只有一個活動,因此您只會在清單中看到一個專案。
如需複製作業的詳細資訊,請選取 [活動名稱] 資料行底下的 [詳細數據] 鏈接(眼鏡圖示)。 您可以監視詳細數據,例如從來源複製到接收的數據量、數據輸送量、具有對應持續時間的執行步驟,以及已使用的組態。
若要切換回管線執行檢視,請選取頂端的 [所有管線執行] 連結。 選取 [ 重新整理 ] 以重新整理清單。
確認您的數據已正確寫入數據總管集區中。