快速入門:一鍵內嵌資料 (預覽版)
單鍵擷取可讓資料擷取程序變得簡單、快速且直覺化。 單鍵擷取可協助您快速開始擷取資料、建立資料庫資料表、對應結構。 從不同資料格式的不同類型來源中選取資料,不論是一次性或連續擷取程序。
下列功能是單鍵擷取如此實用的原因:
- 擷取精靈引導的直覺式體驗
- 只需要幾分鐘的時間就能擷取資料
- 從不同類型的來源擷取資料:本機檔案、Blob 和容器 (最多 10000 個 Blob)
- 以各種不同的格式擷取資料
- 將資料擷取至新的或現有的資料表
- 資料表對應和結構描述只是建議,您可以輕易變更
第一次內嵌資料時,或不熟悉資料的結構描述時,單鍵擷取特別有用。
必要條件
Azure 訂用帳戶。 建立 Azure 免費帳戶。
使用 Synapse Studio 或 Azure 入口網站建立資料總管集區
建立資料總管資料庫。
在 Synapse Studio 的左側窗格上,選取 [資料]。
選取 + (新增資源) >[資料總管集區],並使用下列資訊:
設定 建議的值 描述 集區名稱 contosodataexplorer 要使用的資料總管集區名稱 Name TestDatabase 資料庫名稱在叢集內必須是唯一而不重複。 預設保留期限 365 保證資料持續可供查詢的時間範圍 (天)。 系統會從內嵌資料的時間開始測量時間範圍。 預設快取期間 31 在 SSD 儲存裝置或 RAM 中 (而非長期儲存裝置),讓受到頻繁查詢的資料維持可用狀態的時間範圍 (天)。 選取 [建立] 以建立資料庫。 建立時間通常不到一分鐘。
建立資料表
- 在 Synapse Studio 左側的窗格上,選取 [開發]。
- 在 KQL 指令碼下方,選取+ (新增資源) >[KQL 指令碼]。 您可以在右側窗格上命名指令碼。
- 在 [連線至] 功能表中,選取 [contosodataexplorer]。
- 在 [使用資料庫] 功能表中,選取 [TestDatabase]。
- 貼上下列命令,並選取 [執行] 以建立資料表。
.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
提示
確認資料表已成功建立。 在左側窗格上,選取 [資料]、[contosodataexplorer 其他功能表] 後,選取 [重新整理]。 在 contosodataexplorer 下方,展開資料表並確定 StormEvents 資料表出現在清單中。
存取單鍵精靈
單鍵擷取精靈會引導您完成單鍵擷取流程。
若要存取 Azure Synapse 的精靈:
在 Synapse Studio 左側的窗格上,選取 [資料]。
在 [資料總管資料庫] 下,以滑鼠右鍵按一下相關的資料庫,然後選取 [在 Azure 資料總管中開啟]。
以滑鼠右鍵按一下相關的集區後,選取 [內嵌新資料]。
若要存取 Azure 入口網站的精靈:
在 Azure 入口網站中,搜尋並選取相關的 Synapse 工作區。
在 [資料總管集區] 下,選取相關的集區。
在 [歡迎使用資料總管集區] 首頁畫面上,選取 [內嵌新資料]。
若要存取 Azure 資料總管 web ui 的精靈:
- 開始前,請使用下列步驟取得查詢和資料提取端點。
在 Synapse Studio 左側的窗格中,選取 [管理]>[資料總管集區]。
選取您要檢視詳細資料的資料總管集區。
記下查詢端點和資料擷取端點。 設定資料總管集區的連線時,請使用查詢端點作為叢集。 設定 SDK 以便進行資料擷取時,請使用資料擷取端點。
- 透過 Azure 資料總管 web ui,為查詢端點新增連線。
- 選取左側功能表中的 [查詢],以滑鼠右鍵按一下 [資料庫] 或 [資料表],然後選取 [內嵌新資料]。
- 開始前,請使用下列步驟取得查詢和資料提取端點。
單鍵擷取精靈
注意
本節說明精靈如何使用事件中樞作為資料來源。 您也可以使用這些步驟,透過 blob、檔案、blob 容器和 ADLS Gen2 容器內嵌資料。
以 Synapse 工作區的實際值取代範例值。
在 [目的地] 索引標籤上,選擇要內嵌資料的資料庫和資料表。
在 [來源] 索引標籤上:
選取事件中樞作為擷取來源類型。
使用下列資訊填寫事件中樞資料連線的詳細資料:
設定 範例值 描述 資料連線名稱 ContosoDataConnection 事件中樞資料連線的名稱 訂用帳戶 Contoso_Synapse 事件中樞所在的訂用帳戶。 事件中樞命名空間 contosoeventhubnamespace 事件中樞的命名空間。 取用者群組 contosoconsumergroup 事件中樞取用者群組的名稱。 選取 [下一步] 。
結構描述對應
服務會自動產生結構描述和擷取屬性,您可以加以變更。 根據您要擷取到新的或現有的資料表而定,您可以使用現有的對應結構,或建立一個新的對應結構。
在 [結構描述] 索引標籤中,可以執行下列動作:
檔案格式
一鍵擷取支援擷取的來源資料,即是資料總管支援擷取的所有資料格式。
編輯器視窗
在 [結構描述] 索引標籤的 [編輯器] 視窗中,您可以視需要調整資料表資料行。
您可對資料表進行的變更視下列參數而定:
- 資料表類型是新的或現有的
- 對應類型是新的或現有的
資料表類型 | 對應類型 | 可用的調整 |
---|---|---|
新增資料表 | 新的對應 | 變更資料類型、重新命名資料行、新增資料行、刪除資料行、更新資料行、遞增排序、遞減排序 |
現有的資料表 | 新的對應 | 新的資料行 (您可以在此變更資料類型、重新命名和更新), 更新資料行、遞增排序、遞減排序 |
現有的對應 | 遞增排序、遞減排序 |
注意
新增新的資料行或更新資料行時,您可以變更對應轉換。 如需詳細資訊,請參閱對應轉換
對應資訊
某些資料格式對應 (Parquet、JSON 和 Avro) 支援簡單的內嵌時間轉換。 若要套用對應轉換,請在 編輯器視窗中建立或更新資料行。
對應轉換可以在類型字串或日期時間的資料行上執行,而來源的資料類型為 int 或 long。 支援的對應轉換如下:
- DateTimeFromUnixSeconds
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds
資料擷取
當您完成結構描述對應和資料行操作之後,擷取精靈就會啟動資料擷取程序。
從 non-container 來源內嵌資料時,擷取會立即生效。
如果您的資料來源是容器:
- 資料總管的批次處理原則會彙總您的資料。
- 擷取之後,您可以下載擷取報告,並檢閱每個已解決 Blob 的效能。
初始資料探索
擷取之後,精靈會提供您使用 快速命令 的選項,以進行資料的初始探索。