如何將歷程記錄數據內嵌至 Azure 數據總管
上線至 Azure 數據總管時的常見案例是擷取歷程記錄數據,有時稱為回填。 此程式牽涉到將數據從現有的記憶體系統擷取到數據表,這是範圍集合。
建議您使用 creationTime 擷取屬性擷取歷程記錄數據,將建立範圍的建立時間設定為建立數據的時間。 使用建立時間做為擷取數據分割準則,可以根據 快取 和 保留 原則來讓數據老化,並讓時間篩選更有效率。
根據預設,範圍建立時間會設定為擷取數據的時間,這可能不會產生您預期的行為。 例如,假設您有一個數據表,其快取期間為30天,保留期間為兩年。 在一般流程中,擷取產生的數據會快取 30 天,然後移至冷記憶體。 在兩年後,根據建立時間,一次移除一天較舊的數據。 不過,如果您擷取兩年的歷史數據,根據預設,數據會標示為擷取數據的時間。 這可能不會產生所需的結果,因為:
- 所有數據都會落在快取中,並停留 30 天,使用比您預期更多的快取。
- 一次不會移除一天較舊的數據;因此,數據會保留在叢集中的時間超過必要時間,並在兩年後一次全部移除。
- 先前依來源系統中日期分組的數據,現在可能會 以相同範圍批處理 ,導致查詢效率不佳。
在本文中,您將瞭解如何分割歷程記錄數據:
在
creationTime
擷取期間使用擷取屬性 (建議)可能的話,使用
creationTime
擷取屬性擷取歷程記錄數據,可讓您從檔案或 Blob 路徑擷取範圍來設定範圍的建立時間。 如果您的資料夾結構未使用建立日期模式,建議您重新建構檔案或 Blob 路徑,以反映建立時間。 藉由使用此方法,數據會內嵌到具有正確建立時間的數據表中,並正確套用快取和保留期間。注意
根據預設,範圍會依建立時間進行分割(擷取),而且在大多數情況下,不需要設定數據分割原則。
使用擷取后的數據分割原則
如果您無法使用
creationTime
擷取屬性,例如,如果您使用 無法控制建立時間的 Azure Cosmos DB 連接器 擷取數據,或是無法重新建構資料夾結構,則可以重新分割內嵌後的數據,以使用 分割原則達到相同的效果。 不過,此方法可能需要一些試驗和錯誤,才能將原則屬性優化,且效率低於使用creationTime
擷取屬性。 使用擷取屬性時,我們才建議使用這個方法creationTime
。
必要條件
- Microsoft帳戶或Microsoft Entra 使用者身分識別。 不需要 Azure 訂用帳戶。
- Azure 資料總管叢集和資料庫。 建立叢集和資料庫。
- 記憶體帳戶。
- 如需在擷取期間使用
creationTime
擷取屬性的建議方法, 請安裝 LightIngest。
內嵌歷程資料
強烈建議在擷取期間使用 creationTime
擷取屬性來分割歷程記錄數據。 不過,如果您無法使用此方法,您可以使用資料分割原則重新分割數據分割后的數據列。
LightIngest 可用來將歷程記錄數據從現有的記憶體系統載入至 Azure 數據總管。 雖然您可以使用命令行自變數清單來建置自己的命令,但本文說明如何透過擷取精靈自動產生此命令。 除了建立命令之外,您還可以使用此程式來建立新的數據表,以及建立架構對應。 此工具會從您的數據集推斷架構對應。
Destination
在 Azure 數據總管 Web UI 的左側功能表中,選取 [ 查詢]。
以滑鼠右鍵按下您要內嵌數據的資料庫,然後選取 [LightIngest]。
[內嵌數據] 視窗隨即開啟,並已選取 [目的地] 索引卷標。 [叢集] 和 [資料庫] 字段會自動填入。
選取目標資料表。 如果您想要將資料內嵌到新的資料表,請選取 [新增數據表],然後輸入數據表名稱。
注意
資料表名稱最多可包含 1024 個字元,包括空白、字母數字、連字號與底線。 但不支援特殊字元。
選取 [下一步:來源]。
來源
在 [選取來源] 下,選取 [新增 URL] 或 [選取容器]。
新增 URL 時,在 [連結至來源] 底下,指定容器的帳戶密鑰或 SAS URL。 您可以手動或自動建立 SAS URL。
從記憶體帳戶選取容器時,請從下拉功能表中選取您的 記憶體訂用帳戶、 記憶體帳戶和 容器 。
注意
擷取最多可支援 6GB 的檔案大小。 建議擷取介於 100 MB 到 1 GB 之間的檔案。
選取 [ 進階設定 ],以使用 LightIngest 定義擷取程式的其他設定。
在 [ 進階設定 ] 窗格中,根據下表定義 LightIngest 設定。
屬性 說明 建立時間模式 指定 以使用模式覆寫所建立範圍的擷取時間屬性,例如,根據容器的資料夾結構套用日期。 另 請參閱建立時間模式。 Blob 名稱模式 指定用來識別要內嵌之檔案的模式。 內嵌符合指定容器中 Blob 名稱模式的所有檔案。 支援通配符。 我們建議以雙引弧括住。 標籤 指派給內嵌數據的標記。 標籤可以是任何字串。 限制檔案數量 指定可擷取的檔案數目。 擷取符合 Blob 名稱模式的第一個 n
檔案,最多會擷取指定的數位。不要等待擷取完成 如果設定,則會將 Blob 排入佇列以擷取,而不監視擷取程式。 如果未設定,LightIngest 會繼續輪詢擷取狀態,直到擷取完成為止。 只顯示選取的專案 列出容器中的檔案,但不擷取它們。 選取 [ 完成] 以返回 [ 來源] 索引標籤 。
或者,選取 [ 檔案篩選 ] 來篩選數據,以只內嵌特定資料夾路徑或具有特定擴展名的檔案。
根據預設,會隨機選取容器中的其中一個檔案,並用來產生數據表的架構。
或者,在 [架構定義檔案] 底下,您可以指定要使用的檔案。
選取 下一步:結構描述 以檢視和編輯資料表資料行設定。
結構描述
架構索引標籤提供數據的預覽。
若要產生 LightIngest 命令,請選取 [下一步:開始擷取]。
或者:
- 從下拉功能表中選取所需的格式,以變更自動推斷 的數據格式 。
- 變更自動推斷的 對應名稱。 您可以使用英數字元及底線。 不支援空格、特殊字元和連字號。
- 使用現有的數據表時,如果數據表架構符合選取的格式,您可以 保留目前的數據表架構 。
- 選取命令檢視器以檢視和複製從輸入產生的自動命令。
- 編輯資料行。 在 [部分數據預覽] 下,選取數據行下拉功能表來改變數據表的各個層面。
您可以在資料表中進行的變更取決於下列參數:
- 資料表類型是新的或現有的
- 對應類型是新的或現有的
資料表類型 | 對應類型 | 可用的調整 |
---|---|---|
新增資料表 | 新的對應 | 變更數據類型、重新命名數據行、新增資料行、刪除資料行、更新資料行、升序、排序遞減 |
現有的資料表 | 新的對應 | 新的數據行(然後您可以變更數據類型、重新命名和更新), 更新數據行、升序、遞減排序 |
現有的對應 | 遞增排序、遞減排序 |
注意
新增資料行或更新資料行時,您可以變更對應轉換。 如需詳細資訊,請參閱 對應轉換
擷取
一旦數據表、對應和 LightIngest 命令標示為綠色複選標記,請選取 [產生的命令] 方塊右上方的複製圖示,以複製產生的 LightIngest 命令。
注意
如有需要,您可以選取 [下載 LightIngest] 來下載 LightIngest 工具。
若要完成擷取程式,您必須 使用複製的命令執行 LightIngest 。