共用方式為


如何將歷程記錄數據內嵌至 Azure 數據總管

上線至 Azure 數據總管時的常見案例是擷取歷程記錄數據,有時稱為回填。 此程式牽涉到將數據從現有的記憶體系統擷取到數據表,這是範圍集合

建議您使用 creationTime 擷取屬性擷取歷程記錄數據,將建立範圍的建立時間設定為建立數據的時間。 使用建立時間做為擷取數據分割準則,可以根據 快取保留 原則來讓數據老化,並讓時間篩選更有效率。

根據預設,範圍建立時間會設定為擷取數據的時間,這可能不會產生您預期的行為。 例如,假設您有一個數據表,其快取期間為30天,保留期間為兩年。 在一般流程中,擷取產生的數據會快取 30 天,然後移至冷記憶體。 在兩年後,根據建立時間,一次移除一天較舊的數據。 不過,如果您擷取兩年的歷史數據,根據預設,數據會標示為擷取數據的時間。 這可能不會產生所需的結果,因為:

  • 所有數據都會落在快取中,並停留 30 天,使用比您預期更多的快取。
  • 一次不會移除一天較舊的數據;因此,數據會保留在叢集中的時間超過必要時間,並在兩年後一次全部移除。
  • 先前依來源系統中日期分組的數據,現在可能會 以相同範圍批處理 ,導致查詢效率不佳。

此圖顯示使用預設建立時間擷取歷程記錄數據的預期與實際結果。

在本文中,您將瞭解如何分割歷程記錄數據:

  • creationTime 擷取期間使用擷取屬性 (建議)

    可能的話,使用 creationTime 擷取屬性擷取歷程記錄數據,可讓您從檔案或 Blob 路徑擷取範圍來設定範圍的建立時間。 如果您的資料夾結構未使用建立日期模式,建議您重新建構檔案或 Blob 路徑,以反映建立時間。 藉由使用此方法,數據會內嵌到具有正確建立時間的數據表中,並正確套用快取和保留期間。

    注意

    根據預設,範圍會依建立時間進行分割(擷取),而且在大多數情況下,不需要設定數據分割原則。

  • 使用擷取后的數據分割原則

    如果您無法使用 creationTime 擷取屬性,例如,如果您使用 無法控制建立時間的 Azure Cosmos DB 連接器 擷取數據,或是無法重新建構資料夾結構,則可以重新分割內嵌後的數據,以使用 分割原則達到相同的效果。 不過,此方法可能需要一些試驗和錯誤,才能將原則屬性優化,且效率低於使用 creationTime 擷取屬性。 使用擷取屬性時,我們才建議使用這個方法 creationTime

必要條件

內嵌歷程資料

強烈建議在擷取期間使用 creationTime 擷取屬性來分割歷程記錄數據。 不過,如果您無法使用此方法,您可以使用資料分割原則重新分割數據分割后的數據列。

LightIngest 可用來將歷程記錄數據從現有的記憶體系統載入至 Azure 數據總管。 雖然您可以使用命令行自變數清單來建置自己的命令,但本文說明如何透過擷取精靈自動產生此命令。 除了建立命令之外,您還可以使用此程式來建立新的數據表,以及建立架構對應。 此工具會從您的數據集推斷架構對應。

Destination

  1. 在 Azure 數據總管 Web UI 的左側功能表中,選取 [ 查詢]。

  2. 以滑鼠右鍵按下您要內嵌數據的資料庫,然後選取 [LightIngest]。

    Azure 數據總管 Web UI 的螢幕快照,其中顯示資料庫更多功能表。

    [內嵌數據] 視窗隨即開啟,並已選取 [目的地] 索引卷標。 [叢集] 和 [資料庫] 字段會自動填入。

  3. 選取目標資料表。 如果您想要將資料內嵌到新的資料表,請選取 [新增數據表],然後輸入數據表名稱。

    注意

    資料表名稱最多可包含 1024 個字元,包括空白、字母數字、連字號與底線。 但不支援特殊字元。

    顯示目的地資料庫和數據表之目的地索引標籤的螢幕快照。

  4. 選取 [下一步:來源]

來源

  1. 在 [選取來源] 下,選取 [新增 URL] 或 [選取容器]。

    • 新增 URL 時,在 [連結至來源] 底下,指定容器的帳戶密鑰或 SAS URL。 您可以手動自動建立 SAS URL。

    • 從記憶體帳戶選取容器時,請從下拉功能表中選取您的 記憶體訂用帳戶、 記憶體帳戶容器

      從記憶體訂用帳戶和帳戶選取容器的對話框螢幕快照。

    注意

    擷取最多可支援 6GB 的檔案大小。 建議擷取介於 100 MB 到 1 GB 之間的檔案。

  2. 選取 [ 進階設定 ],以使用 LightIngest 定義擷取程式的其他設定。

    選取包含 LightIngest 工具之擷取處理進階設定的螢幕快照。

  3. 在 [ 進階設定 ] 窗格中,根據下表定義 LightIngest 設定。

    進階組態窗格的螢幕快照,其中顯示涉及 LightIngest 工具之擷取處理的其他設定。

    屬性 說明
    建立時間模式 指定 以使用模式覆寫所建立範圍的擷取時間屬性,例如,根據容器的資料夾結構套用日期。 另 請參閱建立時間模式
    Blob 名稱模式 指定用來識別要內嵌之檔案的模式。 內嵌符合指定容器中 Blob 名稱模式的所有檔案。 支援通配符。 我們建議以雙引弧括住。
    標籤 指派給內嵌數據的標記。 標籤可以是任何字串。
    限制檔案數量 指定可擷取的檔案數目。 擷取符合 Blob 名稱模式的第一個 n 檔案,最多會擷取指定的數位。
    不要等待擷取完成 如果設定,則會將 Blob 排入佇列以擷取,而不監視擷取程式。 如果未設定,LightIngest 會繼續輪詢擷取狀態,直到擷取完成為止。
    只顯示選取的專案 列出容器中的檔案,但不擷取它們。
  4. 選取 [ 完成] 以返回 [ 來源] 索引標籤

    1. 或者,選取 [ 檔案篩選 ] 來篩選數據,以只內嵌特定資料夾路徑或具有特定擴展名的檔案。

      在 [內嵌新數據] 畫面的 [來源] 索引標籤中篩選數據的螢幕快照。

      根據預設,會隨機選取容器中的其中一個檔案,並用來產生數據表的架構。

    2. 或者,在 [架構定義檔案] 底下,您可以指定要使用的檔案。

  5. 選取 下一步:結構描述 以檢視和編輯資料表資料行設定。

結構描述

架構索引標籤提供數據的預覽。

若要產生 LightIngest 命令,請選取 [下一步:開始擷取]。

或者:

  • 從下拉功能表中選取所需的格式,以變更自動推斷 的數據格式
  • 變更自動推斷的 對應名稱。 您可以使用英數字元及底線。 不支援空格、特殊字元和連字號。
  • 使用現有的數據表時,如果數據表架構符合選取的格式,您可以 保留目前的數據表架構
  • 選取命令檢視器以檢視和複製從輸入產生的自動命令。
  • 編輯資料行。 在 [部分數據預覽] 下,選取數據行下拉功能表來改變數據表的各個層面。

您可以在資料表中進行的變更取決於下列參數:

  • 資料表類型是新的或現有的
  • 對應類型是新的或現有的
資料表類型 對應類型 可用的調整
新增資料表 新的對應 變更數據類型、重新命名數據行、新增資料行、刪除資料行、更新資料行、升序、排序遞減
現有的資料表 新的對應 新的數據行(然後您可以變更數據類型、重新命名和更新),
更新數據行、升序、遞減排序
現有的對應 遞增排序、遞減排序

注意

新增資料行或更新資料行時,您可以變更對應轉換。 如需詳細資訊,請參閱 對應轉換

擷取

  1. 一旦數據表、對應和 LightIngest 命令標示為綠色複選標記,請選取 [產生的命令] 方塊右上方的複製圖示,以複製產生的 LightIngest 命令。

    [摘要] 索引標籤的螢幕快照,其中已產生命令。您可以使用產生的命令方塊上方的複製圖示來複製命令。

    注意

    如有需要,您可以選取 [下載 LightIngest] 來下載 LightIngest 工具。

  2. 若要完成擷取程式,您必須 使用複製的命令執行 LightIngest