數據記憶體
注意
時間序列深入解析服務將於 2024 年 7 月 7 日淘汰。 請考慮儘快將現有的環境移轉至替代解決方案。 如需了解淘汰和移轉的詳細資訊,請造訪我們的文件。
本文說明 Azure 時序洞察 Gen2 中的資料儲存。 其涵蓋暖和冷、數據可用性和最佳做法。
供應
當您建立 Azure 時間序列深入解析 Gen2 環境時,您有下列選項:
- 冷資料記憶體:
- 在您為環境選擇的訂用帳戶和區域中建立新的 Azure 記憶體資源。
- 附加預先存在的 Azure 記憶體帳戶。 此選項只能透過從 Azure Resource Manager 範本部署,且無法在 Azure 入口網站中顯示。
- 溫存數據存儲
當事件被擷取時,它會同時在暖存儲區(如果已啟用)和冷存儲區中編製索引。
警告
身為冷存放區數據所在之 Azure Blob 記憶體帳戶的擁有者,您可以完整存取帳戶中的所有數據。 此存取權包括寫入和刪除許可權。 請勿編輯或刪除 Azure 時間序列深入解析 Gen2 寫入的數據,因為這可能會導致數據遺失。
數據可用性
Azure 時間序列洞察 Gen2 會對資料進行分割和索引,以獲得最佳的查詢效能。 數據會在編製索引之後,從暖存放區(如果已啟用)和冷存放區查詢。 數據的攝取量和每個分割區的輸送量可能會影響可用性。 請檢閱事件來源 輸送量限制,並 最佳做法,以獲得最佳效能。 您也可以配置延遲 警示,以便在環境在處理數據時遇到問題時收到通知。
重要
在透過 時間序列查詢 API取得資料之前,您可能會遇到最多 60 秒的時間。 如果您遇到超過 60 秒的重大延遲,請透過 Azure 入口網站提交支援票證。
在直接存取 Azure 時間序列深入解析 Gen2 外部的 Parquet 檔案時,您可能需要等待最多 5 分鐘,資料才會可用。 如需詳細資訊,請參閱 Parquet 檔格式 一節。
溫馨商店
暖存放區中的數據只能透過 時間序列查詢 API、Azure 時間序列深入解析 TSI 探索器或 Power BI 連接器取得。 熱存儲查詢是免費的,且沒有配額限制,但同時請求數量限制為 30 。
溫控儲存行為
啟用時,無論事件的時間戳為何,流入您環境的所有數據都將被傳送至您的暖存儲區。 請注意,串流擷取管線是針對近乎即時的串流和內嵌歷程記錄事件而建置,不支援。
保留期間的計算是依據事件在 Warm Store 中被編制索引的時間,而不是根據事件的時間戳。 這表示就算事件的時間戳是在未來,在保留期間過後,仍然無法在暖存放區中取得資料。
- 範例:具有 10 天天氣預報的事件會被匯入並在設定為 7 天保留期的溫存儲容器中索引化。 七天後,預測將無法在熱存儲中訪問,但可以從冷存儲中查詢。
如果您在現有的環境中啟用暖存放區,且該環境已經有最近在冷記憶體中編製索引的數據,請注意,您的暖存放區將不會重新填入此數據。
如果您剛啟用了熱存儲功能,但在使用瀏覽器中檢視最近數據時遇到問題,您可以暫時將熱存儲查詢關閉:
冷存放區
本節說明與 Azure 時間序列分析 Gen2 相關的 Azure 儲存體詳細資訊。
如需 Azure Blob 儲存的完整描述,請閱讀 Blob 儲存簡介。
您的冷儲存帳戶
Azure 時間序列深入解析 Gen2 會在您的 Azure 儲存帳戶中最多保留每個事件的兩份複本。 其中一個副本會按擷取時間排序事件,且始終允許以時間順序存取事件。 一段時間后,Azure 時間序列深入解析 Gen2 也會建立重新分割的數據複本,以針對高效能查詢進行優化。
所有數據都會無限期地儲存在 Azure 記憶體帳戶中。
警告
請勿限制公共網際網路對時間序列分析所使用的儲存體帳戶的存取,否則必要的連線將會中斷。
寫入和編輯 Blob
若要確保查詢效能和數據可用性,請勿編輯或刪除由 Azure Time Series Insights Gen2 建立的任何 Blob。
存取冷存放區數據
除了從 azure 時間序列深入解析總管 存取您的數據, 和 時間序列查詢 API之外,您也可以直接從儲存在冷存放區中的 Parquet 檔案存取您的數據。 例如,您可以在 Jupyter 筆記本中讀取、轉換和清理數據,然後使用它,在相同的 Spark 工作流程中訓練您的 Azure Machine Learning 模型。
若要直接從 Azure 儲存體帳戶存取資料,您需要用來儲存 Azure 時間序列深入解析 Gen2 資料的帳戶讀取權限。 然後,您可以根據位於下述 PT=Time
資料夾中的 Parquet 檔案的建立時間,讀取選取的資料,如 Parquet 檔格式 一節中所述。 如需啟用記憶體帳戶讀取許可權的詳細資訊,請參閱 管理記憶體帳戶資源的存取。
數據刪除
請勿刪除您的 Azure 時序見解 Gen2 檔案。 僅能從 Azure Time Series Insights Gen2 管理內部相關資料。
Parquet 檔案格式和資料夾結構
Parquet 是開放原始碼單欄檔格式,專為有效率的儲存和效能而設計。 Azure 時間序列深入解析 Gen2 使用 Parquet 以時間序列 ID 為基礎提高大規模查詢性能。
如需 Parquet 檔案類型的詳細資訊,請參閱 Parquet 檔。
Azure 時序洞察 Gen2 會儲存資料的複本,如下所示:
PT=Time
資料夾會透過匯入時間進行分割,並大致按照抵達順序來儲存資料。 此數據會隨著時間保存,您可以直接從 Azure 時間序列洞察 Gen2 外部訪問,例如從 Spark 筆記型電腦進行訪問。 時間戳<YYYYMMDDHHMMSSfff>
對應至數據的擷取時間。<MinEventTimeStamp>
和<MaxEventTimeStamp>
會對應至檔案中包含的事件時間戳範圍。 路徑與檔案名格式為:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
PT=Live
和PT=Tsid
資料夾包含資料的第二份副本,並經過重新分割,以提升大規模時間序列查詢的效能。 此數據會隨著時間優化,而且不是靜態的。 在重新分割期間,某些事件可能會存在於多個 Blob 中,而且 Blob 名稱可能會變更。 這些資料夾由 Azure 時間序列深入解析 Gen2 使用,不應直接存取;您應該只針對該用途使用PT=Time
。
注意
從 2021 年 6 月之前 PT=Time
資料夾中的數據可能具有沒有事件時間範圍的檔案名格式:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
。 內部檔案格式相同,而且具有這兩種命名配置的檔案都可以一起使用。
-
<YYYY>
對應至四位數年份表示法。 -
<MM>
對應至兩位數月份表示法。 - 時間戳的
<YYYYMMDDHHMMSSfff>
格式會對應至四位數年份(YYYY
)、兩位數月份(MM
)、二位數日(DD
)、兩位數小時(HH
)、兩位數分鐘(MM
)、二位數秒(SS
)和三位數毫秒(fff
)。
Azure TSI Gen2 事件會映射到 Parquet 檔案內容,如下:
- 每個事件都會對應至單一數據列。
- 每個數據行都包括一個具有事件時間戳的 列,並且包含
時間戳。 時間戳屬性絕不為空。 如果未在事件來源中指定時間戳屬性,則會預設為 事件加入佇列的時間。 預存的時間戳一律為UTC。 - 每個資料列都包含在建立 Azure 時間序列見解 Gen2 環境時所定義的時間序列識別碼 (TSID) 資料行。 TSID 屬性名稱包含
_string
後綴。 - 以遙測數據傳送的所有其他屬性都會對應至以
_bool
(布爾值)、_datetime
(時間戳)、_long
(long)、_double
(double)、_string
(字串)或_dynamic
(動態)結尾的數據行名稱,視屬性類型而定。 如需詳細資訊,請參閱 支援的數據類型。 - 此對應架構適用於檔格式的第一個版本,參考為 V=1,並儲存在相同名稱的基底資料夾中。 隨著這項功能的發展,此對應架構可能會變更,且參考名稱會遞增。
後續步驟
了解 數據建模。