在資料分析工作負載中使用 Azure Data Lake Storage Gen2
Azure Data Lake Store Gen2 是多個資料分析使用案例的賦能技術。 讓我們探索一些常見的分析工作負載類型,並找出 Azure Data Lake Storage Gen2 與其他 Azure 服務搭配運作以便支援它們的方式。
巨量資料處理和分析
巨量資料案例通常是指涉及大量 (Volume) 資料、有各種 (Variety) 格式,需要以快速的速度 (Velocity) 處理的分析工作負載,也就是所謂的「三個 V」。 Azure Data Lake Storage Gen 2 提供可調整且安全的分散式資料存放區,例如 Azure Synapse Analytics、Azure Databricks 和 Azure HDInsight 等巨量資料服務可以在上面套用 Apache Spark、Hive 和 Hadoop 等資料處理架構。 儲存體和處理計算的分散式本質可讓工作平行執行,進而產生高效能和可擴縮性,即使處理大量資料也一樣。
資料倉儲
資料倉儲在最近幾年不斷演進,可將儲存為資料湖中檔案的大量資料與資料倉儲中的關聯式資料表整合。 在資料倉儲解決方案的一般範例中,資料會從作業資料存放區擷取,例如 Azure SQL 資料庫或 Azure Cosmos DB,並轉換成更適合分析工作負載的結構。 通常,資料會暫存於資料湖中,以便在載入關聯式資料倉儲之前促進分散式處理。 在某些情況下,資料倉儲會使用外部資料表,在資料湖中的檔案上定義關聯式中繼資料層,並建立混合式「Data Lakehouse」或「資料湖資料庫」架構。 然後,資料倉儲就可以支援報告和視覺效果的分析查詢。
有多種方式可以實作這種資料倉儲架構。 此圖顯示解決方案,其中 Azure Synapse Analytics 裝載管線,以使用 Azure Data Factory 技術執行擷取、轉換及載入 (ETL) 程序。 這些程序會從作業資料來源擷取資料,並將其載入裝載於 Azure Data Lake Storage Gen2 容器中的資料湖。 然後,資料會處理並載入至 Azure Synapse Analytics 專用 SQL 集區中的關聯式資料倉儲,以便從中支援使用 Microsoft Power BI 的資料視覺效果和報告。
即時資料分析
企業和其他組織越來越需要擷取和分析永久資料流,並即時 (或盡可能接近即時) 分析資料。 這些資料流可以從連線的裝置 (通常稱為物聯網或 IoT 裝置) 產生,或從社交媒體平台或其他應用程式中使用者所產生的資料產生。 不同於傳統批次處理 工作負載,串流資料需要解決方案,以在發生時擷取和處理無界限的資料流事件。
串流事件通常會擷取在佇列中進行處理。 您可以使用多種技術來執行這項工作,包括影像中顯示的 Azure 事件中樞。 從這裡處理資料,通常是針對時態時間範圍彙總資料 (例如,每隔五分鐘計算具有指定標籤的社交媒體訊息數目,或計算每分鐘網際網路連線感應器的平均讀數)。 Azure 串流分析可讓您建立作業,在事件資料送達時查詢和彙總事件資料,並在輸出接收中寫入結果。 其中一個這類接收是 Azure Data Lake Storage Gen2;可從其中分析和視覺化擷取的即時資料。
資料科學和機器學習
資料科學牽涉到大量資料的統計分析,通常是使用 Apache Spark 之類的工具,以及 Python 等指令碼語言。 Azure Data Lake Storage Gen 2 針對資料科學工作負載所需的資料量,提供高度可調整的雲端式資料存放區。
機器學習是可處理定型預測性模型的資料科學子區域。 模型定型需要大量資料,以及有效率地處理該資料的能力。 Azure Machine Learning 是雲端服務,資料科學家可以在其中使用動態配置的分散式運算資源,在筆記本中執行 Python 程式碼。 計算會處理 Azure Data Lake Storage Gen2 容器中的資料來定型模型,然後可以部署為生產 Web 服務以支援預測性分析工作負載。