了解 Azure Data Lake Storage Gen2

已完成

Data Lake 是以其自然格式儲存的資料存放庫,通常為 Blob 或檔案。 Azure Data Lake Storage 是一個可大規模調整、安全且符合成本效益的完整資料湖解決方案,可用來進行 Azure 中內建的高效能分析。

Azure Data Lake Storage Gen2 中的檔案被巨量資料技術存取的圖表。

Azure Data Lake Storage 結合檔案系統與儲存體平台,可協助您快速識別資料見解。 Data Lake Storage 建置於 Azure Blob 儲存體功能之上,專門針對分析工作負載來將其最佳化。 這項整合可啟用分析效能、Blob 儲存體的階層處理和資料生命週期管理功能,以及 Azure 儲存體的高可用性、安全性和持久性功能。

福利

Data Lake Storage 是設計來處理這個 Exabyte 規模的資料種類與數量,同時還能安全地處理數百 GB 的輸送量。 以此方式,您能夠使用 Data Lake Storage Gen2 作為即時和批次解決方案的基礎。

Hadoop 相容存取

Data Lake Storage 的優點是,您處理資料的方式就如同它儲存於 Hadoop 分散式檔案系統 (HDFS) 一樣。 運用此功能,您可將資料儲存在一個地方,然後透過包括 Azure Databricks、Azure HDInsight 和 Azure Synapse Analytics 在內的計算技術存取資料,而不需要在環境之間移動資料。 資料工程師也能夠使用儲存機制,例如 parquet 格式,其高度壓縮,且可在使用內部單欄式儲存體的多個平台之間順利執行。

安全性

Data Lake Storage支援存取控制清單 (ACL) 和可攜式作業系統介面 (POSIX) 未繼承父目錄權限的權限。 事實上,您可以在目錄層級或檔案層級設定儲存在 Data Lake 內之資料的權限,以提供更安全的儲存系統。 此安全性可透過 Hive 和 Spark 等技術,或可在Windows、macOS 和 Linux 上執行的 Azure 儲存體總管等公用程式來設定。 所儲存所有資料都會在待用期間使用 Microsoft 或由客戶管理的金鑰來加密。

效能

Azure Data Lake Storage 會將所儲存資料組織為目錄和子目錄的階層,就像檔案系統一樣,能夠更輕鬆地進行巡覽。 因此,資料處理需要較少的計算資源,進而減少時間與成本。

資料備援

Data Lake Storage 會利用 Azure Blob 複寫模型,使用本地備援儲存體 (LRS) 在單一資料中心提供資料備援,或使用異地備援儲存體 (GRS) 選項備援到次要區域。 此功能確保您的資料一律可供使用,且會在災難發生時受到保護。

提示

每當規劃 Data Lake 時,資料工程師都應該仔細考慮結構、資料治理和安全性。 這應該包含可能會影響湖結構和組織的因素考慮,例如:

  • 要儲存的資料類型
  • 資料的轉換方式
  • 誰應該存取資料
  • 什麼是一般存取模式

此方法有助於判斷如何規劃整個湖的存取控制治理。 資料工程師應該主動確保湖不會成為眾所周知的資料沼澤,因為缺少資料治理和資料品質量值,因此使用者無法存取且不實用。 建立 Azure Data Lake 的基準和遵循最佳做法,有助於確保適當的健全實作,讓組織能夠成長並取得更多見解。