共用方式為


適用於雲端規模分析的 Azure Data Lake Storage 概觀

Azure Data Lake 是可大規模調整且安全的數據記憶體,適用於高效能分析工作負載。 您可以在單一資源群組內建立記憶體帳戶,以進行雲端規模分析。 建議您在單一資源群組內布建三個 Azure Data Lake Storage Gen2 帳戶,storage-rg類似於雲端規模分析架構數據登陸區域概觀中所述的資源群組。

數據登陸區域中的每個記憶體帳戶都會將數據儲存在三個階段的其中一個 ,其符合獎牌架構

  • 原始資料(青銅)
  • 豐富(銀)和策劃的數據(金)
  • 開發數據湖

數據應用程式可以從已擷取自動化數據無從驗證擷取服務的記憶體帳戶取用擴充和策劃的數據。 如果您未實作數據無關引擎,或協助複雜的連接從操作來源擷取數據,您可以建立 來源對齊的數據應用程式 。 從外部數據源擷取數據時,此數據應用程式會遵循與數據無關引擎相同的流程。

Data Lake Storage Gen2 支援精細的 訪問控制清單 (ACL),以保護檔案和資料夾層級的數據。 存取控制清單可協助您的組織針對資料產品的驗證和授權實作嚴格的安全性措施:

  • 透過待用加密安全地儲存數據。
  • 透過Microsoft Entra整合,Microsoft Entra 使用者和安全組的訪問控制。

Data Lake 規劃

當您規劃數據湖時,請一律考慮結構、治理和安全性的適當考慮。 多個因素會影響每個 Data Lake 的結構和組織:

  • 儲存的數據型別
  • 其數據如何轉換
  • 誰存取其數據
  • 其一般存取模式是什麼

根據取用者的數據存取需求,將取用者和產生者分組。 規劃整個數據湖的實作和訪問控制控管是個好主意。

如果您的數據湖包含一些數據資產和自動化程式,例如擷取、轉換、載入 (ETL) 卸除,您的規劃可能相當容易。 如果您的 Data Lake 包含數百個數據資產,且牽涉到自動化和手動互動,則預期會花較長的時間規劃,因為您需要更多數據擁有者的共同作業。

數據沼澤類比喻

數據沼澤是用戶幾乎無法存取的 Unmanaged Data Lake。 當您未實作數據品質和數據控管量值時,就會發生數據沼澤。 您有時可以使用現有的混合式模型,在數據倉儲中看到數據沼澤。

適當的治理和組織可防止數據沼澤。 當您為數據湖建置堅實的基礎時,它會增加持續 Data Lake 成功與商業價值的機會。

隨著數據湖的大小、複雜度、數據資產數目,以及數據湖的用戶或部門數目成長,擁有健全的數據目錄系統越來越重要。 您的數據目錄系統可確保使用者在處理、取用及控管數據湖時,可以尋找、標記和分類數據。

如需詳細資訊,請參閱 數據控管概觀

邏輯數據湖中的記憶體帳戶

請考慮您的組織是否需要一或多個記憶體帳戶,並考慮建置邏輯數據湖所需的文件系統。 單一記憶體技術提供多個數據存取方法,並協助您在整個組織中標準化。

Data Lake Storage Gen2 是完全受控的平臺即服務(PaaS)。 在存取或儲存數據之前,多個記憶體帳戶或文件系統不會產生貨幣成本。 每個 Azure 資源在布建、安全性和治理期間都有系統管理與作業額外負荷,包括備份和災害復原。

注意

每個數據登陸區域都會說明三個數據湖。 不過,視您的需求而定,您可以將原始、擴充和策劃的層合併成一個記憶體帳戶。 您可以建立另一個名為「開發」的記憶體帳戶,讓數據取用者可以帶來其他有用的數據產品。

在合併或三個記憶體帳戶方法之間決定時,請考慮下列因素:

  • 隔離數據環境和可預測性
    • 您可以隔離在原始和開發區域中執行的活動,以避免對策劃區域產生潛在影響,此區域會保存具有重要決策制定所需之絕佳商業價值的數據
  • 記憶體帳戶層級的特性和功能
    • 您可以選擇生命週期管理選項或防火牆規則是否必須在數據登陸區域或數據湖層級套用。
    • 建立多個記憶體帳戶,但不是垃圾尋址接收器。
    • 避免重複的數據項目無法在整個組織中缺乏可見度或知識共用。
    • 請確定您有良好的數據控管、專案追蹤工具和資料目錄。
  • 根據設定的許可權,與跨多個湖的數據互動數據處理工具和技術
  • 區域與全球湖泊
    • 湖上的全域散發取用者或進程對地理距離所造成的延遲很敏感。
    • 將數據儲存在本機是很好的作法。
    • 法規限制和數據主權可能需要數據保留在特定區域中。
    • 如需詳細資訊,請參閱 多區域部署

多區域部署

根據數據落地規則或將數據保持在使用者基底附近的需求所決定時,您可能需要在多個 Azure 區域中建立 Azure Data Lake 帳戶。 您必須在一個區域中建立數據登陸區域,然後使用 AzCopy、Azure Data Factory 或合作夥伴產品來復寫全域數據。 本機數據會存在於區域中,而全域數據則會跨多個區域複寫。

下一步