了解 Azure Data Lake Storage Gen2

已完成

Data Lake 是采用其自然格式(通常为 blob 或文件)存储的数据存储库。 Azure Data Lake Storage 是适用于 Azure 内置的高性能分析的全面、大规模可缩放、安全且经济高效的数据湖解决方案。

表示 Azure Data Lake Storage Gen2 中由大数据技术访问的文件的示意图。

Azure Data Lake Storage 将文件系统与存储平台相结合,可帮助快速识别数据见解。 Data Lake Storage 以 Azure Blob 存储功能为基础而生成,专门针对分析工作负载进行了优化。 此集成可实现分析性能、Blob 存储的分层和数据生命周期管理功能,以及 Azure 存储的高可用性、安全性和持久性功能。

好处

Data Lake Storage 旨在处理 EB 规模的数据的这种多样性和数量,同时安全地处理数百 GB 的吞吐量。 借助此优势,可以将 Data Lake Storage Gen2 用作实时和批处理解决方案的基础。

Hadoop 兼容访问

Data Lake Storage 的优势在于,你可如同数据存储在 Hadoop 分布式文件系统 (HDFS) 中那样来处理数据。 有了此功能,你可将数据存储在一个位置,并通过计算技术(包括 Azure Databricks、HDInsight 和 Azure Synapse Analytics)进行访问,无需在各个环境之间移动数据。 数据工程师还能够使用 parquet 格式等存储机制,这种机制经过高度压缩,使用内部列式存储在多个平台上表现良好。

安全性

Data Lake Storage 支持不继承父目录的访问控制列表 (ACL) 和可移植操作系统接口 (POSIX) 权限。 事实上,可以在目录级别或文件级别为数据湖中存储的数据设置权限,提供一个更安全的存储系统。 这种安全性可通过 Hive 和 Spark 等技术或运行在 Windows、macOS 和 Linux 上的 Azure 存储资源管理器等实用工具进行配置。 所有存储的数据都使用 Microsoft 或客户托管的密钥进行静态加密。

性能

Azure Data Lake Storage 将存储的数据组织为十分类似于文件系统的目录和子目录层次结构,以便于导航。 因此,数据处理所需的计算资源较少,从而减少了时间和成本。

数据冗余

Data Lake Storage 利用 Azure Blob 复制模型,此类模型使用本地冗余存储 (LRS) 在单个数据中心内提供数据冗余,或使用异地冗余存储 (GRS) 选项向次要区域提供数据冗余。 此功能可确保数据在遭遇灾难时始终可用并且受保护。

提示

每当规划数据湖时,数据工程师都应该对结构、数据管理和安全性进行深思熟虑。 这应包括考虑可能影响湖结构和组织的因素,例如:

  • 要存储的数据类型
  • 如何转换数据
  • 谁应访问数据
  • 典型访问模式是什么

此方法将有助于确定如何规划整个湖中的访问控制管理。 数据工程师应主动确保湖不会成为传说中的数据沼泽,在那样的情形下,由于缺乏数据管理和数据质量措施,使它变得无法访问,对用户没有用处。 为 Azure Data Lake 建立基线并遵循最佳做法,将有助于确保正确、可靠的实现,使组织能够成长并获取见解,以实现更多目标。