你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure Data Lake Storage 关键注意事项

了解 Azure 数据湖的关键存储注意事项。

生命周期管理

Azure 存储提供不同的访问层,使你能够以可能最具成本效益的方式存储 Blob 对象数据。 可用的访问层包括:

  • 热:经过优化,可存储经常访问的数据。
  • 冷:经过优化,可存储不常访问的数据。 数据至少保存 30 天。
  • 寒层:针对存储不常访问或修改的数据进行了优化。 数据至少保存 90 天。 与冷层相比,寒层的存储成本较低,访问成本较高。
  • 存档:经过优化,可存很少访问的数据。 数据的存储时间至少为 180 天,具有灵活的延迟要求,按小时顺序排列。

重要

不同在线访问层级之间不存在可靠性、安全性、卓越运行或性能效率方面的权衡,因此在线层级的选择是基于工作负荷访问数据大小、运行交互和 Blob 被删除前的时间等因素做出的财务决策。 根据前述因素的计算,为每个 Blob 选择正确的层级。 有关详细信息,请参阅规划和管理 Azure Blob 存储的成本

使用访问层时请考虑以下信息:

  • 在帐户级别只能设置热和冷访问层。 存档访问层在帐户级别不可用。

  • 可以在上传期间或上传后在 Blob 级别设置热层、冷层和存档层。

  • 冷层和寒层中的数据的可用性略低,但提供与热层数据相同的高持久性、检索延迟和吞吐量特征。 对于冷层或寒层中的数据,略低的可用性和较高的访问成本可以是为了获得更低的整体存储成本(与热层相比)而可接受的折衷。

  • 存档存储将数据脱机存储,并提供最低的存储成本。 不过,它还具有最高的数据解冻和访问成本。

有关详细信息,请参阅 Blob 数据的访问层

注意

对于云规模分析,建议使用自定义微服务实现生命周期管理,并仔细考虑将用户可发现数据移动到冷存储的影响。

应只将数据湖的部分移动到冷层,以处理易于理解的工作负荷。

数据 lake 连接

每个数据湖应使用注入到数据登陆区域虚拟网络中的专用终结点。 为提供跨登陆区域的访问,请通过虚拟网络对等互连来连接数据登陆区域。 从成本和访问控制的角度来看,这种连接提供了最佳解决方案。

有关详细信息,请参阅专用终结点数据管理登陆区域到数据登陆区域

重要

可以通过区域之间的虚拟网络对等互连,从另一数据登陆区域访问数据登陆区域中的数据。 使用与每个 data lake 帐户关联的专用终结点完成此操作。 建议关闭对湖的所有公共访问并使用专用终结点。 平台操作团队应控制数据登陆区域的网络连接。

容器软删除

容器软删除可保护数据免遭意外或恶意删除。 如果为存储帐户启用容器软删除,已删除的容器及其内容将在 Azure 存储中保留一段时间(保留时长由自己选择)。 在这段数据保留期内,可以还原以前删除的容器。 还原容器也会还原容器被删除时其中原有的任何 Blob。

启用以下数据保护功能以实现端到端 Blob 数据保护:

警告

删除存储帐户不能撤消。 容器软删除不能防止删除存储帐户,仅可防止删除帐户内的容器。 若要防止存储帐户被删除,请在存储帐户资源上配置锁。 若要详细了解如何锁定 Azure 资源管理器资源,请参阅锁定资源以防止意外更改

监视

在数据登陆区域中,所有监控都应发送到 Azure 登陆区域管理订阅进行分析。

要了解 Azure 存储使用的监视数据,请参阅使用 Azure Monitor 监视 Azure 资源。 如需详细了解 Azure 存储创建的日志和指标,请参阅监视 Azure Blob 存储

仅在针对服务终结点发出请求时才会创建日志条目。 记录的经过身份验证的请求的类型为:

  • 成功的请求
  • 失败的请求,包括超时、限制、网络、授权和其他错误
  • 使用共享访问签名 (SAS) 或 OAuth 的请求,包括失败和成功的请求
  • 对分析数据(比如 $logs 容器中的经典日志数据和 $metric 表中的类指标数据)的请求

不会记录存储服务本身发出的请求,如创建或删除日志。 记录的匿名请求的类型为:

  • 成功的请求
  • 服务器错误
  • 客户端和服务器的超时错误
  • HTTP GET 请求失败,错误代码为 304 (Not Modified)

不会记录所有其他失败的匿名请求。

重要

将默认监视策略设置为审核存储,并将日志发送到企业级管理订阅。

以下是每个数据湖区域的推荐安全模式:

  • 原始使用方式只允许使用安全主体名称 (SPN) 访问数据,最好使用托管标识。
  • 扩充使用方式只允许使用安全主体名称 (SPN) 访问数据,最好使用托管标识。
  • 特选使用方法允许访问安全主体名称 (SPN) 和用户主体名称 (UPN)。

有关详细信息,请参阅 Azure Data Lake Storage 中的访问控制模型

后续步骤