你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
有关云规模分析的常见问题
以下是有关云规模分析的常见问题。
存储帐户
为什么需要三个单独的存储帐户? 能否只拥有一个账户,每层(原始、优化和策展)提供三个容器?
如今,大多数数据分析模式都存在三个层:原始、优化和策展。 尽管它们可以保留在同一存储中,但当涉及到大规模实现时会产生一些问题,比如:超过了允许的基于角色的访问控制 (RBAC) 数量和访问控制列表 (ACL) 在单个存储帐户中可用的权限。 使用单独的存储帐户时,大多数实现都可以避免此问题。
用于云规模分析的 Azure Data Lake Storage 概述中讨论了其他原因。
Databricks
是否应为每个产品部署 Azure Databricks 工作区?
建议使用登陆区域内的共享产品 Azure Databricks 分析和数据科学工作区。
做出此决定是为了降低数据平台运营团队的管理开销。 Azure Databricks 具有一组未集成到 Azure 策略中的独立策略。 在大环境中,设置更多 Azure Databricks 工作区会带来更多管理开销。 例如,维护策略和支持的 Apache Hive 版本,更新 ADB 版本,并强制实施外部 Apache Hive 元存储。 中心平台团队无法在任何 Databricks 工作区中强制实施某些设置。 建议在登陆区域中为产品团队提供共享工作区,数据平台 ops 团队可以在其中定义必需的群集策略和初始化脚本。
建议在登陆区域和专用终结点之间使用 VNet 对等互连。 对于 Azure Databricks,请使用 VNet 注入。 由于能够直接看见所有终结点,因此没有连接问题。