你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
将 Azure Synapse Analytics 与云规模分析配合使用
Azure Synapse Analytics 是一项预配的集成式分析服务,可以缩短在数据仓库和大数据系统中进行见解提取所需的时间。 Azure Synapse Analytics 汇集了:
- 企业数据仓库中所用 SQL 技术的精华。
- 用于大数据的 Spark 技术。
- 用于数据应用程序(源对齐)和提取、转换和加载 (ETL) 或提取、加载和转换 (ELT) 的管道。
Azure Synapse 中的 Azure Synapse studio 工具为管理、监视、编码和安全提供统一的体验。 Synapse studio 与其他 Azure 服务(如 Power BI、Azure Cosmos DB 和 AML) 深度集成。
注意
本部分旨在介绍特定于数据管理和分析方案的指定配置。 这是对官方 Azure Synapse Analytics 的补充。
概述
在初始设置数据登陆区域的过程中,可以部署单个 Azure Synapse Analytics 工作区,供所有分析人员和数据科学家使用。 你可以为特定的数据集成或数据产品创建更多工作区。
如果数据产品需要通过行级和列级安全性提供对标准化数据的访问权限,则可能需要额外的 Azure Synapse Analytics 工作区。 可以通过 Azure Synapse 池提供这些工作区。 数据产品团队可能需要自己的工作区来创建数据产品,并且需要一个单独的工作区,该工作区仅适用于具有作用域开发访问权限的产品团队。
Azure Synapse Analytics 设置
部署 Azure Synapse Analytics 的第一步是设置 Azure Synapse 工作区,该工作区连接到 Azure Purview 帐户。
Azure Synapse Analytics 网络
数据登陆区域使用 Azure Synapse Analytics 托管虚拟网络创建工作区。 与 Azure Synapse 的通信是通过其公开的三个终结点进行的:SQL 池、按需 SQL 和开发终结点。
在网络级别,云级分析使用 Synapse 托管专用终结点。 这些终结点确保数据登录区域虚拟网络与 Azure Synapse 工作区之间的所有流量完全通过 Microsoft 骨干网络进行移动。
Azure Synapse 访问控制
在 Azure Synapse Analytics 中将访问控制列表与 Microsoft Entra 直通配合使用,以管理对 Data Lake 中的文件的访问。
对于需要限制返回列和行的数据,我们建议使用行级和列级安全性来限制 Azure Synapse SQL 专用或无服务器池中的表的数据访问。 除数据库角色外,还可以在数据库级别实现行级安全性和列级安全性。
例如,行级别安全性可确保特定数据应用程序(与源保持一致)或数据产品中的用户只能看到自己的数据。 即使该表包含整个企业的数据也是如此。
可以将行级安全性与列级安全性结合使用,以限制访问包含敏感数据的列。 这样,行级安全性和列级安全性就会在数据库层而不是应用层上应用访问限制逻辑。 每次尝试从任何层进行数据访问时,都会对权限进行评估。
注意
Azure Synapse 无服务器 SQL 池支持 视图的列级安全性 ,不支持外部表。 对于外部表,可以基于外部表创建逻辑视图,而不是应用列级安全性。 对于行级安全性,自定义视图可用作解决方法。
有关详细信息,请参阅 Azure Synapse Analytics 数据访问控制。
Azure Data Lake 中的 Azure Synapse 数据访问控制
部署 Azure Synapse Analytics 工作区时,需要订阅中的 Azure Data Lake Storage 帐户,或者手动使用存储帐户 URL。 为部署的 Azure Synapse 工作区设置指定的存储帐户,作为存储其数据的“主要”帐户。 Azure Synapse 将数据存储在一个容器中,该容器包括 Apache Spark 表和 Spark 应用程序日志,位于一个名为/synapse/{workspaceName}
的文件夹中。 它还有一个容器,用于管理你选择安装的任何库。
提示
建议在开发层或数据湖 3 帐户上使用专用容器。 此容器用作存储 Spark 元数据的主存储。
有关如何设置数据访问的建议,请参阅 Azure Synapse Analytics 数据访问控制。