Azure Synapse Analytics 的工作原理
为了支持当今组织的分析需求,Azure Synapse Analytics 将用于数据存储和处理的集中式服务与可扩展的体系结构相结合,通过该体系结构,链接服务使你能够集成常用的数据存储、处理平台和可视化工具。
创建和使用 Azure Synapse Analytics 工作区
Synapse Analytics 工作区定义了 Synapse Analytics 服务的一个实例,你可在其中管理分析解决方案所需的服务和数据资源。 可以使用 Azure 门户以交互方式在 Azure 订阅中创建 Synapse Analytics 工作区,也可以使用 Azure PowerShell、Azure 命令行接口 (CLI) 或使用 Azure 资源管理器或 Bicep 模板自动执行部署。
创建 Synapse Analytics 工作区后,使用 Synapse Studio(Azure Synapse Analytics 的一个基于 Web 的门户)可以管理其中的服务并使用这些服务执行数据分析任务。
处理数据湖中的文件
Synapse Analytics 工作区中的核心资源之一是数据湖,在其中可以大规模存储和处理数据文件。 工作区通常具有默认数据湖,该数据湖作为到 Azure Data Lake Storage Gen2 容器的链接服务实现。 可以根据需要为基于不同存储平台的多个数据湖添加链接服务。
使用管道引入和转换数据
在大多数企业数据分析解决方案中,数据是从多个操作源中提取的,并传输到中央数据湖或数据仓库进行分析。 Azure Synapse Analytics 包括对创建、运行和管理管道的内置支持,用于协调从一系列源检索数据、根据需要转换数据以及将生成的转换数据加载到分析存储中所需的活动。
注意
Azure Synapse Analytics 中的管道基于与 Azure 数据工厂相同的基础技术。 如果已熟悉 Azure 数据工厂,则可以利用现有技能在 Azure Synapse Analytics 中生成数据引入和转换解决方案。
使用 SQL 查询和操作数据
结构化查询语言 (SQL) 是一种用于查询和操作数据的通用语言,是关系数据库(包括常用的 Microsoft SQL Server 数据库平台)的基础。 Azure Synapse Analytics 支持通过两种基于 SQL Server 关系数据库引擎的 SQL 池进行基于 SQL 的数据查询和操作:
- 针对使用关系 SQL 语义查询数据湖中基于文件的数据进行了优化的内置无服务器池。
- 托管关系数据仓库的自定义专用 SQL 池。
Azure Synapse SQL 系统使用分布式查询处理模型来并行化 SQL 操作,从而为关系数据处理提供高度可缩放的解决方案。 可以使用内置无服务器池对数据湖中的文件数据进行经济高效的分析和处理,并使用专用的 SQL 池创建用于企业数据建模和报告的关系数据仓库。
使用 Apache Spark 处理和分析数据
Apache Spark 是用于大数据分析的开源平台。 Spark 通过运行可使用一系列受支持的编程语言中的任何一种实现的作业,对数据湖中的文件执行分布式处理。 Spark 支持的语言包括 Python、Scala、Java、SQL 和 C#。
在 Azure Synapse Analytics 中,可以创建一个或多个 Spark 池,并使用交互式笔记在构建数据分析、机器学习和数据可视化解决方案时组合代码和注释。
使用数据资源管理器探索数据
Azure Synapse 数据资源管理器是 Azure Synapse Analytics 中基于 Azure 数据资源管理器服务的数据处理引擎。 数据资源管理器使用名为 Kusto 查询语言 (KQL) 的直观查询语法实现对批处理和流式处理数据的高性能、低延迟分析。
与其他 Azure 数据服务集成
Azure Synapse Analytics 可以与其他 Azure 数据服务集成,以实现端到端分析解决方案。 集成解决方案包括:
- Azure Synapse Link 支持在 Azure Cosmos DB、Azure SQL Database、SQL Server 和 Microsoft Power Platform Dataverse 中的操作数据与可在 Azure Synapse Analytics 中查询的分析数据存储之间实现近实时的同步。
- Microsoft Power BI 集成使数据分析师能够将 Power BI 工作区集成到 Synapse 工作区中,并在 Azure Synapse Studio 中执行交互式数据可视化。
- Microsoft Purview 集成使组织能够在 Azure Synapse Analytics 中对数据资产进行编目,并使数据工程师在实现将数据引入 Azure Synapse Analytics 的数据管道时更容易查找数据资产并跟踪数据沿袭。
- Azure 机器学习集成使数据分析师和数据科学家能够将预测模型的训练和使用集成到分析解决方案中。