SQL Server 大数据群集中的主池简介

适用范围:SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 大数据群集附加产品将停用。 对 SQL Server 2019 大数据群集的支持将于 2025 年 2 月 28 日结束。 具有软件保障的 SQL Server 2019 的所有现有用户都将在平台上获得完全支持,在此之前,该软件将继续通过 SQL Server 累积更新进行维护。 有关详细信息,请参阅公告博客文章Microsoft SQL Server 平台上的大数据选项

本文介绍 SQL Server 大数据群集中 SQL Server 主实例的作用。 主池包含 SQL Server 的主实例。 主实例是在 SQL Server 大数据群集中运行的 SQL Server 实例。 主实例管理连接性、横向扩展查询、元数据和用户数据库以及机器学习服务。

SQL Server 主实例提供以下功能:

连接

SQL Server 主实例为群集提供外部可访问的 TDS 终结点。 可将应用程序或 SQL Server 工具(如 Azure Data Studio 或 SQL Server Management Studio)连接到此终结点,就像使用任何其他 SQL Server 实例一样。

横向扩展查询管理

SQL Server 主实例包含横向扩展查询引擎,可用于在计算池中的节点上跨 SQL Server 实例分发查询。 横向扩展查询引擎还通过 Transact-SQL 提供对群集中所有 Hive 表的访问权限,而无需任何其他配置。

元数据和用户数据库

除标准 SQL Server 系统数据库外,SQL 主实例还包含:

  • 保存 HDFS 表元数据的元数据数据库。
  • 数据平面分片映射。
  • 提供群集数据平面访问权限的外部表的详细信息。
  • 用户数据库中定义的 PolyBase 外部数据源和外部表。

还可选择将自己的用户数据库添加到 SQL Server 主实例。

机器学习服务

SQL Server 机器学习服务功能是数据库引擎的附加功能。 机器学习服务功能用于在 SQL Server 中执行 Java、R 和 Python 代码。 此功能基于 SQL Server 扩展性框架,该框架将外部进程与核心引擎进程隔离,但以存储过程、包含 R 或 Python 语句的 T-SQL 脚本,或包含 T-SQL 的 Java、R 或 Python 代码的形式与关系数据完全集成。

作为 SQL Server 大数据群集的一部分,SQL Server 主实例默认提供机器学习服务。 一旦在 SQL Server 主实例上启用外部脚本执行,就可以使用 sp_execute_external_script 执行 Java、R 和 Python 脚本。

大数据群集中机器学习服务的优点

借助 SQL Server 大数据群集,可将大数据轻松地联接到通常存储在企业数据库中的维度数据。 当大数据不仅仅由组织的各个部分掌握,而且还包含在报表、仪表板和应用程序中时,其价值会大幅增加。 与此同时,数据科学家可以继续使用 Spark/HDFS 生态系统工具,并轻松、实时地访问 SQL Server 主实例和外部数据源(可通过 SQL Server 主实例访问)中的数据。

使用 SQL Server 大数据群集,可以通过企业数据湖实现更多操作。 SQL Server 开发人员和分析人员可以:

  • 生成使用企业数据湖中的数据的应用程序。
  • 使用 Transact-SQL 查询推断所有数据。
  • 使用现有 SQL Server 工具和应用程序生态系统来访问和分析企业数据。
  • 通过数据虚拟化和数据市场减少数据移动需求。
  • 继续将 Spark 用于大数据方案。
  • 使用 Spark 或 SQL Server 生成智能企业应用程序,以通过数据湖训练模型。
  • 在生产数据库中操作模型以获得最佳性能。
  • 将数据直接流式传输到企业数据市场以进行实时分析。
  • 使用交互式分析和 BI 工具直观地探索数据。

后续步骤

若要了解有关 SQL Server 大数据群集 的详细信息,请参阅以下资源: