什么是 Azure HDInsight?

已完成

让我们回顾一下 HDInsight 的功能和用法。 此概述可帮助你评估 HDInsight 是否满足组织的要求。

什么是大数据?

术语“大数据”描述了组织收集的大量结构化数据和非结构化数据。 此数据对于组织可能非常有用。 具体而言,如果组织可以分析数据以获取见解,则可以更好地制定决策。 结果是这些决策可以帮助组织变得更加成功。 例如,大数据分析可能使商业组织能够识别客户习惯,从而帮助增加销售额。

Azure HDInsight 定义

Azure HDInsight 是面向企业的完全托管、基于云的开放源代码分析服务。 HDInsight 使你能够控制和管理你的大数据。 HDInsight:

  • 是 Hadoop 组件的云发行版。

  • 可让你更轻松、更快、更经济高效地处理大量数据。

  • 支持使用开源框架,如:

    • Hadoop
    • Apache Spark
    • Apache Hive
    • Apache Kafka

    注意

    可以通过这些框架启用各种各样的方案,例如提取、转换和加载 (ETL);数据仓库操作;机器学习;IoT。

HDInsight 可为使用大数据的组织提供多项好处。 它:

  • 开放源代码:使你能够为各种开放源代码框架创建优化的群集。

  • 可靠:为所有生产工作负载提供端到端 SLA。

  • 可缩放:使你能够缩放工作负载以响应需求变化。

    提示

    通过按需创建群集,可以降低成本。 只需为使用的资源付费。

  • 安全:使你能够通过与以下各项集成来保护企业数据资产:

    • Azure 虚拟网络
    • Azure 加密技术
    • Microsoft Entra ID
  • 合规:满足常用的行业和政府合规性标准。

  • 受监视:与 Azure Monitor 日志集成以提供单个界面。 使用单个界面监视所有群集。

HDInsight 如何帮助你处理大数据

你可以将 HDInsight 用于许多利用大数据处理的方案。 你的数据可能是:

  • 历史数据:已收集并存储此数据。
  • 实时数据:此数据直接从源流式传输。

下面的类别汇总了此数据的处理方案:

  • 批处理
  • 数据仓库
  • IoT
  • 数据科学
  • 混合

让我们更仔细地研究这些类别。

批处理

组织使用批处理作业来准备大数据以供进一步分析。 此过程通常涉及三个阶段:

  1. 从异类数据源读取源数据文件。
  2. 处理数据。
  3. 将数据写入可缩放的存储。

注意

此过程通常称为 ETL。

可以将转换的数据用于数据仓库或数据科学。

提示

ETL 的一项重要要求是计算横向扩展。这可以为处理大量数据提供支持。

数据仓库

数据仓库为组织提供了用于存储等待分析的大数据的位置。 使用数据仓库,你可以:

  • 存储你的数据。
  • 准备数据进行分析。
  • 以结构化格式提供准备的数据。 然后,可以使用分析工具来查询数据。

下图描绘了 HDInsight 上的 Apache Hadoop 如何从多个源收集和存储数据。 Apache Spark 和 Apache Hive 准备并分析数据。 最后,数据经过建模以用于商业智能 (BI) 工具。 Power BI 用于数据可视化。

此关系图显示 HDInsight 如何帮助多个工具收集、存储和准备数据进行分析,然后通过其他工具促进数据分析。

此方案中的组件包括:

  • Apache Spark 是一个并行处理框架。 它支持内存中处理,后者可帮助提升大数据分析应用程序的性能。
  • HDInsight 中的 Apache Hive 是适用于 Apache Hadoop 的数据仓库系统。 利用 Hive,可进行数据汇总、查询和分析。 可以使用这些组件对任何格式的结构化或非结构化数据执行 PB 规模的查询。

提示

Hive 查询使用 HiveQL(类似于 SQL 的查询语言)编写。

物联网

如下图所示,HDInsight 处理从不同设备和传感器实时接收的流式处理数据。 在此示例中,多个开放源代码框架提供流处理,其中包括 Apache Spark 和 Apache Kafka。

Azure 网关服务和 IoT 中心将来自各种源的数据定向到这些框架。 然后,框架处理数据,并将其传递到:

  • 长期存储。
  • 实时应用。
  • 实时仪表板。

上文所述的物联网方案的关系图。

数据科学

可以使用 HDInsight 来完成常见的数据科学任务,例如:

  • 数据引入。
  • 特征工程。
  • 建模。
  • 模型评估。

下图描绘了一个数据科学方案,其中:

  1. 使用 Azure 数据工厂从本地数据源收集数据。
  2. 然后,引入的数据存储在 Azure 存储(Azure Blob 存储或 Data Lake Store)中。
  3. HDInsight 上的 Azure Spark 为 Azure 机器学习处理并准备数据。 还可以使用 Power BI 将数据可视化。

显示上文所述的数据科学方案的关系图。

混合

具有本地大数据基础结构的组织可以使用 HDInsight 来扩展到 Azure。 这为你提供了 Azure 云的高级分析功能的优势。 下图描绘了混合方案,其中:

  • 本地大数据基础结构由元数据存储以及本地 VM 上的 Hadoop 或 Spark 分发组成。
  • Azure ExpressRoute 线路将本地公司网络环境连接到 Azure 虚拟网络。
  • 适用于 Azure 的实时数据迁移程序将从本地接收的数据复制到 HDInsight。

上文所述的混合方案的关系图。