简介
如今,许多组织都需要处理大数据。 庞大的数据量和种类繁多的数据以及生成数据的速度,都要求具备可帮助管理和控制数据的系统。 过去,组织使用关系数据库管理系统来控制数据。 但是,组织现在希望将开源软件的功能与托管平台的优势相结合。 Azure HDInsight 是这种合作关系的完美典范。 HDInsight 允许你在许多方案中处理大数据(使用历史数据或实时数据)。
下图概述了如何使用 HDInsight。 它描绘了多个数据源,包括物联网 (IoT) 传感器、数据库和多个 Azure 数据存储。 HDInsight 处理来自这些位置的数据。 然后,它将这些数据保存在长期存储中,以用于实时应用和其他分析。
示例方案
假设你在一家组织工作,该组织需要构建为历史报告和高级分析引入数据的工作负载。 也许你还需要分析流式处理数据。 在这种情况下,你可能需要考虑使用 HDInsight。 它支持将所有数据引入单个 Data Lake 位置。 然后,你可以使用它来管理以下工作负载:
- 批处理
- 数据仓库
- 数据科学操作
- 流式处理
我们将执行哪些操作?
学完本模块后,你将能够评估 HDInsight 能否帮助你的组织处理大数据。 你还将能够介绍 HDInsight 如何使用支持多种数据方案的常用开源框架。
主要目标是什么?
主要目标是确定 HDInsight 是否适合你的大数据处理要求。