你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
使用 Windows 电脑在 HDInsight 上的 Apache Hadoop 生态系统中工作
了解 Windows 电脑上用于在 HDInsight 的 Apache Hadoop 生态系统中工作的开发和管理选项。
HDInsight 基于在 Linux 上开发的 Apache Hadoop 和 Hadoop 组件与开源技术。 HDInsight 3.4 及更高版本使用 Ubuntu Linux 发行版作为群集的基础 OS。 但是,可以通过 Windows 客户端或 Windows 开发环境使用 HDInsight。
使用 PowerShell 完成部署和管理任务
Azure PowerShell 是一个脚本编写环境,使用它可以通过 Windows 在 HDInsight 中控制和自动完成部署与管理任务。
可以使用 PowerShell 完成的任务示例:
请遵循安装和配置 Azure Powershell 的步骤来获取最新版本。
可在浏览器中运行的实用工具
以下实用工具提供可在浏览器中运行的 Web UI:
Azure Cloud Shell 是可在浏览器和 Azure 门户中运行的交互式命令行 shell。
Apache Ambari Web UI 是 Azure 门户中提供的管理和监视实用工具,可用于管理不同类型的作业,例如:
在转到下面的示例之前,请安装并试用用于 Visual Studio 的 Data Lake 工具。
Visual Studio 和 .NET SDK
可以配合使用 Visual Studio 和 .NET SDK 来管理群集及开发大数据应用程序。 可将其他 IDE 用于以下任务,但示例显示在 Visual Studio 中。
可在 Visual Studio 中使用 .NET SDK 完成的任务示例:
- 用于 .NET 的 Azure HDInsight SDK。
- 使用 .NET SDK 运行 Apache Hive 查询。
- 在 Apache Hadoop 上将 C# 用户定义函数与 Apache Hive 和 Apache Pig 流式处理配合使用。
用于 Spark 群集的 Intellij IDEA 和 Eclipse IDE
Intellij IDEA 和 Eclipse IDE 都可用于:
- 在 HDInsight Spark 群集中开发和提交 Scala Spark 应用程序。
- 访问 Spark 群集资源。
- 本地开发和运行 Scala Spark 应用程序。
以下文章介绍了相关信息:
- Intellij IDEA:使用用于 Intellij 的 Azure 工具包插件和 Scala SDK 创建 Spark 应用程序。
- Eclipse IDE 或 Scala IDE for Eclipse:创建 Apache Spark 应用程序和 Azure Toolkit for Eclipse
Spark 上面向数据科研人员的 Notebook
HDInsight 中的 Apache Spark 群集包含可与 Jupyter Notebook 配合使用的 Apache Zeppelin Notebook 和内核。
- 了解如何将 Apache Spark 群集上的内核与 Jupyter Notebook 配合使用来测试 Spark 应用程序
- 了解如何使用 Apache Spark 群集上的 Apache Zeppelin Notebook 来运行 Spark 作业
在 Windows 上运行基于 Linux 的工具和技术
如果遇到必须使用仅在 Linux 上可用的工具或技术的情况,请考虑以下选项:
- Windows 10 版 Bash on Ubuntu 在 Windows 上提供一个 Linux 子系统。 Bash 允许直接运行 Linux 实用工具,而无需维护专用的 Linux 安装。 有关安装步骤,请参阅适用于 Linux 的 Windows 子系统 (Windows 10) 安装指南。 其他 Unix shell 也适用。
- 使用适用于 Windows 的 Docker 可以访问许多基于 Linux 的工具,可以直接从 Windows 运行。 例如,可以直接在 Windows 中使用 Docker 来运行适用于 Hive 的 Beeline 客户端。 还可以使用 Docker 运行本地 Jupyter Notebook,以及远程连接到 Spark on HDInsight。 适用于 Windows 的 Docker 入门
- 使用 MobaXTerm 可以通过 SSH 连接以图形方式浏览群集文件系统。
跨平台工具
Azure 命令行接口 (CLI) 是用于管理 Azure 资源的 Microsoft 跨平台命令行体验。 有关详细信息,请参阅 Azure 命令行接口 (CLI)。
后续步骤
如果不太熟悉如何在基于 Linux 的群集中操作,请参阅以下文章: