你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
通过 Azure 门户创建使用 Data Lake Storage Gen2 的群集
Azure 门户是一种基于 Web 的管理工具,用于管理 Microsoft Azure 云中托管的服务和资源。 本文介绍如何使用门户创建基于 Linux 的 Azure HDInsight 群集。 有关更多详细信息,请参阅创建 HDInsight 群集。
警告
HDInsight 群集是基于分钟按比例计费,而不管用户是否使用它们。 请务必在使用完群集之后将其删除。 请参阅如何删除 HDInsight 群集。
如果没有 Azure 订阅,请在开始之前创建一个免费帐户。
若要创建将 Data Lake Storage Gen2 用作存储的 HDInsight 群集,请按照以下步骤操作,配置具有分层命名空间的存储帐户。
创建用户分配的托管标识
创建用户分配的托管标识(如果还没有)。
- 登录到 Azure 门户。
- 在左上角,单击“创建资源”。
- 在搜索框中键入“用户分配”并单击“用户分配的托管标识”。
- 单击创建。
- 输入托管标识的名称,选择正确的订阅、资源组和位置。
- 单击创建。
有关 Azure HDInsight 中托管标识的工作原理的详细信息,请参阅 Azure HDInsight 中的托管标识。
创建与 Data Lake Storage Gen2 配合使用的存储帐户
创建与 Azure Data Lake Storage Gen2 配合使用的存储帐户。
- 登录到 Azure 门户。
- 在左上角,单击“创建资源”。
- 在搜索框中,键入“存储”,然后单击“存储帐户” 。
- 单击 “创建” 。
- 在
Create storage account
屏幕上:- 选择正确的订阅和资源组。
- 为要与 Data Lake Storage Gen2 配合使用的存储帐户输入名称。
- 单击“高级”选项卡。
- 单击 Data Lake Storage Gen2 下的“分层命名空间”旁边的“启用”。
- 单击“查看 + 创建”。
- 单击“创建”
有关存储帐户创建过程中其他选项的详细信息,请参阅快速入门:为 Azure Data Lake Storage Gen2 创建存储帐户。
在 Data Lake Storage Gen2 上设置托管标识的权限
将托管标识分配到存储帐户上的“存储 Blob 数据所有者”角色。
在 Azure 门户中转到自己的存储帐户。
选择“访问控制 (IAM)”。
选择“添加”>“添加角色分配”。
在“角色”选项卡上,选择“存储 Blob 数据所有者”。
在“成员”选项卡上,选择“托管标识”,然后选择“选择成员”。
选择你的订阅,选择“用户分配的托管标识”,然后选择你的用户分配的托管标识。
在“查看 + 分配”选项卡上,选择“查看 + 分配”,以分配角色 。
现在,选定的用户分配的标识会列在选定的角色下。
若要详细了解角色分配,请参阅使用 Azure 门户分配 Azure 角色
此初始设置完成后,可通过门户创建群集。 群集必须与存储帐户位于同一 Azure 区域中。 在群集创建菜单的“存储”选项卡中,选择以下选项:
对于“主要存储类型”,请选择“Azure Data Lake Storage Gen2” 。
在“主存储帐户”下,搜索并选择新建的 Data Lake Storage Gen2 存储的存储帐户。
在“标识”下,选择新建的用户分配的托管标识。
注意
- 若要在存储帐户级别向 Data Lake Storage Gen2 添加辅助存储帐户,只需将先前创建的托管标识分配给要添加的新 Data Lake Storage Gen2 即可。 请注意,不支持通过 HDInsight 上的“其他存储帐户”边栏选项卡向 Data Lake Storage Gen2 添加辅助存储帐户。
- 可以在 HDInsight 使用的 Azure Blob 存储帐户上启用 RA-GRS 或 RA-ZRS。 但是,不支持针对 RA-GRS 或 RA-ZRS 辅助终结点创建群集。
- HDInsight 不支持将 Data Lake Storage Gen2 设置为“读取访问异地区域冗余存储(RA-GZRS)”或“异地区域冗余存储(GZRS)”。
删除群集
请参阅使用浏览器、PowerShell 或 Azure CLI 删除 HDInsight 群集。
故障排除
如果在创建 HDInsight 群集时遇到问题,请参阅访问控制要求。
后续步骤
你已成功创建 HDInsight 群集。 现在可以了解如何使用群集了。
Apache Spark 群集
- 使用脚本操作自定义基于 Linux 的 HDInsight 群集
- 使用 Scala 创建独立的应用程序
- 使用 Apache Livy 在 Apache Spark 群集中远程运行作业
- Apache Spark 和 BI:使用 HDInsight 中的 Spark 和 BI 工具执行交互式数据分析
- Apache Spark 和机器学习:使用 HDInsight 中的 Spark 预测食品检查结果