将 OneLake 与 Azure HDInsight 集成
Azure HDInsight是一种基于云的托管服务,用于大数据分析,可帮助组织处理大量数据。 本教程演示了如何从 Azure HDInsight 群集使用 Jupyter 笔记本连接到 OneLake。
使用 Azure HDInsight
要从 HDInsight 群集使用 Jupyter 笔记本连接到 OneLake:
创建 HDInsight (HDI) Apache Spark 群集。 请遵循以下说明:在 HDInsight 中设置群集。
提供群集信息时,请记住群集登录用户名和密码,因为稍后需要使用它们访问群集。
创建用户分配的托管标识(UAMI):为 Azure HDInsight 创建 - UAMI,并在“存储”屏幕中选择它作为标识。
向此 UAMI 授予对包含项的 Fabric 工作区的访问权限。 有关确定最佳角色的帮助,请参阅 工作区角色。
导航到湖屋并找到工作区和湖屋的名称。 可以在湖屋的 URL 或文件的“属性”窗格中找到它们。
在 Azure 门户中,查找群集并选择笔记本。
输入创建群集时提供的凭据信息。
创建新的 Apache Spark 笔记本。
将工作区和湖屋名称复制到笔记本中,并为湖屋生成 OneLake URL。 现在可以从此文件路径读取任何文件。
fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") df.show()
尝试将一些数据写入湖屋。
writecsvdf = df.write.format("csv").save(fp + "out.csv")
签入湖屋或读取新加载的文件,从而测试数据是否已成功写入。
现在,可以使用 HDI Spark 群集中的 Jupyter 笔记本在 OneLake 中读取和写入数据。