从 Azure Databricks 连接到数据源

本文提供了指向 Azure 中可以连接到 Azure Databricks 的所有不同数据源的链接。 请按照这些链接中的示例操作,将 Azure 数据源(例如,Azure Blob 存储、Azure 事件中心等)中的数据提取到 Azure Databricks 群集中,并对这些数据运行分析作业。

先决条件

  • 必须具备 Azure Databricks 工作区和 Spark 群集。 请按快速入门中的说明操作。

Azure Databricks 的数据源

以下列表提供了 Azure 中可用于 Azure Databricks 的数据源。 有关可用于 Azure Databricks 的数据源的完整列表,请参阅 Azure Databricks 的数据源

  • Azure SQL 数据库

    此链接提供了用于使用 JDBC 连接到 SQL 数据库的数据帧 API,并介绍了如何控制通过 JDBC 接口进行的读取操作的并行度。 本主题提供了使用 Scala API 的详细示例,并在末尾提供了 Python 和 Spark SQL 的简略示例。

  • Azure Data Lake 存储

    此链接举例说明了如何使用 Microsoft Entra ID(以前称为 Azure Active Directory)服务主体向 Azure Data Lake Storage 进行身份验证。 它还说明了如何从 Azure Databricks 访问 Azure Data Lake Storage 中的数据。

  • Azure Blob 存储

    此链接举例说明了如何使用给定容器的访问密钥或 SAS 从 Azure Databricks 直接访问 Azure Blob 存储。 此链接还提供了信息说明如何使用 RDD API 从 Azure Databricks 访问 Azure Blob 存储。

  • Azure 事件中心

    此链接提供有关如何使用 Azure Databricks 中的 Kafka 连接器访问Azure 事件中心中的数据的说明。

  • Azure Synapse Analytics

    此链接提供有关如何在 Azure Synapse 中查询数据的说明。

后续步骤

若要了解可以从中将数据导入到 Azure Databricks 中的源,请参阅 Azure Databricks 的数据源