使用 Apache Spark 連接器 SQL 資料庫
適用於 Azure SQL 資料庫 和 SQL Server 的 Apache Spark 連接器可讓這些資料庫作為 Apache Spark 作業的輸入數據源和輸出數據接收。 它可讓您在巨量數據分析中使用即時事務數據,並保存特定查詢或報告的結果。
相較於內建 JDBC 連接器,此連接器提供將數據大量插入 SQL 資料庫的能力。 它能以 10 倍到 20 倍的速度提升效能,以超過逐個資料列插入的效能。 適用於 SQL Server 和 Azure SQL 資料庫 的 Spark 連接器也支援Microsoft Entra ID 驗證,讓您能夠使用您的 Microsoft Entra ID 帳戶,從 Azure Databricks 安全地連線到 Azure SQL 資料庫。 它提供類似於內建 JDBC 連接器的介面。 您可以輕鬆地移轉現有的 Spark 作業,以使用此連接器。
需求
SQL Server 的 Spark 連接器有兩個版本:一個用於 Spark 2.4,另一個適用於 Spark 3.x。 Spark 3.x 連接器需要 Databricks Runtime 7.x 或更新版本。 連接器受到社群支援,且不包含Microsoft SLA 支援。 在 GitHub 上提出任何問題,以連絡社群以取得協助。
元件 | 支援的版本 |
---|---|
Apache Spark | 3.0.x 和 2.4x |
Databricks Runtime | Apache Spark 3.0 連接器:Databricks Runtime 7.x 和更新版本 |
Scala | Apache Spark 3.0 連接器:2.12 Apache Spark 2.4 連接器:2.11 |
Microsoft JDBC Driver for SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 和更新版本 |
Azure SQL Database | 支援 |
使用 Spark 連接器
如需使用Spark連接器的指示,請參閱 Apache Spark連接器:SQL Server 和 Azure SQL。