Databáze SQL s využitím konektoru Apache Spark
Konektor Apache Spark pro Azure SQL Database a SQL Server umožňuje těmto databázím fungovat jako vstupní zdroje dat a výstupní datové jímky pro úlohy Apache Sparku. Umožňuje používat transakční data v reálném čase v analýzách velkých objemů dat a uchovávat výsledky pro ad hoc dotazy nebo vytváření sestav.
V porovnání s integrovaným konektorem JDBC tento konektor umožňuje hromadně vkládat data do databází SQL. Díky 10x až 20x rychlejšímu výkonu může překračovat vkládání řádků po řádech. Konektor Spark pro SQL Server a Azure SQL Database také podporuje ověřování Microsoft Entra ID, které umožňuje bezpečné připojení k databázím Azure SQL z Azure Databricks pomocí účtu MICROSOFT Entra ID. Poskytuje rozhraní podobná integrovanému konektoru JDBC. Pro použití tohoto konektoru je snadné migrovat stávající úlohy Sparku.
Požadavky
Existují dvě verze konektoru Spark pro SQL Server: jednu pro Spark 2.4 a druhou pro Spark 3.x. Konektor Spark 3.x vyžaduje Databricks Runtime 7.x nebo vyšší. Konektor je podporovaný komunitou a nezahrnuje podporu smlouvy SLA od Microsoftu. Zapojte všechny problémy na GitHubu a požádejte komunitu o pomoc.
Komponenta | Podporované verze |
---|---|
Apache Spark | 3.0.x a 2,4x |
Databricks Runtime | Konektor Apache Spark 3.0: Databricks Runtime 7.x a novější |
Scala | Konektor Apache Spark 3.0: 2.12 Konektor Apache Spark 2.4: 2.11 |
Ovladač Microsoft JDBC pro SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 a novější |
Azure SQL Database | Podporováno |
Použití konektoru Spark
Pokyny k použití konektoru Spark najdete v tématu Konektor Apache Spark: SQL Server a Azure SQL.