Bancos de dados SQL usando o conector do Apache Spark
O conector do Apache Spark para Banco de Dados SQL do Azure e SQL Server permite que esses bancos de dados atuem como fontes de dados de entrada e coletores de dados de saída para trabalhos do Apache Spark. Ele permite que você utilize dados transacionais em tempo real na análise de Big Data e persiste resultados para relatórios ou consultas ad hoc.
Em comparação com o conector interno do JDBC, este conector fornece a capacidade de inserir dados em massa em bancos de dados SQL. Ele pode superar a inserção de linha por linha com desempenho de 10 a 20 vezes mais rápido. O conector do Spark para SQL Server e Banco de Dados SQL do Azure também dá suporte à autenticação de ID do Microsoft Entra, permitindo que você se conecte com segurança aos bancos de dados SQL do Azure do Azure Databricks usando sua conta de ID do Microsoft Entra. Ele fornece interfaces que são semelhantes ao conector interno do JDBC. É muito fácil migrar trabalhos do Spark existentes para usar esse conector.
Requisitos
Há duas versões do conector do Spark para o SQL Server: uma para o Spark 2.4 e outra para o Spark 3.x. O conector do Spark 3.x requer o Databricks Runtime 7.x ou superior. O conector tem suporte da comunidade e não inclui o suporte a SLA da Microsoft. Arquive quaisquer problemas no GitHub para envolver a comunidade para obter ajuda.
Componente | Versões com suporte |
---|---|
Apache Spark | 3.0.x e 2.4x |
Databricks Runtime | Conector do Apache Spark 3.0: Databricks Runtime 7.x e versões superiores |
Scala | Conector do Apache Spark 3.0: 2.12 Conector do Apache Spark 2.4: 2.11 |
Microsoft JDBC Driver para SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 e posterior |
Banco de Dados SQL do Azure | Com suporte |
Use o conector do Spark
Para obter instruções sobre como usar o conector do Spark, consulte Conector do Apache Spark: SQL Server e SQL do Azure.