Bases de dados SQL com o conector do Apache Spark
O conector Apache Spark para o Banco de Dados SQL do Azure e o SQL Server permite que esses bancos de dados atuem como fontes de dados de entrada e coletores de dados de saída para trabalhos do Apache Spark. Ele permite que você use dados transacionais em tempo real na análise de big data e persista os resultados para consultas ou relatórios ad-hoc.
Em comparação com o conector JDBC interno, esse conector fornece a capacidade de inserir dados em massa em bancos de dados SQL. Ele pode superar a inserção linha a linha com desempenho 10x a 20x mais rápido. O conector Spark para SQL Server e Banco de Dados SQL do Azure também dá suporte à autenticação Microsoft Entra ID, permitindo que você se conecte com segurança aos bancos de dados SQL do Azure a partir do Azure Databricks usando sua conta Microsoft Entra ID. Ele fornece interfaces semelhantes ao conector JDBC integrado. É fácil migrar seus trabalhos existentes do Spark para usar esse conector.
Requisitos
Há duas versões do conector Spark para SQL Server: uma para o Spark 2.4 e outra para o Spark 3.x. O conector Spark 3.x requer o Databricks Runtime 7.x ou superior. O conector é suportado pela comunidade e não inclui suporte a SLA da Microsoft. Registre quaisquer problemas no GitHub para envolver a comunidade para obter ajuda.
Componente | Versões suportadas |
---|---|
Apache Spark | 3.0.x e 2.4x |
Databricks Runtime | Conector Apache Spark 3.0: Databricks Runtime 7.x e superior |
Scala | Conector Apache Spark 3.0: 2.12 Apache Spark 2.4 conector: 2.11 |
Controlador Microsoft JDBC para SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 e superior |
Base de Dados SQL do Azure | Suportado |
Usar o conector Spark
Para obter instruções sobre como usar o conector Spark, consulte Apache Spark connector: SQL Server & Azure SQL.