Partilhar via


Bases de dados SQL com o conector do Apache Spark

O conector Apache Spark para o Banco de Dados SQL do Azure e o SQL Server permite que esses bancos de dados atuem como fontes de dados de entrada e coletores de dados de saída para trabalhos do Apache Spark. Ele permite que você use dados transacionais em tempo real na análise de big data e persista os resultados para consultas ou relatórios ad-hoc.

Em comparação com o conector JDBC interno, esse conector fornece a capacidade de inserir dados em massa em bancos de dados SQL. Ele pode superar a inserção linha a linha com desempenho 10x a 20x mais rápido. O conector Spark para SQL Server e Banco de Dados SQL do Azure também dá suporte à autenticação Microsoft Entra ID, permitindo que você se conecte com segurança aos bancos de dados SQL do Azure a partir do Azure Databricks usando sua conta Microsoft Entra ID. Ele fornece interfaces semelhantes ao conector JDBC integrado. É fácil migrar seus trabalhos existentes do Spark para usar esse conector.

Requisitos

Há duas versões do conector Spark para SQL Server: uma para o Spark 2.4 e outra para o Spark 3.x. O conector Spark 3.x requer o Databricks Runtime 7.x ou superior. O conector é suportado pela comunidade e não inclui suporte a SLA da Microsoft. Registre quaisquer problemas no GitHub para envolver a comunidade para obter ajuda.

Componente Versões suportadas
Apache Spark 3.0.x e 2.4x
Databricks Runtime Conector Apache Spark 3.0: Databricks Runtime 7.x e superior
Scala Conector Apache Spark 3.0: 2.12

Apache Spark 2.4 conector: 2.11
Controlador Microsoft JDBC para SQL Server 8.2
Microsoft SQL Server SQL Server 2008 e superior
Base de Dados SQL do Azure Suportado

Usar o conector Spark

Para obter instruções sobre como usar o conector Spark, consulte Apache Spark connector: SQL Server & Azure SQL.