다음을 통해 공유


Apache Spark 커넥터를 사용하는 SQL Databases

Azure SQL Database 및 SQL Server용 Apache Spark 커넥터는 이러한 데이터베이스가 Apache Spark 작업에 대한 입력 데이터 원본 및 출력 데이터 싱크 역할을 할 수 있도록 합니다. 이를 통해 빅 데이터 분석에서 실시간 트랜잭션 데이터를 사용하고 임시 쿼리 또는 보고에 대한 결과를 유지할 수 있습니다.

이 커넥터는 기본 제공 JDBC 커넥터와 비교하여 SQL 데이터베이스에 데이터를 대량으로 insert 기능을 제공합니다. 10배~20배 빠른 성능으로 행 단위로 삽입할 때 뛰어난 성능을 제공합니다. 또한 SQL Server 및 Azure SQL Database용 Spark 커넥터는 Microsoft Entra ID 인증을 지원하므로 Microsoft Entra ID 계정을 사용하여 Azure Databricks에서 Azure SQL 데이터베이스에 안전하게 연결할 수 있습니다. 기본 제공 JDBC 커넥터와 유사한 인터페이스를 제공합니다. 이 커넥터를 사용하기 위해 기존 Spark 작업을 쉽게 마이그레이션할 수 있습니다.

요구 사항

SQL Server용 Spark 커넥터에는 두 가지 버전이 있습니다. 하나는 Spark 2.4용이고 다른 하나는 Spark 3.x용입니다. Spark 3.x 커넥터에는 Databricks Runtime 7.x 이상이 필요합니다. 커넥터는 커뮤니티에서 지원하며 Microsoft SLA 지원을 포함하지 않습니다. 문제가 있으면 GitHub에 제출하여 커뮤니티에 도움을 요청합니다.

구성 요소 지원되는 버전
Apache Spark 3.0.x 및 2.4x
Databricks Runtime Apache Spark 3.0 커넥터: Databricks Runtime 7.x 이상
Scala Apache Spark 3.0 커넥터: 2.12

Apache Spark 2.4 커넥터: 2.11
SQL Server용 Microsoft JDBC Driver 8.2
Microsoft SQL Server SQL Server 2008 이상
Azure SQL Database 지원 여부

Spark 커넥터 사용

Spark 커넥터 사용에 대한 지침은 Apache Spark 커넥터: SQL Server 및 Azure SQL을 참조하세요.