Bazy danych SQL używające łącznika Apache Spark
Łącznik Apache Spark dla usługi Azure SQL Database i programu SQL Server umożliwia tym bazom danych działanie jako wejściowe źródła danych i ujścia danych wyjściowych dla zadań platformy Apache Spark. Umożliwia ona używanie danych transakcyjnych w czasie rzeczywistym w analizie danych big data i utrwalanie wyników dla zapytań ad hoc lub raportowania.
W porównaniu z wbudowanym łącznikiem JDBC ten łącznik zapewnia możliwość zbiorczego wstawiania danych do baz danych SQL. Może osiągać wydajność od 10 do 20 razy większą niż wstawianie wiersz po wierszu. Łącznik Spark dla programu SQL Server i usługi Azure SQL Database obsługuje również uwierzytelnianie identyfikatorów Entra firmy Microsoft, umożliwiając bezpieczne łączenie się z bazami danych Azure SQL Database z usługi Azure Databricks przy użyciu konta microsoft Entra ID. Udostępnia interfejsy podobne do wbudowanego łącznika JDBC. Migrowanie istniejących zadań platformy Spark w celu korzystania z tego łącznika jest łatwe.
Wymagania
Istnieją dwie wersje łącznika Spark dla programu SQL Server: jedna dla platformy Spark 2.4 i druga dla platformy Spark 3.x. Łącznik Spark 3.x wymaga środowiska Databricks Runtime 7.x lub nowszego. Łącznik jest obsługiwany przez społeczność i nie obejmuje wsparcia SLA firmy Microsoft. Zgłoś wszelkie problemy w usłudze GitHub , aby zaangażować społeczność w celu uzyskania pomocy.
Składnik | Obsługiwane wersje |
---|---|
Apache Spark | 3.0.x i 2.4x |
Databricks Runtime | Łącznik Apache Spark 3.0: Databricks Runtime 7.x i wyższe |
Scala | Konektor Apache Spark 3.0: 2.12 Konektor Apache Spark 2.4: 2.11 |
Sterownik JDBC firmy Microsoft dla programu SQL Server | 8.2 |
Microsoft SQL Server | SQL Server 2008 i nowsze |
Azure SQL Database | Obsługiwane |
Korzystanie z łącznika Spark
Aby uzyskać instrukcje dotyczące korzystania z łącznika Spark, zobacz Temat Apache Spark Connector: SQL Server and Azure SQL (Łącznik platformy Apache Spark: SQL Server i Azure SQL).