Uzyskiwanie dostępu do danych usługi Azure Cosmos DB dla bazy danych Apache Cassandra z usługi Azure Databricks
DOTYCZY: Kasandra
W tym artykule opisano sposób pracy z usługą Azure Cosmos DB for Apache Cassandra z platformy Spark w usłudze Azure Databricks.
Wymagania wstępne
Aprowizuj konto usługi Azure Cosmos DB dla bazy danych Apache Cassandra
Zapoznaj się z przykładami kodu dotyczącymi pracy z interfejsem API dla rozwiązania Cassandra
Interfejs API dla konfiguracji wystąpienia bazy danych Cassandra dla łącznika Cassandra:
Łącznik dla interfejsu API dla bazy danych Cassandra wymaga zainicjowania szczegółów połączenia Cassandra w ramach kontekstu platformy Spark. Po uruchomieniu notesu usługi Databricks kontekst platformy Spark jest już inicjowany i nie zaleca się jego zatrzymywania i ponownego inicjowania. Jednym z rozwiązań jest dodanie interfejsu API dla konfiguracji wystąpienia bazy danych Cassandra na poziomie klastra w konfiguracji platformy Spark klastra. Jest to jednorazowe działanie na klaster. Dodaj następujący kod do konfiguracji platformy Spark jako parę wartości klucza rozdzielanego spacją:
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com spark.cassandra.connection.port 10350 spark.cassandra.connection.ssl.enabled true spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME spark.cassandra.auth.password YOUR_COSMOSDB_KEY
Dodawanie wymaganych zależności
Łącznik Cassandra Spark: — aby zintegrować usługę Azure Cosmos DB dla systemu Apache Cassandra z platformą Spark, łącznik Cassandra powinien być dołączony do klastra usługi Azure Databricks. Aby dołączyć klaster:
- Przejrzyj wersję środowiska uruchomieniowego usługi Databricks i wersję platformy Spark. Następnie znajdź współrzędne narzędzia Maven zgodne z łącznikiem Cassandra Spark i dołącz je do klastra. Zobacz artykuł "Upload a Maven package or Spark package" (Przekazywanie pakietu Maven lub pakietu Spark), aby dołączyć bibliotekę łączników do klastra. Zalecamy wybranie środowiska uruchomieniowego usługi Databricks w wersji 10.4 LTS, która obsługuje platformę Spark 3.2.1. Aby dodać łącznik Apache Spark Cassandra, klaster, wybierz pozycję Biblioteki>Zainstaluj nowe>narzędzie Maven, a następnie dodaj
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0
współrzędne Maven. Jeśli używasz platformy Spark 2.x, zalecamy środowisko z platformą Spark w wersji 2.4.5 przy użyciu łącznika spark na współrzędnychcom.datastax.spark:spark-cassandra-connector_2.11:2.4.3
narzędzia Maven.
- Przejrzyj wersję środowiska uruchomieniowego usługi Databricks i wersję platformy Spark. Następnie znajdź współrzędne narzędzia Maven zgodne z łącznikiem Cassandra Spark i dołącz je do klastra. Zobacz artykuł "Upload a Maven package or Spark package" (Przekazywanie pakietu Maven lub pakietu Spark), aby dołączyć bibliotekę łączników do klastra. Zalecamy wybranie środowiska uruchomieniowego usługi Databricks w wersji 10.4 LTS, która obsługuje platformę Spark 3.2.1. Aby dodać łącznik Apache Spark Cassandra, klaster, wybierz pozycję Biblioteki>Zainstaluj nowe>narzędzie Maven, a następnie dodaj
Biblioteka specyficzna dla usługi Azure Cosmos DB dla systemu Apache Cassandra: — jeśli używasz platformy Spark 2.x, wymagana jest niestandardowa fabryka połączeń, aby skonfigurować zasady ponawiania prób z łącznika Cassandra Spark do usługi Azure Cosmos DB dla usługi Apache Cassandra. Dodaj współrzędne narzędzia Maven,
com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0
aby dołączyć bibliotekę do klastra.
Uwaga
Jeśli używasz platformy Spark 3.x, nie musisz instalować biblioteki usługi Azure Cosmos DB dla usługi Apache Cassandra wymienionej powyżej.
Ostrzeżenie
Przykłady platformy Spark 3 pokazane w tym artykule zostały przetestowane przy użyciu platformy Spark w wersji 3.2.1 i odpowiadającego mu łącznika Cassandra Spark com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. Nowsze wersje platformy Spark i/lub łącznika Cassandra mogą nie działać zgodnie z oczekiwaniami.
Przykładowe notesy
Lista przykładowych notesów usługi Azure Databricks jest dostępna w repozytorium GitHub do pobrania. Te przykłady obejmują sposób nawiązywania połączenia z usługą Azure Cosmos DB dla systemu Apache Cassandra z platformy Spark i wykonywania różnych operacji CRUD na danych. Możesz również zaimportować wszystkie notesy do obszaru roboczego klastra usługi Databricks i uruchomić go.
Uzyskiwanie dostępu do usługi Azure Cosmos DB dla systemu Apache Cassandra z poziomu programów Spark Scala
Programy spark do uruchamiania jako zautomatyzowane procesy w usłudze Azure Databricks są przesyłane do klastra przy użyciu funkcji spark-submit) i zaplanowane do uruchamiania zadań usługi Azure Databricks.
Poniżej znajdują się linki ułatwiające rozpoczęcie tworzenia programów Spark Scala w celu interakcji z usługą Azure Cosmos DB for Apache Cassandra.
- Jak nawiązać połączenie z usługą Azure Cosmos DB dla systemu Apache Cassandra z poziomu programu Spark Scala
- Jak uruchomić program Spark Scala jako zadanie automatyczne w usłudze Azure Databricks
- Pełna lista przykładów kodu do pracy z interfejsem API dla rozwiązania Cassandra
Następne kroki
Rozpocznij pracę z tworzeniem interfejsu API dla konta, bazy danych i tabeli Cassandra przy użyciu aplikacji Java.