Uzyskiwanie dostępu do danych usługi Azure Cosmos DB dla bazy danych Apache Cassandra z usługi Azure Databricks

Artykuł
08/15/2024

DOTYCZY: Kasandra

W tym artykule opisano sposób pracy z usługą Azure Cosmos DB for Apache Cassandra z platformy Spark w usłudze Azure Databricks.

Wymagania wstępne

Aprowizuj konto usługi Azure Cosmos DB dla bazy danych Apache Cassandra
Zapoznaj się z podstawami nawiązywania połączenia z usługą Azure Cosmos DB dla bazy danych Apache Cassandra
Aprowizuj klaster usługi Azure Databricks
Zapoznaj się z przykładami kodu dotyczącymi pracy z interfejsem API dla rozwiązania Cassandra
Jeśli wolisz, użyj narzędzia cqlsh do weryfikacji
Interfejs API dla konfiguracji wystąpienia bazy danych Cassandra dla łącznika Cassandra:

Łącznik dla interfejsu API dla bazy danych Cassandra wymaga zainicjowania szczegółów połączenia Cassandra w ramach kontekstu platformy Spark. Po uruchomieniu notesu usługi Databricks kontekst platformy Spark jest już inicjowany i nie zaleca się jego zatrzymywania i ponownego inicjowania. Jednym z rozwiązań jest dodanie interfejsu API dla konfiguracji wystąpienia bazy danych Cassandra na poziomie klastra w konfiguracji platformy Spark klastra. Jest to jednorazowe działanie na klaster. Dodaj następujący kod do konfiguracji platformy Spark jako parę wartości klucza rozdzielanego spacją:
```
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com
spark.cassandra.connection.port 10350
spark.cassandra.connection.ssl.enabled true
spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME
spark.cassandra.auth.password YOUR_COSMOSDB_KEY
```

Dodawanie wymaganych zależności

Łącznik Cassandra Spark: — aby zintegrować usługę Azure Cosmos DB dla systemu Apache Cassandra z platformą Spark, łącznik Cassandra powinien być dołączony do klastra usługi Azure Databricks. Aby dołączyć klaster:
- Przejrzyj wersję środowiska uruchomieniowego usługi Databricks i wersję platformy Spark. Następnie znajdź współrzędne narzędzia Maven zgodne z łącznikiem Cassandra Spark i dołącz je do klastra. Zobacz artykuł "Upload a Maven package or Spark package" (Przekazywanie pakietu Maven lub pakietu Spark), aby dołączyć bibliotekę łączników do klastra. Zalecamy wybranie środowiska uruchomieniowego usługi Databricks w wersji 10.4 LTS, która obsługuje platformę Spark 3.2.1. Aby dodać łącznik Apache Spark Cassandra, klaster, wybierz pozycję Biblioteki>Zainstaluj nowe>narzędzie Maven, a następnie dodaj com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 współrzędne Maven. Jeśli używasz platformy Spark 2.x, zalecamy środowisko z platformą Spark w wersji 2.4.5 przy użyciu łącznika spark na współrzędnych com.datastax.spark:spark-cassandra-connector_2.11:2.4.3narzędzia Maven.
Biblioteka specyficzna dla usługi Azure Cosmos DB dla systemu Apache Cassandra: — jeśli używasz platformy Spark 2.x, wymagana jest niestandardowa fabryka połączeń, aby skonfigurować zasady ponawiania prób z łącznika Cassandra Spark do usługi Azure Cosmos DB dla usługi Apache Cassandra. Dodaj współrzędne narzędzia Maven, com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0aby dołączyć bibliotekę do klastra.

Uwaga

Jeśli używasz platformy Spark 3.x, nie musisz instalować biblioteki usługi Azure Cosmos DB dla usługi Apache Cassandra wymienionej powyżej.

Ostrzeżenie

Przykłady platformy Spark 3 pokazane w tym artykule zostały przetestowane przy użyciu platformy Spark w wersji 3.2.1 i odpowiadającego mu łącznika Cassandra Spark com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. Nowsze wersje platformy Spark i/lub łącznika Cassandra mogą nie działać zgodnie z oczekiwaniami.

Przykładowe notesy

Lista przykładowych notesów usługi Azure Databricks jest dostępna w repozytorium GitHub do pobrania. Te przykłady obejmują sposób nawiązywania połączenia z usługą Azure Cosmos DB dla systemu Apache Cassandra z platformy Spark i wykonywania różnych operacji CRUD na danych. Możesz również zaimportować wszystkie notesy do obszaru roboczego klastra usługi Databricks i uruchomić go.

Uzyskiwanie dostępu do usługi Azure Cosmos DB dla systemu Apache Cassandra z poziomu programów Spark Scala

Programy spark do uruchamiania jako zautomatyzowane procesy w usłudze Azure Databricks są przesyłane do klastra przy użyciu funkcji spark-submit) i zaplanowane do uruchamiania zadań usługi Azure Databricks.

Poniżej znajdują się linki ułatwiające rozpoczęcie tworzenia programów Spark Scala w celu interakcji z usługą Azure Cosmos DB for Apache Cassandra.

Następne kroki

Rozpocznij pracę z tworzeniem interfejsu API dla konta, bazy danych i tabeli Cassandra przy użyciu aplikacji Java.

Udostępnij za pośrednictwem