Udostępnij za pośrednictwem


Uzyskiwanie dostępu do danych usługi Azure Cosmos DB dla bazy danych Apache Cassandra z usługi Azure Databricks

DOTYCZY: Kasandra

W tym artykule opisano sposób pracy z usługą Azure Cosmos DB for Apache Cassandra z platformy Spark w usłudze Azure Databricks.

Wymagania wstępne

Dodawanie wymaganych zależności

  • Łącznik Cassandra Spark: — aby zintegrować usługę Azure Cosmos DB dla systemu Apache Cassandra z platformą Spark, łącznik Cassandra powinien być dołączony do klastra usługi Azure Databricks. Aby dołączyć klaster:

    • Przejrzyj wersję środowiska uruchomieniowego usługi Databricks i wersję platformy Spark. Następnie znajdź współrzędne narzędzia Maven zgodne z łącznikiem Cassandra Spark i dołącz je do klastra. Zobacz artykuł "Upload a Maven package or Spark package" (Przekazywanie pakietu Maven lub pakietu Spark), aby dołączyć bibliotekę łączników do klastra. Zalecamy wybranie środowiska uruchomieniowego usługi Databricks w wersji 10.4 LTS, która obsługuje platformę Spark 3.2.1. Aby dodać łącznik Apache Spark Cassandra, klaster, wybierz pozycję Biblioteki>Zainstaluj nowe>narzędzie Maven, a następnie dodaj com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 współrzędne Maven. Jeśli używasz platformy Spark 2.x, zalecamy środowisko z platformą Spark w wersji 2.4.5 przy użyciu łącznika spark na współrzędnych com.datastax.spark:spark-cassandra-connector_2.11:2.4.3narzędzia Maven.
  • Biblioteka specyficzna dla usługi Azure Cosmos DB dla systemu Apache Cassandra: — jeśli używasz platformy Spark 2.x, wymagana jest niestandardowa fabryka połączeń, aby skonfigurować zasady ponawiania prób z łącznika Cassandra Spark do usługi Azure Cosmos DB dla usługi Apache Cassandra. Dodaj współrzędne narzędzia Maven, com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0aby dołączyć bibliotekę do klastra.

Uwaga

Jeśli używasz platformy Spark 3.x, nie musisz instalować biblioteki usługi Azure Cosmos DB dla usługi Apache Cassandra wymienionej powyżej.

Ostrzeżenie

Przykłady platformy Spark 3 pokazane w tym artykule zostały przetestowane przy użyciu platformy Spark w wersji 3.2.1 i odpowiadającego mu łącznika Cassandra Spark com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. Nowsze wersje platformy Spark i/lub łącznika Cassandra mogą nie działać zgodnie z oczekiwaniami.

Przykładowe notesy

Lista przykładowych notesów usługi Azure Databricks jest dostępna w repozytorium GitHub do pobrania. Te przykłady obejmują sposób nawiązywania połączenia z usługą Azure Cosmos DB dla systemu Apache Cassandra z platformy Spark i wykonywania różnych operacji CRUD na danych. Możesz również zaimportować wszystkie notesy do obszaru roboczego klastra usługi Databricks i uruchomić go.

Uzyskiwanie dostępu do usługi Azure Cosmos DB dla systemu Apache Cassandra z poziomu programów Spark Scala

Programy spark do uruchamiania jako zautomatyzowane procesy w usłudze Azure Databricks są przesyłane do klastra przy użyciu funkcji spark-submit) i zaplanowane do uruchamiania zadań usługi Azure Databricks.

Poniżej znajdują się linki ułatwiające rozpoczęcie tworzenia programów Spark Scala w celu interakcji z usługą Azure Cosmos DB for Apache Cassandra.

Następne kroki

Rozpocznij pracę z tworzeniem interfejsu API dla konta, bazy danych i tabeli Cassandra przy użyciu aplikacji Java.