Přístup k datům Azure Cosmos DB for Apache Cassandra z Azure Databricks
PLATÍ PRO: Cassandra
Tento článek podrobně popisuje, jak pracovat se službou Azure Cosmos DB for Apache Cassandra ze Sparku v Azure Databricks.
Požadavky
Projděte si základy připojení ke službě Azure Cosmos DB pro Apache Cassandra.
Projděte si ukázky kódu pro práci s rozhraním API pro Cassandra.
Konfigurace instance API pro instanci Cassandra pro konektor Cassandra:
Konektor pro rozhraní API pro Cassandra vyžaduje, aby se podrobnosti o připojení Cassandra inicializovaly jako součást kontextu Sparku. Když spustíte poznámkový blok Databricks, kontext Sparku se už inicializuje a nedoporučuje se ho zastavit a znovu inicializovat. Jedním z řešení je přidání rozhraní API pro konfiguraci instance Cassandra na úrovni clusteru v konfiguraci Sparku clusteru. Jedná se o jednorázovou aktivitu na cluster. Do konfigurace Sparku přidejte následující kód jako dvojici hodnot klíčů oddělených mezerami:
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com spark.cassandra.connection.port 10350 spark.cassandra.connection.ssl.enabled true spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME spark.cassandra.auth.password YOUR_COSMOSDB_KEY
Přidejte požadované závislosti
Konektor Cassandra Spark: – Pokud chcete integrovat Službu Azure Cosmos DB pro Apache Cassandra se Sparkem, musí být konektor Cassandra připojený ke clusteru Azure Databricks. Připojení clusteru:
- Zkontrolujte verzi modulu runtime Databricks, verzi Sparku. Pak vyhledejte souřadnice Mavenu, které jsou kompatibilní s konektorem Cassandra Spark, a připojte je ke clusteru. Informace o připojení knihovny konektorů ke clusteru najdete v článku Nahrání balíčku Maven nebo balíčku Spark. Doporučujeme vybrat modul runtime Databricks verze 10.4 LTS, který podporuje Spark 3.2.1. Pokud chcete přidat konektor Apache Spark Cassandra, cluster, vyberte knihovny>Install New>Maven a pak přidejte
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0
do souřadnic Mavenu. Pokud používáte Spark 2.x, doporučujeme prostředí se Sparkem verze 2.4.5 pomocí konektoru Spark na souřadnicíchcom.datastax.spark:spark-cassandra-connector_2.11:2.4.3
Mavenu.
- Zkontrolujte verzi modulu runtime Databricks, verzi Sparku. Pak vyhledejte souřadnice Mavenu, které jsou kompatibilní s konektorem Cassandra Spark, a připojte je ke clusteru. Informace o připojení knihovny konektorů ke clusteru najdete v článku Nahrání balíčku Maven nebo balíčku Spark. Doporučujeme vybrat modul runtime Databricks verze 10.4 LTS, který podporuje Spark 3.2.1. Pokud chcete přidat konektor Apache Spark Cassandra, cluster, vyberte knihovny>Install New>Maven a pak přidejte
Knihovna specifická pro Azure Cosmos DB pro Apache Cassandra: – Pokud používáte Spark 2.x, je potřeba vlastní objekt pro připojení ke konfiguraci zásad opakování z konektoru Cassandra Spark do služby Azure Cosmos DB for Apache Cassandra.
com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0
Přidejte souřadnice mavenu pro připojení knihovny ke clusteru.
Poznámka:
Pokud používáte Spark 3.x, nemusíte instalovat knihovnu specifickou pro Apache Cassandra pro Azure Cosmos DB uvedenou výše.
Upozorňující
Ukázky Sparku 3 uvedené v tomto článku byly testovány se Sparkem verze 3.2.1 a odpovídajícím konektorem Cassandra Spark com.datastax.spark :spark-cassandra-connector-assembly_2.12:3.2.0. Novější verze Sparku nebo konektoru Cassandra nemusí fungovat podle očekávání.
Ukázkové poznámkové bloky
Seznam ukázkových poznámkových bloků Azure Databricks je k dispozici v úložišti GitHubu ke stažení. Mezi tyto ukázky patří postup připojení ke službě Azure Cosmos DB pro Apache Cassandra ze Sparku a provádění různých operací CRUD s daty. Všechny poznámkové bloky můžete také importovat do pracovního prostoru clusteru Databricks a spustit ho.
Přístup ke službě Azure Cosmos DB for Apache Cassandra z programů Spark Scala
Programy Sparku, které se mají spouštět jako automatizované procesy v Azure Databricks, se odesílají do clusteru pomocí spark-submit) a plánují spouštění prostřednictvím úloh Azure Databricks.
Následující odkazy vám pomůžou začít vytvářet programy Spark Scala pro interakci se službou Azure Cosmos DB pro Apache Cassandra.
- Připojení ke službě Azure Cosmos DB pro Apache Cassandra z programu Spark Scala
- Spuštění programu Spark Scala jako automatizované úlohy v Azure Databricks
- Úplný seznam ukázek kódu pro práci s rozhraním API pro Cassandra
Další kroky
Začněte vytvářet rozhraní API pro účet Cassandra, databázi a tabulku pomocí aplikace v Javě.