Spark から Azure Cosmos DB for Apache Cassandra にデータを作成/挿入する

[アーティクル]
08/15/2024

適用対象: Cassandra

この記事では、Spark から Azure Cosmos DB for Apache Cassandra のテーブルにサンプルデータを挿入する方法について説明します。

Cassandra 用 API の構成

ノートブッククラスターの Spark 構成で設定します。これは 1 回限りのアクティビティです。

//Connection-related
 spark.cassandra.connection.host  YOUR_ACCOUNT_NAME.cassandra.cosmosdb.azure.com  
 spark.cassandra.connection.port  10350  
 spark.cassandra.connection.ssl.enabled  true  
 spark.cassandra.auth.username  YOUR_ACCOUNT_NAME  
 spark.cassandra.auth.password  YOUR_ACCOUNT_KEY  
// if using Spark 2.x
// spark.cassandra.connection.factory  com.microsoft.azure.cosmosdb.cassandra.CosmosDbConnectionFactory  

//Throughput-related...adjust as needed
 spark.cassandra.output.batch.size.rows  1  
// spark.cassandra.connection.connections_per_executor_max  10   // Spark 2.x
 spark.cassandra.connection.remoteConnectionsPerExecutor  10   // Spark 3.x
 spark.cassandra.output.concurrent.writes  1000  
 spark.cassandra.concurrent.reads  512  
 spark.cassandra.output.batch.grouping.buffer.size  1000  
 spark.cassandra.connection.keep_alive_ms  600000000

注意

Spark 3.x を使っている場合は、Azure Cosmos DB ヘルパーと接続ファクトリをインストールする必要はありません。また、Spark 3 コネクタの場合は、connections_per_executor_max ではなく remoteConnectionsPerExecutor を使用する必要があります (上記を参照)。

警告

この記事で示される Spark 3 サンプルは、Spark バージョン 3.2.1 と、対応する Cassandra Spark Connector の com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0 でテストされています。それより後のバージョンの Spark や Cassandra コネクタは、予期するとおりには機能しない場合があります。

データフレーム API

サンプルデータを使用してデータフレームを作成する

import org.apache.spark.sql.cassandra._
//Spark connector
import com.datastax.spark.connector._
import com.datastax.spark.connector.cql.CassandraConnector

//if using Spark 2.x, CosmosDB library for multiple retry
//import com.microsoft.azure.cosmosdb.cassandra

// Generate a dataframe containing five records
val booksDF = Seq(
   ("b00001", "Arthur Conan Doyle", "A study in scarlet", 1887),
   ("b00023", "Arthur Conan Doyle", "A sign of four", 1890),
   ("b01001", "Arthur Conan Doyle", "The adventures of Sherlock Holmes", 1892),
   ("b00501", "Arthur Conan Doyle", "The memoirs of Sherlock Holmes", 1893),
   ("b00300", "Arthur Conan Doyle", "The hounds of Baskerville", 1901)
).toDF("book_id", "book_author", "book_name", "book_pub_year")

//Review schema
booksDF.printSchema

//Print
booksDF.show

Note

行レベルでの "存在しない場合は作成" 機能はまだサポートされていません。

Azure Cosmos DB for Apache Cassandra に永続化する

データを保存する場合、次の例に示すとおり、Time to Live および一貫性ポリシー設定を設定することも可能です。

//Persist
booksDF.write
  .mode("append")
  .format("org.apache.spark.sql.cassandra")
  .options(Map( "table" -> "books", "keyspace" -> "books_ks", "output.consistency.level" -> "ALL", "ttl" -> "10000000"))
  .save()

cqlsh で検証する

use books_ks;
select * from books;

Resilient Distributed Database (RDD) API

サンプルデータを使用して RDD を作成する

//Drop and re-create table to delete records created in the previous section 
val cdbConnector = CassandraConnector(sc)
cdbConnector.withSessionDo(session => session.execute("DROP TABLE IF EXISTS books_ks.books;"))

cdbConnector.withSessionDo(session => session.execute("CREATE TABLE IF NOT EXISTS books_ks.books(book_id TEXT,book_author TEXT, book_name TEXT,book_pub_year INT,book_price FLOAT, PRIMARY KEY(book_id,book_pub_year)) WITH cosmosdb_provisioned_throughput=4000 , WITH default_time_to_live=630720000;"))

//Create RDD
val booksRDD = sc.parallelize(Seq(
   ("b00001", "Arthur Conan Doyle", "A study in scarlet", 1887),
   ("b00023", "Arthur Conan Doyle", "A sign of four", 1890),
   ("b01001", "Arthur Conan Doyle", "The adventures of Sherlock Holmes", 1892),
   ("b00501", "Arthur Conan Doyle", "The memoirs of Sherlock Holmes", 1893),
   ("b00300", "Arthur Conan Doyle", "The hounds of Baskerville", 1901)
))

//Review
booksRDD.take(2).foreach(println)

Note

"存在しない場合は作成" 機能はまだサポートされていません。

Azure Cosmos DB for Apache Cassandra に永続化する

Cassandra 用 API にデータを保存する場合、次の例に示すとおり、Time to Live および一貫性ポリシー設定を設定することも可能です。

import com.datastax.spark.connector.writer._
import com.datastax.oss.driver.api.core.ConsistencyLevel

//Persist
booksRDD.saveToCassandra("books_ks", "books", SomeColumns("book_id", "book_author", "book_name", "book_pub_year"),writeConf = WriteConf(ttl = TTLOption.constant(900000),consistencyLevel = ConsistencyLevel.ALL))

cqlsh で検証する

use books_ks;
select * from books;

次のステップ

Azure Cosmos DB for Apache Cassandra テーブルにデータを挿入したら、次の記事に進み、Azure Cosmos DB for Apache Cassandra に保存されているデータでその他の操作を実行します。

次の方法で共有

Spark から Azure Cosmos DB for Apache Cassandra にデータを作成/挿入する

Cassandra 用 API の構成

データフレーム API

サンプルデータを使用してデータフレームを作成する

Azure Cosmos DB for Apache Cassandra に永続化する

cqlsh で検証する

Resilient Distributed Database (RDD) API

サンプルデータを使用して RDD を作成する

Azure Cosmos DB for Apache Cassandra に永続化する

cqlsh で検証する

次のステップ

フィードバック

その他のリソース

次の方法で共有

Spark から Azure Cosmos DB for Apache Cassandra にデータを作成/挿入する

Cassandra 用 API の構成

データフレーム API

サンプル データを使用してデータフレームを作成する

Azure Cosmos DB for Apache Cassandra に永続化する

cqlsh で検証する

Resilient Distributed Database (RDD) API

サンプル データを使用して RDD を作成する

Azure Cosmos DB for Apache Cassandra に永続化する

cqlsh で検証する

次のステップ

フィードバック

その他のリソース

サンプルデータを使用してデータフレームを作成する

サンプルデータを使用して RDD を作成する