Acessar dados do Azure Cosmos DB for Apache Cassandra do Azure Databricks
APLICA-SE AO: Cassandra
Este artigo detalha como trabalhar com o Azure Cosmos DB for Apache Cassandra do Spark no Azure Databricks.
Pré-requisitos
Provisionar uma conta do Azure Cosmos DB for Apache Cassandra
Examinar os conceitos básicos da conexão com o Azure Cosmos DB for Apache Cassandra
Examinar os exemplos de código para trabalhar com a API para Cassandra
Configuração da instância de API para Cassandra para o conector do Cassandra:
O conector da API do Cassandra requer os detalhes de conexão do Cassandra para ser inicializado no contexto do Spark. Quando você inicia um notebook do Databricks, o contexto do spark já é inicializado e não é aconselhável parar e reinicializá-lo. Uma solução é adicionar a configuração de instância de API para Cassandra em um nível de cluster na configuração do cluster Spark. Trata-se de uma atividade única por cluster. Adicione o seguinte código para a configuração do Spark como par de valor de chave separado do espaço:
spark.cassandra.connection.host YOUR_COSMOSDB_ACCOUNT_NAME.cassandra.cosmosdb.azure.com spark.cassandra.connection.port 10350 spark.cassandra.connection.ssl.enabled true spark.cassandra.auth.username YOUR_COSMOSDB_ACCOUNT_NAME spark.cassandra.auth.password YOUR_COSMOSDB_KEY
Adicione as dependências necessárias
Conector Spark do Cassandra: – para integrar o Azure Cosmos DB for Apache Cassandra ao Spark, o conector do Cassandra deve ser anexado ao cluster do Azure Databricks. Para anexar o cluster:
- Examine a versão do Databricks runtime, a versão do Spark. Em seguida, localize as coordenadas maven que são compatíveis com o conector Spark do Cassandra e anexe-as ao cluster. Veja o artigo "Carregar um pacote de Maven ou o pacote Spark" para anexar a biblioteca do conector para ao cluster. Recomendamos a seleção do runtime do Databricks versão 10.4 LTS, que é compatível com o Spark 3.2.1. Para adicionar o conector Cassandra do Apache Spark, seu cluster, selecione Bibliotecas>Instalar novo>Mavene, em seguida, adicione as
com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0
coordenadas do Maven. Se estiver usando o Spark 2 x, recomendamos um ambiente com o Spark versão 2.4.5, usando o conector do Spark em coordenadas do Mavencom.datastax.spark:spark-cassandra-connector_2.11:2.4.3
.
- Examine a versão do Databricks runtime, a versão do Spark. Em seguida, localize as coordenadas maven que são compatíveis com o conector Spark do Cassandra e anexe-as ao cluster. Veja o artigo "Carregar um pacote de Maven ou o pacote Spark" para anexar a biblioteca do conector para ao cluster. Recomendamos a seleção do runtime do Databricks versão 10.4 LTS, que é compatível com o Spark 3.2.1. Para adicionar o conector Cassandra do Apache Spark, seu cluster, selecione Bibliotecas>Instalar novo>Mavene, em seguida, adicione as
Biblioteca específica do Azure Cosmos DB for Apache Cassandra: – se você está usando o Spark 2.x, um alocador de conexão personalizado é necessário para configurar a política de repetição do conector Spark do Cassandra ao Azure Cosmos DB for Apache Cassandra. Adicione as
com.microsoft.azure.cosmosdb:azure-cosmos-cassandra-spark-helper:1.2.0
coordenadas maven para anexar biblioteca ao cluster.
Observação
Se você estiver usando o Spark 3.x, não será necessário instalar a biblioteca específica do Azure Cosmos DB for Apache Cassandra mencionada acima.
Aviso
Os exemplos do Spark 3 mostrados neste artigo foram testados com o Spark versão 3.2.1 e com o Conector do Cassandra Spark correspondente com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.2.0. É possível que as versões posteriores do Spark e/ou do conector do Cassandra não funcionem conforme o esperado.
Notebooks de exemplo
Uma lista dos notebooks de exemplo do Azure Databricks está disponível no repositório do GitHub para fazer o download. Esses exemplos incluem como se conectar ao Azure Cosmos DB for Apache Cassandra do Spark e executar diferentes operações CRUD nos dados. Você também pode importar todos os notebooks para o Databricks do workspace do cluster e executá-lo.
Acessar o Azure Cosmos DB for Apache Cassandra de programas do Spark Scala
Programas de Spark devem ser executados como processos automatizados no Azure Databricks são enviados para o cluster usando spark-submit) e agendado para ser executado por meio de trabalhos do Azure Databricks.
Estes são links para ajudá-lo a começar a criar programas Spark Scala para interagir com o Azure Cosmos DB for Apache Cassandra.
- Como se conectar ao Azure Cosmos DB for Apache Cassandra a partir de um programa Spark Scala
- Como retornar um programa Scala Spark como um trabalho automatizado no Azure Databricks
- Lista completa de exemplos de código para trabalhar com a API para Cassandra
Próximas etapas
Introdução à criação de uma conta, um banco de dados e uma tabela da API for Cassandra usando um aplicativo Java.