Поделиться через


Azure Cosmos DB

Внимание

Поддержка этой документации прекращена, она может больше не обновляться. См . официальный репозиторий Github соединителя Cosmos DB Spark.

Azure Cosmos DB — это глобально распределенная многомодельная база данных Microsoft. Azure Cosmos DB позволяет гибко и независимо масштабировать пропускную способность и ресурсы хранилища в любом количестве географических регионов Azure. Она гарантирует пропускную способность, задержку, доступность и согласованность в соответствии с комплексными Соглашениями об уровне обслуживания (SLA). Azure Cosmos DB предоставляет API с пакетами SDK, доступными на нескольких языках, для следующих моделей данных:

  • API SQL
  • API MongoDB
  • API Cassandra
  • API Graph (Gremlin);
  • Table API

В этой статье объясняется, как считывать данные из и записывать их в Azure Cosmos DB с помощью Azure Databricks. Для получения более актуальной и подробной информации об Azure Cosmos DB см. Ускорение аналитики больших данных с помощью соединителя Apache Spark для Azure Cosmos DB.

Ресурсы:

Внимание

Этот соединитель поддерживает API ядра (SQL) Azure Cosmos DB. Для API Cosmos DB для MongoDB используйте соединитель MongoDB Spark. Для API Cassandra Cosmos DB используйте соединитель Spark Cassandra.

Создание и присоединение необходимых библиотек

  1. Скачайте последнюю версию библиотеки azure-cosmosdb-spark для версии Apache Spark, которую вы используете.
  2. Отправьте скачанные JAR-файлы в Databricks. См . библиотеки.
  3. Установка загруженных библиотек в кластер Databricks.