Параметры возможностей драйвера для драйвера JDBC Databricks
В этой статье описывается настройка специальных и расширенных параметров возможностей драйвера для драйвера Databricks JDBC.
Драйвер JDBC Databricks предоставляет следующие специальные и расширенные параметры возможностей драйвера.
- Поддержка запросов ANSI SQL-92 в JDBC
- каталог по умолчанию и схема
- Извлечение результатов больших запросов в JDBC
- Сериализация со стрелками в JDBC
- Cloud Fetch в JDBC
- Включение ведения журналов
Поддержка запросов ANSI SQL-92 в JDBC
Устаревшие драйверы Spark для JDBC принимают запросы SQL в формате диалекта ANSI SQL-92 и переводят их на диалект Databricks SQL перед отправкой на сервер. Однако если приложение создает Databricks SQL напрямую или приложение использует любой стандартный синтаксис SQL, отличный от ANSI SQL-92, характерный для Azure Databricks, Databricks рекомендует задать UseNativeQuery=1
в качестве конфигурации подключения. С этим параметром драйвер передает запросы SQL в Azure Databricks в буквальном виде.
Каталог и схема по умолчанию
Чтобы указать каталог и схему по умолчанию, добавьте ConnCatalog=<catalog-name>;ConnSchema=<schema-name>
в URL-адрес подключения JDBC.
Извлечение результатов больших запросов в JDBC
Для достижения максимальной производительности при извлечении объемных результатов запроса используйте последнюю версию драйвера JDBC, которая включает перечисленные ниже оптимизации.
Сериализация со стрелками в JDBC
Драйвер JDBC версии 2.6.16 и выше поддерживает оптимизированный формат сериализации результатов запроса, использующий Apache Arrow.
Облачная выборка в JDBC
Драйвер JDBC версии 2.6.19 и выше поддерживает Cloud Fetch, возможность получения результатов запросов через облачное хранилище, настроенное в развертывании Azure Databricks.
Результаты запроса передаются во внутреннее расположение в хранилище DBFS в виде сериализованных файлов Arrow размером до 20 МБ. Когда драйвер отправляет запросы на получение после завершения запроса, Azure Databricks создает и возвращает подписанные URL-адреса для переданных файлов. Затем драйвер JDBC использует URL-адреса для скачивания результатов непосредственно из DBFS.
Облачная выборка используется только для результатов запроса, размер которых превышает 1 МБ. Результаты меньшего размера извлекаются непосредственно из Azure Databricks.
Azure Databricks автоматически выполняет сборку мусора накопленных файлов, которые отмечаются для удаления через 24 часа. Эти помеченные файлы полностью удаляются еще через 24 часа.
Дополнительные сведения об архитектуре облачной выборки см. в разделе Как обеспечить подключение с высокой пропускной способностью с помощью средств бизнес-аналитики.
Включение ведения журналов
Чтобы включить ведение журнала в драйвере JDBC, задайте свойство LogLevel
из 1
для записи только серьезных событий через 6
для регистрации всех действий драйвера. Задайте для свойства LogPath
полный путь к папке, в которой требуется сохранить файлы журналов.
Дополнительные сведения см. в разделе в руководстве Configuring Logging
по драйверу Databricks JDBC.