Параметры возможностей драйвера для драйвера JDBC Databricks

Статья
01/23/2025

В этой статье описывается настройка специальных и расширенных параметров возможностей драйвера для драйвера Databricks JDBC.

Драйвер JDBC Databricks предоставляет следующие специальные и расширенные параметры возможностей драйвера.

Поддержка запросов ANSI SQL-92 в JDBC
каталог по умолчанию и схема
Извлечение результатов больших запросов в JDBC
Сериализация со стрелками в JDBC
Cloud Fetch в JDBC
Включение ведения журналов

Поддержка запросов ANSI SQL-92 в JDBC

Устаревшие драйверы Spark для JDBC принимают запросы SQL в формате диалекта ANSI SQL-92 и переводят их на диалект Databricks SQL перед отправкой на сервер. Однако если приложение создает Databricks SQL напрямую или приложение использует любой стандартный синтаксис SQL, отличный от ANSI SQL-92, характерный для Azure Databricks, Databricks рекомендует задать UseNativeQuery=1 в качестве конфигурации подключения. С этим параметром драйвер передает запросы SQL в Azure Databricks в буквальном виде.

Каталог и схема по умолчанию

Чтобы указать каталог и схему по умолчанию, добавьте ConnCatalog=<catalog-name>;ConnSchema=<schema-name> в URL-адрес подключения JDBC.

Извлечение результатов больших запросов в JDBC

Для достижения максимальной производительности при извлечении объемных результатов запроса используйте последнюю версию драйвера JDBC, которая включает перечисленные ниже оптимизации.

Сериализация со стрелками в JDBC

Драйвер JDBC версии 2.6.16 и выше поддерживает оптимизированный формат сериализации результатов запроса, использующий Apache Arrow.

Облачная выборка в JDBC

Драйвер JDBC версии 2.6.19 и выше поддерживает Cloud Fetch, возможность получения результатов запросов через облачное хранилище, настроенное в развертывании Azure Databricks.

Результаты запроса передаются во внутреннее расположение в хранилище DBFS в виде сериализованных файлов Arrow размером до 20 МБ. Когда драйвер отправляет запросы на получение после завершения запроса, Azure Databricks создает и возвращает подписанные URL-адреса для переданных файлов. Затем драйвер JDBC использует URL-адреса для скачивания результатов непосредственно из DBFS.

Облачная выборка используется только для результатов запроса, размер которых превышает 1 МБ. Результаты меньшего размера извлекаются непосредственно из Azure Databricks.

Azure Databricks автоматически выполняет сборку мусора накопленных файлов, которые отмечаются для удаления через 24 часа. Эти помеченные файлы полностью удаляются еще через 24 часа.

Дополнительные сведения об архитектуре облачной выборки см. в разделе Как обеспечить подключение с высокой пропускной способностью с помощью средств бизнес-аналитики.

Включение ведения журналов

Чтобы включить ведение журнала в драйвере JDBC, задайте свойство LogLevel из 1 для записи только серьезных событий через 6 для регистрации всех действий драйвера. Задайте для свойства LogPath полный путь к папке, в которой требуется сохранить файлы журналов.

Дополнительные сведения см. в разделе в руководстве Configuring Loggingпо драйверу Databricks JDBC.

Поделиться через