Подключение к Azure Databricks из Python или R
В этой статье вы узнаете, как использовать драйвер ODBC Databricks для подключения Azure Databricks к языку Python или R. После установления подключения вы можете получить доступ к данным в Azure Databricks из клиентов Python или R. Вы также можете использовать клиенты для дальнейшего анализа данных.
Необходимые условия
У вас должна быть рабочая область Azure Databricks, кластер Spark и примеры данных, связанных с кластером. Если у вас еще нет этих предварительных требований, выполните краткое руководство по началу работы.
Скачайте драйвер ODBC Databricks с страницы загрузки драйвера Databricks. Установите 64-разрядную версию драйвера.
Настройте личный маркер доступа в Databricks. Инструкции см. в
по управлению маркерами.
Настройка DSN
Имя источника данных (DSN) содержит сведения о конкретном источнике данных. Для подключения к источнику данных драйверу ODBC нужен этот DSN. В этом разделе вы настраиваете DSN, который можно использовать с драйвером ODBC Databricks для подключения к Azure Databricks из клиентов, таких как Python или R.
В рабочей области Azure Databricks перейдите в кластер Databricks.
На вкладке конфигурации
перейдите на вкладку JDBC/ODBC и скопируйте значенияимени узла сервера ипути HTTP . Эти значения необходимы для выполнения действий, описанных в этой статье.На компьютере запустите 64-разрядное приложение Диспетчер источников данных ODBC.
На вкладке Пользовательский DSN нажмите Добавить. В диалоговом окне Создание нового источника данных выберите драйвер Simba Spark ODBC, а затем нажмите Готово.
В диалоговом окне драйвера ODBC Simba Spark укажите следующие значения:
В следующей таблице приведены сведения о значениях, предоставляемых в диалоговом окне.
Поле Ценность имя источника данных Укажите имя источника данных. Узел(ы) Укажите значение, скопированное из рабочей области Databricks, для имени узла сервера. порт Введите 443. механизм проверки подлинности Выберите имя пользователя и пароль. имя пользователя Введите маркер. пароль Введите значение маркера, скопированное из рабочей области Databricks. Выполните следующие дополнительные действия в диалоговом окне настройки DSN.
- Нажмите Параметры HTTP. В открывшемся диалоговом окне вставьте значение пути HTTP , скопированное из рабочей области Databricks. Нажмите кнопку ОК.
- Щелкните параметры SSL. В открывшемся диалоговом окне установите флажок Включить SSL. Нажмите кнопку ОК.
- Щелкните на Тестировать, чтобы протестировать подключение к Azure Databricks. Нажмите кнопку ОК, чтобы сохранить конфигурацию.
- В диалоговом окне администратор источника данных ODBC нажмите кнопку ОК.
Теперь вы настроили DSN. В следующих разделах вы будете использовать этот DSN для подключения к Azure Databricks из Python или R.
Подключение из R
Заметка
В этом разделе содержатся сведения об интеграции клиента R Studio, работающего на рабочем столе с Azure Databricks. Инструкции по использованию R Studio в самом кластере Azure Databricks см. в R Studio в Azure Databricks.
В этом разделе описано, как использовать интегрированную среду разработки языка R для ссылки на данные, доступные в Azure Databricks. Перед началом работы необходимо установить на компьютере следующее.
- Интегрированная среда разработки для языка R. В этой статье используется RStudio для Desktop. Это можно установить через загрузку R Studio.
- Если вы используете RStudio на настольном компьютере в качестве интегрированной среды разработки, также установите Microsoft R Client из https://aka.ms/rclient/.
Откройте RStudio и выполните следующие действия:
- Ссылка на пакет
RODBC
. Это позволяет подключиться к Azure Databricks с помощью созданного ранее имени DSN. - Установите подключение с использованием DSN.
- Запустите SQL-запрос к данным в Azure Databricks. В следующем фрагменте кода radio_sample_data — это таблица, которая уже существует в Azure Databricks.
- Выполните некоторые операции с запросом, чтобы проверить выходные данные.
Следующий фрагмент кода выполняет следующие задачи:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Подключение из Python
В этом разделе вы используете интегрированную среду разработки Python (например, IDLE) для ссылки на данные, доступные в Azure Databricks. Прежде чем начать, выполните следующие предварительные требования:
Установите Python из здесь. Установка Python из этой ссылки также устанавливает IDLE.
В командной строке на компьютере установите пакет
pyodbc
. Выполните следующую команду:pip install pyodbc
Откройте IDLE и выполните следующие действия.
- Импортируйте пакет
pyodbc
. Это позволяет подключиться к Azure Databricks с помощью созданного ранее имени DSN. - Установите подключение с помощью созданного ранее источника данных DSN.
- Запустите SQL-запрос с помощью созданного соединения. В следующем фрагменте кода radio_sample_data — это таблица, которая уже существует в Azure Databricks.
- Выполните операции с запросом, чтобы проверить выходные данные.
Следующий фрагмент кода выполняет следующие задачи:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Дальнейшие действия
- Сведения о источниках, из которых можно импортировать данные в Azure Databricks, см. в источниках данных для Azure Databricks