Databricks Connect для Python
Примечание.
В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.
В этой статье показано, как быстро приступить к работе с Databricks Connect с помощью Python и PyCharm.
- Сведения о версии R этой статьи см. в разделе Databricks Connect для R.
- Сведения о версии Scala этой статьи см. в разделе Databricks Connect для Scala.
Databricks Connect позволяет подключать популярные идентификаторы, такие как PyCharm, серверы записных книжек и другие пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".
Учебник
Чтобы пропустить это руководство и использовать другую интегрированную среду разработки, см . следующие действия.
Требования
Чтобы завершить работу с этим руководством, необходимо выполнить следующие требования:
- Целевая рабочая область Azure Databricks должна включать каталог Unity.
- Установлен PyCharm. Это руководство было протестировано с помощью PyCharm Community Edition 2023.3.5. Если вы используете другую версию или выпуск PyCharm, следующие инструкции могут отличаться.
- Вычислительные ресурсы соответствуют требованиям к установке Databricks Connect для Python.
- Если вы используете классические вычисления, вам потребуется идентификатор кластера. Чтобы получить идентификатор кластера, в рабочей области щелкните "Вычислить " на боковой панели и выберите имя кластера. В адресной строке веб-браузера скопируйте строку символов между
clusters
URL-адресом иconfiguration
URL-адресом.
Шаг 1. Настройка проверки подлинности Azure Databricks
В этом руководстве используется проверка подлинности Azure Databricks OAuth на компьютере (U2M) и профиль конфигурации Azure Databricks для проверки подлинности в рабочей области Azure Databricks. Сведения об использовании другого типа проверки подлинности см. в разделе "Настройка свойств подключения".
Для настройки проверки подлинности OAuth U2M требуется интерфейс командной строки Databricks. Сведения об установке интерфейса командной строки Databricks см. в разделе "Установка или обновление интерфейса командной строки Databricks".
Инициируйте проверку подлинности OAuth U2M следующим образом:
Используйте интерфейс командной строки Databricks для локального запуска управления маркерами OAuth, выполнив следующую команду для каждой целевой рабочей области.
В следующей команде замените
<workspace-url>
URL-адрес Azure Databricks для каждой рабочей области, напримерhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Совет
Сведения об использовании бессерверных вычислений с Databricks Connect см. в разделе "Настройка подключения к бессерверным вычислениям".
Интерфейс командной строки Databricks предлагает сохранить сведения, введенные в качестве профиля конфигурации Azure Databricks. Нажмите,
Enter
чтобы принять предлагаемое имя профиля, или введите имя нового или существующего профиля. Любой существующий профиль с тем же именем перезаписывается с введенными сведениями. Профили можно использовать для быстрого переключения контекста проверки подлинности в нескольких рабочих областях.Чтобы получить список существующих профилей, в отдельном терминале или командной строке используйте интерфейс командной строки Databricks для выполнения команды
databricks auth profiles
. Чтобы просмотреть существующие параметры конкретного профиля, выполните командуdatabricks auth env --profile <profile-name>
.В веб-браузере выполните инструкции на экране, чтобы войти в рабочую область Azure Databricks.
В списке доступных кластеров, которые отображаются в терминале или командной строке, используйте клавиши СТРЕЛКА ВВЕРХ и СТРЕЛКА ВНИЗ, чтобы выбрать целевой кластер Azure Databricks в рабочей области, а затем нажмите клавишу
Enter
. Вы также можете ввести любую часть отображаемого имени кластера, чтобы отфильтровать список доступных кластеров.Чтобы просмотреть текущее значение маркера OAuth профиля и метку времени окончания срока действия маркера, выполните одну из следующих команд:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Если у вас есть несколько профилей с
--host
одинаковым значением, может потребоваться указать и--host
параметры-p
вместе, чтобы помочь Databricks CLI найти правильные соответствующие сведения о маркере OAuth.
Шаг 2. Создание проекта
- Запустите PyCharm.
- В главном меню нажмите кнопку "Файл > нового проекта".
- В диалоговом окне "Создать проект" нажмите кнопку Pure Python.
- В поле "Расположение" щелкните значок папки и заполните инструкции на экране, чтобы указать путь к новому проекту Python.
- Оставьте выбранный сценарий приветствия main.py.
- Для типа интерпретатора щелкните Project venv.
- Разверните версию Python и используйте значок папки или раскрывающийся список, чтобы указать путь к интерпретатору Python из предыдущих требований.
- Нажмите кнопку Создать.
Шаг 3. Добавление пакета Databricks Connect
- В главном меню PyCharm выберите пункт > Windows > Python" в средстве просмотра.
- В поле поиска введите
databricks-connect
. - В списке репозитория PyPI щелкните databricks-connect.
- В раскрывающемся списке области результатов выберите версию, соответствующую версии среды выполнения Databricks кластера. Например, если в кластере установлена среда выполнения Databricks 14.3, выберите 14.3.1.
- Нажмите кнопку " Установить пакет".
- После установки пакета можно закрыть окно пакетов Python.
Шаг 4. Добавление кода
В окне средства "Проект" щелкните правой кнопкой мыши корневую папку проекта и выберите новый > файл Python.
Введите
main.py
и дважды щелкните файл Python.Введите следующий код в файл и сохраните файл в зависимости от имени профиля конфигурации.
Если профиль конфигурации из шага 1 называется
DEFAULT
, введите следующий код в файл и сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Если профиль конфигурации из шага 1 не называется
DEFAULT
, введите следующий код в файл. Замените заполнитель<profile-name>
именем профиля конфигурации на шаге 1, а затем сохраните файл:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Шаг 5. Запуск кода
- Запустите целевой кластер в удаленной рабочей области Azure Databricks.
- После запуска кластера в главном меню нажмите кнопку "Выполнить > команду main".
-
В окне "Запуск" (запуск средства просмотра>) на главной>"Запуск" отображаются первые 5 строк
samples.nyctaxi.trips
.
Шаг 6. Отладка кода
- При выполнении кластера в приведенном выше коде щелкните заготовку рядом, чтобы
df.show(5)
задать точку останова. - В главном меню нажмите кнопку "Выполнить > отладку main".
- В окне средства отладки (> на панели > разверните узлы переменных df и spark переменных.
- На боковой панели окна средства отладки щелкните значок зеленой стрелки (возобновить программу).
-
На панели консоли отладчика отображаются первые 5 строк
samples.nyctaxi.trips
.
Следующие шаги
Дополнительные сведения о Databricks Connect см. в следующих статьях:
- Сведения об использовании другого типа проверки подлинности см. в разделе "Настройка свойств подключения".
- Сведения об использовании других удостоверов, серверов записных книжек и оболочки Spark см. в следующих статьях:
- Дополнительные простые примеры кода см. в примерах кода для Databricks Connect для Python.
- Дополнительные примеры кода см. в примерах приложений для репозитория Databricks Connect в GitHub, в частности:
- Сведения об использовании служебных программ Databricks с Databricks Connect см. в разделе "Служебные программы Databricks" с Databricks Connect для Python.
- Сведения о миграции из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий см. в разделе "Миграция на Databricks Connect для Python".
- См. также сведения об устранении неполадок и ограничениях.