Поделиться через


Настройка проекта Databricks с помощью расширения Databricks для Visual Studio Code

Расширение Databricks для Visual Studio Code предлагает представление конфигурации на панели расширения, которое позволяет легко настраивать и обновлять параметры для проекта Databricks. Эти функции включают селектор развертывания целевой рабочей области, простую настройку проверки подлинности и вычислений, синхронизацию папок рабочей области и простые шаги для активации виртуальной среды Python, необходимой для отладки.

Представление конфигурации в расширении Databricks для Visual Studio Code доступно после создания или переноса проекта в проект Databricks. См. статью "Создание проекта Databricks".

Примечание.

В терминале были установлены более ранние версии расширения Databricks для Visual Studio Code, определенные параметры конфигурации в файле JSON проекта и переменных среды. В версии выпуска конфигурация проекта и среды находится в файлах и databricks.yml файлахdatabricks.env.

Если проект является пакетом ресурсов Databricks, пользовательский интерфейс экстентирования Databricks также предоставляет обозреватель ресурсов пакета и представление переменных пакета для управления ресурсами и переменными пакета. См. сведения о функциях расширения наборов ресурсов Databricks.

Изменение целевой рабочей области развертывания

Чтобы выбрать или переключить целевой объект развертывания для проекта Databricks (например, переключиться с целевого dev объекта на целевой prod объект):

  1. В представлении конфигурации панели расширения Databricks щелкните значок шестеренки (выберите целевой объект пакета ресурсов Databricks), связанный с Target.

    Выберите целевой объект пакета активов Databricks

  2. В палитре команд выберите нужный целевой объект развертывания.

После настройки целевого объекта отображается режим узла и развертывания. Сведения о режимах развертывания пакетов активов Databricks см. в режимах развертывания пакета ресурсов Databricks.

Узел рабочей области можно изменить, изменив целевой workspace параметр в databricks.yml файле конфигурации, связанном с проектом. См . целевые объекты.

Примечание.

Следующее расширение Databricks для функций Visual Studio Code доступно только при разработке целевого режима развертывания:

  • Использование присоединенного кластера разработки для заданий пакета
  • Синхронизация файлов папок рабочей области
  • Выбор интерактивного кластера разработки

Настройка профиля Databricks для проекта

При создании проекта Databricks или преобразования проекта в качестве проекта Databricks необходимо настроить профиль, включающий параметры проверки подлинности, используемые для подключения к Databricks. Если вы хотите изменить используемый профиль проверки подлинности, щелкните значок шестеренки, связанный с AuthType в представлении конфигурации .

Дополнительные сведения о расширении Databricks для проверки подлинности Visual Studio Code см . в разделе "Настройка проверки подлинности" расширения Databricks для Visual Studio Code.

Выбор кластера для выполнения кода и заданий

С помощью расширения Databricks для Visual Studio Code можно выбрать существующий кластер Azure Databricks или создать новый кластер Azure Databricks для выполнения кода и заданий. После подключения к вычислительным ресурсам отображается идентификатор кластера, версия Databricks Runtime, создатель, состояние и режим доступа. Вы также можете запустить и остановить кластер и перейти непосредственно к сведениям о странице кластера.

Совет

Если вы не хотите ждать запуска кластера заданий, проверьте кластер переопределения заданий в пакете чуть ниже выбранного кластера, чтобы использовать выбранный кластер для выполнения заданий пакета в режиме разработки.

Использование имеющегося кластера

Если у вас есть существующий кластер Azure Databricks, который вы хотите использовать:

  1. В представлении конфигурации рядом с кластером выберите кластер или значок шестеренки (настройка кластера).

    Настройка кластера

  2. В палитре команд выберите кластер, который требуется использовать.

Создание нового кластера

Если у вас нет существующего кластера Azure Databricks или вы хотите создать новый кластер:

  1. В представлении конфигурации рядом с кластером щелкните значок шестеренки (настройка кластера).

  2. В палитре команд нажмите кнопку "Создать кластер".

  3. Когда появится запрос на открытие внешнего веб-сайта (рабочая область Azure Databricks), нажмите кнопку "Открыть".

  4. При появлении запроса войдите в рабочую область Azure Databricks.

  5. Следуйте инструкциям по созданию кластера.

    Примечание.

    Databricks рекомендует создать кластер личных вычислений. Это позволяет немедленно запускать рабочие нагрузки, минимизируя затраты на управление вычислительными ресурсами.

  6. После создания и запуска кластера вернитесь в Visual Studio Code.

  7. В представлении конфигурации рядом с кластером щелкните значок шестеренки (настройка кластера).

    Настройка значка кластера 3

    В палитре команд щелкните кластер, который вы хотите использовать.

Синхронизация папки рабочей области с Databricks

Вы можете синхронизировать папку удаленной рабочей области Databricks, связанную с проектом Databricks, щелкнув значок синхронизации (начать синхронизацию), связанную с удаленной папкой в представлении конфигурации панели расширения Databricks.

Примечание.

Расширение Databricks для Visual Studio Code работает только с создаваемыми каталогами рабочих областей. Вы не можете использовать существующий каталог рабочей области в проекте, если он не был создан расширением.

Чтобы перейти к представлению рабочей области в Databricks, щелкните значок внешней ссылки (Открыть ссылку внешней) , связанный с удаленной папкой.

Расширение определяет папку рабочей области Azure Databricks, используемую на file_path основе параметра в workspace сопоставлении связанной конфигурации пакета активов Databricks проекта. См . рабочую область.

Примечание.

Расширение Databricks для Visual Studio Code выполняет только односторонней синхронизации изменений файлов из локального проекта Visual Studio Code в связанную папку рабочей области в удаленной рабочей области Azure Databricks. Файлы в этом каталоге удаленной рабочей области предназначены для временных. Не инициируйте изменения этих файлов из удаленной рабочей области, так как эти изменения не будут синхронизированы с локальным проектом.

Сведения об использовании функции синхронизации каталогов рабочей области для более ранних версий расширения Databricks для Visual Studio Code см. в разделе "Выбор каталога рабочей области" расширения Databricks для Visual Studio Code.

Настройка среды Python и Databricks Connect

В разделе "Среда Python" представления конфигурации можно легко настроить среду разработки Python и установить Databricks Connect для запуска и отладки ячеек кода и записной книжки. Виртуальные среды Python убедитесь, что проект использует совместимые версии пакетов Python и Python (в данном случае — пакет Databricks Connect).

Чтобы настроить виртуальную среду Python для проекта, в представлении конфигурации панели расширения:

  1. Щелкните красный элемент "Активировать виртуальную среду " в разделе "Среда Python".
  2. В палитре команд выберите Venv или Conda.
  3. Выберите зависимости, которые требуется установить, если таковые имеются.

Чтобы изменить среды, щелкните значок шестеренки (изменение виртуальной среды), связанной с активной средой.

Сведения об установке Databricks Connect, которая обеспечивает выполнение и отладку кода и записных книжек в Visual Studio Code, см. в статье "Отладка кода с помощью Databricks Connect" для расширения Databricks для Visual Studio Code.