Установка библиотек из репозитория пакетов
Azure Databricks предоставляет средства для установки библиотек из репозиториев пакетов PyPI, Maven и CRAN. Полные сведения о совместимости библиотек см . в библиотеках с областью кластера.
Внимание
Библиотеки можно установить из DBFS при использовании Databricks Runtime 14.3 LTS и ниже. Однако любой пользователь рабочей области может изменять файлы библиотеки, хранящиеся в DBFS. Чтобы повысить безопасность библиотек в рабочей области Azure Databricks, хранение файлов библиотек в корне DBFS устарело и отключено по умолчанию в Databricks Runtime 15.1 и выше. См . статью "Хранение библиотек в корневом каталоге DBFS" не рекомендуется и отключается по умолчанию.
Вместо этого Databricks рекомендует отправлять все библиотеки, включая библиотеки Python, JAR-файлы и соединители Spark, в файлы рабочей области или в Unity Catalogvolumes, или использовать репозитории пакетов библиотеки. Если рабочая нагрузка не поддерживает эти шаблоны, можно также использовать библиотеки, хранящиеся в облачном хранилище объектов.
Пакет PyPI
В источнике библиотеки кнопка list, selectPyPI.
Введите имя пакета PyPI. Чтобы установить определенную версию библиотеки, используйте следующий формат для библиотеки:
<library>==<version>
Например:scikit-learn==0.19.1
.Примечание.
Для заданий Databricks рекомендует указать версию библиотеки, чтобы обеспечить воспроизводимую среду. Если версия библиотеки не полностью указана, Databricks использует последнюю соответствующую версию. Это означает, что разные запуски одного задания могут использовать разные версии библиотеки, так как публикуются новые версии. Указание версии библиотеки предотвращает новые критические изменения в библиотеках от нарушения заданий.
(Необязательно) В поле URL-адрес индекса введите URL-адрес индекса PyPI.
Щелкните Установить.
Пакет Maven или Spark
Внимание
Чтобы установить библиотеки Maven на вычислительных ресурсах, настроенных в режиме общего доступа, необходимо добавить координаты в список разрешений. См . библиотеки allowlist и скрипты инициализации в общих вычислительных ресурсах.
Внимание
Для DBR 14.3 LTS и ниже Databricks использует Apache Ivy 2.4.0 для разрешения пакетов Maven. Для DBR 15.0 и более поздних версий Databricks использует Ivy 2.5.1 или более поздней, а конкретная версия Ivy указана в заметках о выпуске Databricks Runtime и совместимости.
Порядок установки пакетов Maven может повлиять на окончательное дерево зависимостей, которое может повлиять на порядок загрузки библиотек.
На кнопке источника библиотеки listMavenselect.
Укажите координату Maven. Выполните одно из следующих действий:
- В поле "Координата" введите координату Maven для устанавливаемой библиотеки. Координаты Maven представлены в форме
groupId:artifactId:version
; например,com.databricks:spark-avro_2.10:1.0.0
. - Если вы не знаете точную координату, введите имя библиотеки и щелкните Поиск пакетов. Отображается list совпадающих пакетов. Чтобы просмотреть сведения о пакете, щелкните его имя. Пакеты можно сортировать по имени, организации и оценке. Можно также отфильтровать результаты, написав запрос в строке поиска. Результаты refresh выводятся автоматически.
- Select Maven Central или Spark Packages в раскрывающемся списке list в левом верхнем углу.
- При необходимости select версию пакета в выпусках column.
- Щелкните + Select рядом с пакетом. В поле "Координата" появится выбранный пакет и его версия.
- В поле "Координата" введите координату Maven для устанавливаемой библиотеки. Координаты Maven представлены в форме
(Необязательно) В поле репозитория можно ввести URL-адрес репозитория Maven.
Примечание.
Внутренние репозитории Maven не поддерживаются.
В поле "Исключения" при необходимости укажите
groupId
иartifactId
зависимости, которые необходимо исключить (например,log4j:log4j
).Примечание.
Maven работает с помощью ближайшей к корневой версии, и в случае двух пакетов vying для версий с разными зависимостями, порядок имеет значение, поэтому он может завершиться ошибкой, когда пакет со старой зависимостью загружается сначала.
Чтобы обойти эту проблему, исключите конфликтующую библиотеку. Например, при установке пакета с координатой
com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22
, set, чтобы последняя версияeventhubs
из MSAL4J была загружена и зависимостьeventhubs
была удовлетворена, поле Исключения должно быть установлено вcom.nimbusds:oauth2-oidc-sdk:RELEASE
.Щелкните Установить.
Пакет CRAN
- В кнопке источника библиотекиlist, selectCRAN.
- В поле "Пакет" введите имя пакета.
- (Необязательно) В поле репозитория можно ввести URL-адрес репозитория CRAN.
- Щелкните Установить.
Примечание.
Зеркальные копии CRAN обслуживают последнюю версию библиотеки. В результате вы можете получить различные версии пакета R, если вы будете подключать библиотеку к разным кластерам в разное время. Сведения об управлении версиями пакетов R и их исправлении в Databricks см. в базе знаний.