Пакеты рабочей области
Пакеты рабочей области могут быть пользовательскими или частными (Python), JAR-файлами (Scala/Java) или tar.gz (R). Вы можете передать эти пакеты в рабочую область и позже назначить их конкретному пулу Spark.
Добавление пакетов рабочей области:
- Перейдите на вкладку Управление>Пакеты рабочей области.
- Отправьте файлы wheel с помощью селектора файлов.
- После отправки файлов в рабочую область Azure Synapse эти пакеты можно добавить в заданный пул Apache Spark.
Предупреждение
В Azure Synapse пул Apache Spark может использовать пользовательские библиотеки, которые передаются как пакеты рабочей области или отправляются по известному пути Azure Data Lake Storage. Оба этих варианта нельзя использовать одновременно в одном пуле Apache Spark. Если пакеты предоставляются с помощью обоих методов, будут установлены только файлы wheel, указанные в списке пакетов рабочей области.
После того как пакеты рабочей области используются для установки пакетов в заданном пуле Apache Spark, начинает действовать ограничение, которое не позволяет указывать дополнительные пакеты, используя путь к учетной записи хранения в том же пуле.
Примечание
Рекомендуется не использовать несколько пакетов wheel с одинаковыми именами в рабочей области. Если вы хотите использовать другую версию того же пакета wheel, необходимо удалить существующую версию и отправить новую.
Учетная запись хранения
Пользовательские пакеты wheel можно установить в пул Apache Spark, отправив все файлы wheel в учетную запись Azure Data Lake Storage (2-го поколения), связанную с рабочей областью Synapse.
Файлы должны быть отправлены по следующему пути в контейнере учетной записи хранения по умолчанию:
abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/
Предупреждение
- В некоторых случаях может потребоваться создать путь к файлу на основе приведенной выше структуры, если он еще не существует. Например, может потребоваться добавить папку
python
в папкуlibraries
, если она еще не существует. - Этот метод управления пользовательскими wheel-файлами не будет поддерживаться в среде выполнения Azure Synapse для Apache Spark 3.0. Сведения об управлении пользовательскими wheel-файлами см. в разделе о возможности пакетов рабочей области.
Важно!
Чтобы установить пользовательские библиотеки с помощью Azure DataLake Storage, необходимо иметь разрешения Участник данных BLOB-объектов хранилища или Владелец данных BLOB-объектов хранилища в основной учетной записи хранилища 2-го поколения, связанной с рабочей областью Azure Synapse Analytics.
Дальнейшие действия
- Просмотр библиотек по умолчанию: поддержка версий Apache Spark
- Устранение ошибок при установке библиотеки: Устранение ошибок установки библиотек
- Создание частного канала Conda с помощью учетной записи Azure Data Lake Storage: Частные каналы Conda