Поделиться через


Пакеты рабочей области

Пакеты рабочей области могут быть пользовательскими или частными (Python), JAR-файлами (Scala/Java) или tar.gz (R). Вы можете передать эти пакеты в рабочую область и позже назначить их конкретному пулу Spark.

Добавление пакетов рабочей области:

  1. Перейдите на вкладку Управление>Пакеты рабочей области.
  2. Отправьте файлы wheel с помощью селектора файлов.
  3. После отправки файлов в рабочую область Azure Synapse эти пакеты можно добавить в заданный пул Apache Spark.

Снимок экрана: выделены пакеты рабочей области.

Предупреждение

  • В Azure Synapse пул Apache Spark может использовать пользовательские библиотеки, которые передаются как пакеты рабочей области или отправляются по известному пути Azure Data Lake Storage. Оба этих варианта нельзя использовать одновременно в одном пуле Apache Spark. Если пакеты предоставляются с помощью обоих методов, будут установлены только файлы wheel, указанные в списке пакетов рабочей области.

  • После того как пакеты рабочей области используются для установки пакетов в заданном пуле Apache Spark, начинает действовать ограничение, которое не позволяет указывать дополнительные пакеты, используя путь к учетной записи хранения в том же пуле.

Примечание

Рекомендуется не использовать несколько пакетов wheel с одинаковыми именами в рабочей области. Если вы хотите использовать другую версию того же пакета wheel, необходимо удалить существующую версию и отправить новую.

Учетная запись хранения

Пользовательские пакеты wheel можно установить в пул Apache Spark, отправив все файлы wheel в учетную запись Azure Data Lake Storage (2-го поколения), связанную с рабочей областью Synapse.

Файлы должны быть отправлены по следующему пути в контейнере учетной записи хранения по умолчанию:

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Предупреждение

  • В некоторых случаях может потребоваться создать путь к файлу на основе приведенной выше структуры, если он еще не существует. Например, может потребоваться добавить папку python в папку libraries, если она еще не существует.
  • Этот метод управления пользовательскими wheel-файлами не будет поддерживаться в среде выполнения Azure Synapse для Apache Spark 3.0. Сведения об управлении пользовательскими wheel-файлами см. в разделе о возможности пакетов рабочей области.

Важно!

Чтобы установить пользовательские библиотеки с помощью Azure DataLake Storage, необходимо иметь разрешения Участник данных BLOB-объектов хранилища или Владелец данных BLOB-объектов хранилища в основной учетной записи хранилища 2-го поколения, связанной с рабочей областью Azure Synapse Analytics.

Дальнейшие действия