Compartir a través de


Paquetes de área de trabajo

Los paquetes de área de trabajo pueden ser archivos personalizados o privados wheel (Python), jar (Scala/Java) o tar.gz (R). Puede cargar estos paquetes en su área de trabajo y después asignarlos a un grupo de Spark específico.

Para agregar paquetes de área de trabajo:

  1. Vaya a la pestaña Administrar>Paquetes de área de trabajo.
  2. Cargue los archivos mediante el selector de archivos.
  3. Una vez cargados los archivos en el área de trabajo de Azure Synapse, puede agregar estos paquetes a un grupo de Apache Spark.

Captura de pantalla en la que se resaltan los paquetes de área de trabajo.

Advertencia

  • En Azure Synapse, un grupo de Apache Spark puede aprovechar las bibliotecas personalizadas que se cargan como paquetes de área de trabajo o que se cargan en una ruta de acceso conocida de Azure Data Lake Storage. Sin embargo, estas dos opciones no se pueden usar simultáneamente en el mismo grupo de Apache Spark. Si se proporcionan paquetes usando ambos métodos, solo se instalarán los archivos wheel especificados en la lista de paquetes de área de trabajo.

  • Cuando se usan paquetes de área de trabajo para instalar paquetes en un grupo de Apache Spark determinado, existe la limitación de que ya no se pueden especificar paquetes mediante la ruta de acceso a la cuenta de almacenamiento en el mismo grupo.

Nota:

Se recomienda no tener varios paquetes con el mismo nombre en un área de trabajo. Si quiere usar una versión distinta del mismo paquete, debe eliminar la versión existente y cargar la nueva.

Cuenta de almacenamiento

Los paquetes de compilación personalizada se pueden instalar en el grupo de Apache Spark mediante la carga de todos los archivos en la cuenta de Azure Data Lake Storage (Gen2) que está vinculada al área de trabajo de Synapse.

Los archivos se deben cargar en la siguiente ruta de acceso en el contenedor predeterminado de la cuenta de almacenamiento:

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Advertencia

  • En algunos casos, es posible que deba crear la ruta de acceso del archivo según la estructura anterior si aún no existe. Por ejemplo, es posible que tenga que agregar la carpeta python dentro de la carpeta libraries si aún no existe.
  • Este método de administración de archivos personalizados no se admite en Azure Synapse Runtime para Apache Spark 3.0. Consulte la característica Paquetes del área de trabajo para administrar archivos personalizados.

Importante

Para instalar bibliotecas personalizadas mediante el método de Azure Data Lake Storage, debe tener los permisos Colaborador de datos de Storage Blob o Propietario de datos de Storage Blob en la cuenta principal de Storage Gen2 que está vinculada con el área de trabajo de Azure Synapse Analytics.

Pasos siguientes