Paquetes de área de trabajo
Los paquetes de área de trabajo pueden ser archivos personalizados o privados wheel (Python), jar (Scala/Java) o tar.gz (R). Puede cargar estos paquetes en su área de trabajo y después asignarlos a un grupo de Spark específico.
Para agregar paquetes de área de trabajo:
- Vaya a la pestaña Administrar>Paquetes de área de trabajo.
- Cargue los archivos mediante el selector de archivos.
- Una vez cargados los archivos en el área de trabajo de Azure Synapse, puede agregar estos paquetes a un grupo de Apache Spark.
Advertencia
En Azure Synapse, un grupo de Apache Spark puede aprovechar las bibliotecas personalizadas que se cargan como paquetes de área de trabajo o que se cargan en una ruta de acceso conocida de Azure Data Lake Storage. Sin embargo, estas dos opciones no se pueden usar simultáneamente en el mismo grupo de Apache Spark. Si se proporcionan paquetes usando ambos métodos, solo se instalarán los archivos wheel especificados en la lista de paquetes de área de trabajo.
Cuando se usan paquetes de área de trabajo para instalar paquetes en un grupo de Apache Spark determinado, existe la limitación de que ya no se pueden especificar paquetes mediante la ruta de acceso a la cuenta de almacenamiento en el mismo grupo.
Nota:
Se recomienda no tener varios paquetes con el mismo nombre en un área de trabajo. Si quiere usar una versión distinta del mismo paquete, debe eliminar la versión existente y cargar la nueva.
Cuenta de almacenamiento
Los paquetes de compilación personalizada se pueden instalar en el grupo de Apache Spark mediante la carga de todos los archivos en la cuenta de Azure Data Lake Storage (Gen2) que está vinculada al área de trabajo de Synapse.
Los archivos se deben cargar en la siguiente ruta de acceso en el contenedor predeterminado de la cuenta de almacenamiento:
abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/
Advertencia
- En algunos casos, es posible que deba crear la ruta de acceso del archivo según la estructura anterior si aún no existe. Por ejemplo, es posible que tenga que agregar la carpeta
python
dentro de la carpetalibraries
si aún no existe. - Este método de administración de archivos personalizados no se admite en Azure Synapse Runtime para Apache Spark 3.0. Consulte la característica Paquetes del área de trabajo para administrar archivos personalizados.
Importante
Para instalar bibliotecas personalizadas mediante el método de Azure Data Lake Storage, debe tener los permisos Colaborador de datos de Storage Blob o Propietario de datos de Storage Blob en la cuenta principal de Storage Gen2 que está vinculada con el área de trabajo de Azure Synapse Analytics.
Pasos siguientes
- Visualización de las bibliotecas predeterminadas: Compatibilidad de las versiones de Azure Spark
- Solución de errores de instalación de biblioteca
- Creación de un canal privado de Conda mediante la cuenta de Azure Data Lake Storage: canales privados de Conda