Administración de bibliotecas en Spark
Importante
Azure HDInsight en AKS se retiró el 31 de enero de 2025. Descubre más con este anuncio.
Debe migrar las cargas de trabajo a microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo.
Importante
Esta característica está actualmente en versión preliminar. Los Términos de uso complementarios para las versiones preliminares de Microsoft Azure incluyen más términos legales que se aplican a las características de Azure que se encuentran en versión beta, en versión preliminar o, de lo contrario, aún no se han publicado en disponibilidad general. Para obtener información sobre esta versión preliminar específica, consulte información de la versión preliminar de Azure HDInsight en AKS. Para preguntas o sugerencias de características, envíe una solicitud en AskHDInsight con los detalles y siganos para obtener más actualizaciones sobre comunidad de Azure HDInsight.
El propósito de la administración de bibliotecas es hacer que el código de código abierto o personalizado esté disponible para cuadernos y trabajos que se ejecutan en los clústeres. Puede cargar bibliotecas de Python desde repositorios de PyPI. Este artículo se centra en la administración de bibliotecas en la interfaz de usuario del clúster. Azure HDInsight en AKS ya incluye muchas bibliotecas comunes en el clúster. Para ver qué bibliotecas se incluyen en HDI en el clúster de AKS, revise la página de administración de bibliotecas.
Instalación de bibliotecas
Puede instalar bibliotecas en dos modos:
- Instalado en el clúster
- Con ámbito de cuaderno
Clúster instalado
Todos los cuadernos que se ejecutan en un clúster pueden usar bibliotecas del clúster. Puede instalar una biblioteca de clústeres directamente desde un repositorio público, como PyPi. Subir desde repositorios de Maven y subir bibliotecas personalizadas desde almacenamiento en la nube están en la hoja de ruta.
Ámbito del cuaderno
Bibliotecas específicas de cuaderno, disponibles para Python y Scala, que permiten instalar bibliotecas y crear un entorno específico para una sesión de cuaderno. Estas bibliotecas no afectan a otros cuadernos que se ejecutan en el mismo clúster. Las bibliotecas con alcance limitado al cuaderno no se conservan y deben volverse a instalar para cada sesión.
Nota
Utilice bibliotecas de ámbito de cuaderno cuando necesite crear un entorno personalizado para un cuaderno específico.
Modos de instalación de biblioteca
PyPI: captura las bibliotecas del repositorio pyPI de código abierto mencionando el nombre de la biblioteca y la versión en la interfaz de usuario de instalación.
Visualización de las bibliotecas instaladas
En la página Información general, vaya a Administrador de bibliotecas.
En Administrador de clústeres de Spark, haga clic en Administrador de bibliotecas.
Puede ver la lista de bibliotecas instaladas desde aquí.
Agregar widget de biblioteca
PyPI
En la pestaña PyPI, escriba el nombre del paquete y la versión del paquete..
Haga clic en Instalar.
Desinstalación de bibliotecas
Si decide no usar las bibliotecas, puede eliminar fácilmente los paquetes de bibliotecas a través del botón desinstalar de la página de administración de bibliotecas.
Seleccione y haga clic en el nombre de la biblioteca.
Haga clic en Desinstalar en el widget.
Nota
- Los paquetes instalados desde Jupyter Notebook solo se pueden eliminar de Jupyter Notebook.
- Los paquetes instalados desde el administrador de bibliotecas solo se pueden desinstalar del administrador de bibliotecas.
- Para actualizar una biblioteca o paquete, desinstale la versión actual de la biblioteca y vuelva a instalar la versión necesaria de la biblioteca.
- La instalación de bibliotecas desde Jupyter Notebook es específica de la sesión. No es persistente.
- La instalación de paquetes pesados puede tardar algún tiempo debido a su tamaño y complejidad.