Compartir a través de


Administración de bibliotecas en Spark

Nota:

Retiraremos Azure HDInsight en AKS el 31 de enero de 2025. Antes del 31 de enero de 2025, deberá migrar las cargas de trabajo a Microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo. Los clústeres restantes de la suscripción se detendrán y quitarán del host.

Solo el soporte técnico básico estará disponible hasta la fecha de retirada.

Importante

Esta funcionalidad actualmente está en su versión preliminar. En Términos de uso complementarios para las versiones preliminares de Microsoft Azure encontrará más términos legales que se aplican a las características de Azure que están en versión beta, en versión preliminar, o que todavía no se han lanzado con disponibilidad general. Para más información sobre esta versión preliminar específica, consulte la Información de Azure HDInsight sobre la versión preliminar de AKS. Para plantear preguntas o sugerencias sobre la característica, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.

El propósito de la administración de bibliotecas es hacer que el código de código abierto o personalizado esté disponible para cuadernos y trabajos que se ejecutan en los clústeres. Puede cargar bibliotecas de Python desde repositorios de PyPI. Este artículo se centra en la administración de bibliotecas en la interfaz de usuario del clúster. Azure HDInsight en AKS ya incluye muchas bibliotecas comunes en el clúster. Para ver qué bibliotecas se incluyen en HDI en el clúster de AKS, revise la página de administración de bibliotecas.

Instalar bibliotecas

Puede instalar bibliotecas en dos modos:

  • Instaladas en un clúster
  • Con ámbito de cuaderno

Instaladas en un clúster

Todos los cuadernos que se ejecutan en un clúster pueden usar bibliotecas de clúster. Puede instalar una biblioteca de clústeres directamente desde un repositorio público, como PyPi. La carga desde repositorios de Maven y la carga de bibliotecas personalizadas desde el almacenamiento en la nube están en la hoja de ruta.

Captura de pantalla que muestra la página del administrador de bibliotecas instaladas en el clúster.

Con ámbito de cuaderno

Bibliotecas con ámbito de cuaderno, disponibles para Python y Scala, que permiten instalar bibliotecas y crear un entorno con ámbito en una sesión de cuaderno. Estas bibliotecas no afectan a otros cuadernos que se ejecuten en el mismo clúster. Las bibliotecas cuyo ámbito es un cuaderno no se conservan, por lo que es preciso volver a instalarlas en cada sesión.

Nota:

Este tipo de bibliotecas se usan cuando se necesita un entorno personalizado para un cuaderno concreto.

Modos de instalación de bibliotecas

PyPI: capture bibliotecas del repositorio PyPI de código abierto mencionando el nombre y la versión de la biblioteca en la interfaz de usuario de instalación.

Visualización de las bibliotecas instaladas

  1. En la página de información general, vaya a Administrador de bibliotecas.

    Captura de pantalla que muestra la página del administrador de bibliotecas.

  2. En Administrador de clústeres de Spark, haga clic en Administrador de bibliotecas.

  3. Puede ver la lista de bibliotecas instaladas aquí.

    Captura de pantalla que muestra cómo ver las bibliotecas instaladas.

Agregar widget de biblioteca

PyPI

  1. En la pestaña PyPI, escriba el nombre del paquete y la versión del paquete.

  2. Haga clic en Instalar.

    Captura de pantalla que muestra cómo instalar PyPI.

Desinstalación de bibliotecas

Si decide no usar las bibliotecas, puede eliminar fácilmente los paquetes de bibliotecas a través del botón desinstalar de la página de administración de bibliotecas.

  1. Seleccione y haga clic en el nombre de la biblioteca

    Captura de pantalla que muestra cómo seleccionar una biblioteca.

  2. Haga clic en Desinstalar en el widget

    Captura de pantalla que muestra cómo desinstalar la biblioteca.

    Nota:

    • Los paquetes instalados desde Jupyter Notebook solo se pueden eliminar desde Jupyter Notebook.
    • Los paquetes instalados desde el administrador de bibliotecas solo se pueden desinstalar desde el administrador de bibliotecas.
    • Para actualizar una biblioteca o paquete, desinstale la versión actual de la biblioteca y vuelva a instalar la versión requerida.
    • La instalación de bibliotecas de Jupyter Notebook es específica de la sesión. No es persistente.
    • La instalación de paquetes pesados puede tardar un poco debido a su tamaño y complejidad.