Compartir vía


Solución de problemas de extensión de GPU para VM de GPU en GPU de Azure Stack Edge Pro

SE APLICA A: Sí para Pro: SKU de GPUAzure Stack Edge Pro con GPUSí para Pro 2 SKUAzure Stack Edge Pro 2Sí para Pro R SKUAzure Stack Edge Pro R

En este artículo encontrará una guía para resolver los problemas más comunes que hacen que se produzcan errores en la instalación de la extensión de GPU en una VM de GPU en un dispositivo GPU de Azure Stack Edge Pro.

Para ver los pasos de instalación, consulte Instalación de la extensión de GPU.

En las versiones inferiores a 2205, la extensión de GPU de Linux instala claves de firma antiguas: falta la firma o la clave necesaria.

Descripción del error: la extensión de GPU de Linux instala claves de firma antiguas, lo que impide la descarga del controlador de GPU necesario. En este caso, verá el siguiente error en syslog de la máquina virtual Linux:

/var/log/syslog and /var/log/waagent.log 
May  5 06:04:53 gpuvm12 kernel: [  833.601805] nvidia:module verification failed: signature and/or required key missing- tainting kernel 

Soluciones sugeridas: tiene dos opciones para mitigar este problema:

  • Opción 1: Aplique las actualizaciones de Azure Stack Edge 2205 al dispositivo.

  • Opción 2: después de crear una máquina virtual de GPU del tamaño de la serie NCasT4_v3, instale de forma manual las nuevas claves de firma antes de instalar la extensión y, a continuación, establezca las claves de firma necesarias mediante los pasos descritos en Actualización de la clave de repositorio de GPG de CUDA Linux | Blog técnico de NVIDIA.

    Este es un ejemplo que instala claves de firma en una máquina virtual Ubuntu 1804:

    $ sudo apt-key adv --fetch-
    keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/3bf863cc.pub 
    

Error al instalar la extensión de GPU en un disco duro virtual de Windows 2016

Descripción del error: se trata de un problema conocido en versiones anteriores a la 2205. La extensión de GPU requiere TLS 1.2. En este caso, es posible que vea el siguiente mensaje de error:

Failed to download https://go.microsoft.com/fwlink/?linkid=871664 after 10 attempts. Exiting!

Detalles adicionales:

Si hubo un error en la instalación durante la descarga del paquete, ese error indica que la máquina virtual no pudo acceder a la red pública para descargar el controlador.

Solución sugerida: siga estos pasos para habilitar TLS 1.2 en una VM Windows 2016 y, a continuación, implementar la extensión de GPU.

  1. Ejecute el siguiente comando dentro de la máquina virtual para habilitar TLS 1.2:

    sp hklm:\SOFTWARE\Microsoft\.NETFramework\v4.0.30319 SchUseStrongCrypto 1
    
  2. Implemente la plantilla addGPUextensiontoVM.json para instalar la extensión en una máquina virtual existente. Puede instalar la extensión de forma manual o puede instalar la extensión desde Azure Portal.

    Nota:

    La implementación de la extensión es un trabajo de larga duración y tarda unos 10 minutos en completarse.

Instalación manual del controlador Nvidia en RHEL 7

Descripción del error: al instalar la extensión de GPU en una máquina virtual RHEL 7, la instalación puede producir un error debido a un problema de rotación de certificados y a una versión de controlador incompatible.

Solución sugerida: en este caso, tiene dos opciones:

  • Opción 1: resuelva el problema de rotación de certificados e instale un controlador Nvidia inferior a la versión 510.

    1. Para resolver el problema, ejecute el siguiente comando:

      $ sudo yum-config-manager --add-repo  https://developer.download.nvidia.com/compute/cuda/repos/rhel7/$arch/cuda-rhel7.repo
      
    2. Instale un controlador Nvidia inferior a la versión 510.

  • Opción 2: implemente la extensión de GPU. Use la siguiente configuración al implementar la extensión ARM:

    settings": { 
    "isCustomInstall": true, 
    "InstallMethod": 0, 
    "DRIVER_URL": "  https://developer.download.nvidia.com/compute/cuda/11.4.4/local_installers/cuda-repo-rhel7-11-4-local-11.4.4_470.82.01-1.x86_64.rpm", 
    "DKMS_URL" : "  https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm", 
    "LIS_URL": "  https://aka.ms/lis", 
    "LIS_RHEL_ver": "3.10.0-1062.9.1.el7" 
    } 
    

El tamaño de la VM no es el tamaño de la VM de GPU

Descripción del error: Una VM de GPU debe tener el tamaño Standard_NC4as_T4_v3 o Standard_NC8as_T4_v3. Si se usa cualquier otro tamaño de VM, no se podrá conectar la extensión de GPU.

Solución sugerida: Cree una VM con el tamaño de VM Standard_NC4as_T4_v3 o Standard_NC8as_T4_v3. Para más información, consulte Tamaños y tipos de máquina virtual para el dispositivo Azure Stack Edge Pro. Para información sobre cómo especificar el tamaño, consulte Creación de VM de GPU.

No se admite el sistema operativo de la imagen

Descripción del error: La extensión de GPU no admite el sistema operativo que está instalado en la imagen de la VM.

Solución sugerida: Prepare una nueva imagen de VM que tenga un sistema operativo compatible con la extensión de GPU.

El parámetro de la extensión no es correcto

Descripción del error: Se usó una configuración de extensión incorrecta al implementar la extensión de GPU en una VM Linux.

Solución sugerida: Edite el archivo de parámetros antes de implementar la extensión de GPU. Para más información, consulte Instalación de la extensión de GPU.

Error en la instalación de la extensión de VM al descargar el paquete

Descripción del error: Hubo un error en el aprovisionamiento de la extensión durante la instalación de la extensión o mientras se encontraba en el estado Habilitado.

  1. Compruebe el registro de invitados para ver el error asociado. Para recopilar los registros de invitado, consulte Recopilación de registros de invitado de VM en un dispositivo GPU de Azure Stack Edge Pro.

    En una VM Linux:

    • Busque en /var/log/waagent.log o /var/log/azure/nvidia-vmext-status.

    En una máquina virtual de Windows:

    • Descubra el estado del error en C:\Packages\Plugins\Microsoft.HpcCompute.NvidiaGpuDriverWindows\1.3.0.0\Status.
    • Revise el registro de ejecución completo: C:\WindowsAzure\Logs\WaAppAgent.txt.

    Si hubo un error en la instalación durante la descarga del paquete, ese error indica que la VM no pudo acceder a la red pública para descargar el controlador.

Solución propuesta:

  1. Habilite el proceso en un puerto que esté conectado a Internet. Para obtener instrucciones, consulte Creación de VM de GPU.

  2. Detenga la VM en el portal para desasignarla. Para detener la VM, vaya a Máquina virtual>Información general y seleccione la VM. Luego, en la página de propiedades de la VM, seleccione Detener.

  3. Cree una máquina virtual.

Error dpkg is used/yum lock is used en la extensión de la VM (VM Linux)

Descripción del error: Error en la implementación de la extensión de GPU en una VM Linux porque otro proceso estaba usando dpkg u otro proceso creó un yum lock.

Solución sugerida: Para resolver el problema, siga estos pasos:

  1. Para averiguar qué proceso está aplicando el bloqueo, busque en el registro "\var\log\azure\nvidia-vmext-status" un error, como "dpkg is used by another process" (Otro proceso está usando dpkg) o "Another app is holding yum lock" (Otra aplicación está manteniendo el bloqueo de yum).

  2. Espere a que termine el proceso o finalícelo.

  3. Instale la extensión de GPU nuevamente.

  4. Si se vuelve a producir un error en la implementación de la extensión, cree una nueva VM y asegúrese de que el bloqueo no esté presente antes de instalar la extensión de GPU.

Pasos siguientes

Recopilación de registros de invitado y creación de un paquete de soporte técnico