Delen via


Problemen met de virtuele Machine van Azure Datawetenschap oplossen

In dit artikel wordt uitgelegd hoe u fouten of fouten kunt vinden en corrigeren die u kunt tegenkomen bij het gebruik van de virtuele Machine van Azure Datawetenschap.

Ubuntu

GPU oplossen op NVIDIA A100 GPU-chip - Azure NDasrv4-serie

De virtuele machine uit de ND A100 v4-serie is een vlaggenschip naast de Azure GPU-serie. Het verwerkt geavanceerde Deep Learning-training en nauw gekoppelde, omhoog geschaalde en uitgeschaalde HPC-workloads.

Vanwege de unieke architectuur heeft het een andere installatie nodig voor workloads met hoge vraag, om te profiteren van GPU-versnelling met behulp van TensorFlow- of PyTorch-frameworks.

We bouwen out-of-the-box ondersteuning voor GPU's van ND A100-machines. Ondertussen kan uw GPU Ubuntu verwerken als u NVIDIA Fabric Manager toevoegt en de stuurprogramma's bijwerkt. Volg deze stappen in de terminal:

  1. Voeg de NVIDIA-opslagplaats toe om stuurprogramma's te installeren of bij te werken: zoek stapsgewijze instructies voor deze resource

  2. [OPTIONEEL] U kunt ook uw CUDA-stuurprogramma's bijwerken vanuit die opslagplaats

  3. Installeer de NVIDIA Fabric Manager-stuurprogramma's:

    sudo apt-get install cuda-drivers-460
    sudo apt-get install cuda-drivers-fabricmanager-460
    
  4. Start de VM opnieuw op (om de stuurprogramma's voor te bereiden)

  5. Schakel de zojuist geïnstalleerde NVIDIA Fabric Manager-service in en start deze:

    sudo systemctl enable nvidia-fabricmanager
    sudo systemctl start nvidia-fabricmanager
    

Voer dit codevoorbeeld uit om te controleren of uw GPU en uw stuurprogramma's werken:

systemctl status nvidia-fabricmanager.service

In deze schermopname ziet u de Fabric Manager-service die wordt uitgevoerd:

Schermopname van de Fabric Manager-service die wordt uitgevoerd.

Verbinding met bureaubladomgeving mislukt

Als u verbinding kunt maken met de DSVM via SSH-terminal, maar u geen verbinding kunt maken via x2go, heeft x2go mogelijk de verkeerde instelling voor het sessietype. Als u verbinding wilt maken met de DSVM-bureaubladomgeving, stelt u het sessietype in x2go /sessievoorkeuren/sessie in op XFCE. Andere bureaubladomgevingen worden momenteel niet ondersteund.

Lettertypen zien er verkeerd uit wanneer u verbinding maakt met DSVM met behulp van x2go

Een specifieke x2go-sessieinstelling kan ertoe leiden dat sommige lettertypen er verkeerd uitzien wanneer u verbinding maakt met x2go. Schakel voordat u verbinding maakt met de DSVM het selectievakje DPI-weergave instellen uit op het tabblad Invoer/uitvoer van het dialoogvenster sessievoorkeuren.

Gevraagd om onbekend wachtwoord

U kunt de instelling voor het DSVM-verificatietype instellen op openbare SSH-sleutel. Dit wordt aanbevolen in plaats van wachtwoordverificatie. U ontvangt geen wachtwoord als u openbare SSH-sleutel gebruikt. In sommige scenario's vragen sommige toepassingen echter nog steeds een wachtwoord aan. Voer deze opdracht uit sudo passwd <user_name> om een nieuw wachtwoord voor een specifieke gebruiker te maken. Met sudo passwdkunt u een nieuw wachtwoord voor de hoofdgebruiker maken.

Als u deze opdracht uitvoert, wordt de SSH-configuratie niet gewijzigd en blijven de toegestane aanmeldingsmechanismen hetzelfde.

Gevraagd om wachtwoord bij het uitvoeren van sudo-opdracht

Wanneer u een sudo opdracht uitvoert op een Ubuntu-computer, krijgt u mogelijk een verzoek om herhaaldelijk uw wachtwoord in te voeren om te controleren of u de aangemelde gebruiker bent. Dit is het verwachte standaardGedrag van Ubuntu. In sommige situaties is een herhaalde verificatie echter niet nodig en vervelend.

Als u verificatie wilt uitschakelen voor de meeste gevallen, kunt u deze opdracht uitvoeren in een terminal:

echo -e "\n$USER ALL=(ALL) NOPASSWD: ALL\n" | sudo tee -a /etc/sudoers

Nadat u de terminal opnieuw hebt opgestart, vraagt sudo niet om een andere aanmelding en wordt de verificatie van uw sessieaanmelding als voldoende overwogen.

Kan docker niet gebruiken als niet-basisgebruiker

Als u Docker wilt gebruiken als niet-basisgebruiker, moet uw gebruiker lid zijn van de Docker-groep. De getent group docker opdracht retourneert een lijst met gebruikers die deel uitmaken van die groep. Als u uw gebruiker wilt toevoegen aan de Docker-groep, voert u het volgende uit sudo usermod -aG docker $USER.

Docker-containers kunnen niet communiceren met de buitenkant via het netwerk

Docker voegt standaard nieuwe containers toe aan het zogenaamde 'brugnetwerk': 172.17.0.0/16 Het subnet van dat brugnetwerk kan overlappen met het subnet van uw DSVM of met een ander privésubnet dat u in uw abonnement hebt. In dit geval is er geen netwerkcommunicatie tussen de host en de container mogelijk. Daarnaast kunnen webtoepassingen die in de container worden uitgevoerd, niet worden bereikt en kan de container geen pakketten bijwerken vanuit apt.

Om het probleem op te lossen, moet u Docker opnieuw configureren om een IP-adresruimte te gebruiken voor het brugnetwerk dat niet overlapt met andere netwerken van uw abonnement. Als u bijvoorbeeld toevoegt

"default-address-pools": [
        {
            "base": "10.255.248.0/21",
            "size": 21
        }
    ]

aan het /etc/docker/daemon.json JSON-bestand wijst Docker een ander subnet toe aan het brugnetwerk. U moet het bestand bewerken met sudo, bijvoorbeeld door uit te voeren sudo nano /etc/docker/daemon.json.

Voer na de wijziging uit service docker restart om de Docker-service opnieuw op te starten. Als u wilt bepalen of uw wijzigingen van kracht zijn, kunt u uitvoeren docker network inspect bridge. De waarde onder IPAM. Config.Subnet moet overeenkomen met de adresgroep die u eerder hebt opgegeven.

GPU('s) niet beschikbaar in docker-container

De Docker-resource die op de DSVM is geïnstalleerd, ondersteunt standaard GPU's. Deze ondersteuning vereist echter bepaalde vereisten.

  • De VM-grootte van de DSVM moet ten minste één GPU bevatten.
  • Wanneer u uw Docker-container start, docker runmoet u bijvoorbeeld een --gpus-parameter toevoegen: --gpus all.
  • VOOR VM-grootten met NVIDIA A100 GPU's is vereist dat andere softwarepakketten zijn geïnstalleerd, met name de NVIDIA Fabric Manager. Deze pakketten zijn mogelijk niet vooraf geïnstalleerd in uw installatiekopieën.

Windows

Generatie 2 van de virtuele machine (Gen 2) werkt niet

Wanneer u Datawetenschap VIRTUELE machine probeert te maken op basis van de generatie 2 van de virtuele machine (Gen 2), mislukt deze.

Op dit moment onderhouden en leveren we installatiekopieën voor Datawetenschap virtuele machines (DSVM's) op basis van Windows 2019 Server, alleen voor DSVM's van de eerste generatie. Gen 2 wordt nog niet ondersteund, maar we zijn van plan ze in de nabije toekomst te ondersteunen.

Toegang tot SQL Server

Wanneer u verbinding probeert te maken met het vooraf geïnstalleerde SQL Server-exemplaar, treedt er mogelijk een fout 'aanmelden is mislukt' op. Als u verbinding wilt maken met het SQL Server-exemplaar, moet u het programma uitvoeren waarmee u verbinding wilt maken, bijvoorbeeld SQL Server Management Studio (SSMS) in de beheerdersmodus. De beheerdersmodus is vereist omdat alleen beheerders verbinding kunnen maken door het standaardgedrag van DSVM.

Hyper-V werkt niet

Zoals verwacht werkt Hyper-V niet in eerste instantie in Windows. Voor de beste prestaties hebben we sommige services uitgeschakeld. Hyper-V inschakelen:

  1. Open de zoekbalk op uw Windows-DSVM
  2. Typ 'Services'.
  3. Alle Hyper-V-services instellen op 'Handmatig'
  4. Hyper-V Virtual Machine Management instellen op Automatisch

Het uiteindelijke scherm ziet er als volgt uit:

Schermopname van de Hyper-V-service die wordt uitgevoerd.