Поделиться через


Устранение неполадок с azure Виртуальная машина для обработки и анализа данных

В этой статье объясняется, как найти и исправить ошибки или сбои при использовании Azure Виртуальная машина для обработки и анализа данных.

Ubuntu

Исправление GPU в устройстве GPU NVIDIA A100 — серия Azure NDasrv4

Виртуальная машина серии ND A100 версии 4 является флагманским дополнением к семейству GPU Azure. Она обрабатывает высокоуровневую подготовку глубокого обучения и тесно связанную, масштабируемую и масштабируемую рабочую нагрузку HPC.

Из-за уникальной архитектуры он нуждается в другой настройке для рабочих нагрузок с высоким спросом, чтобы воспользоваться ускорением GPU с помощью платформ TensorFlow или PyTorch.

Мы создаем поддержку встроенных процессоров ND A100. Между тем gpu может обрабатывать Ubuntu, если добавить диспетчер NVIDIA Fabric и обновить драйверы. Выполните следующие действия в терминале:

  1. Добавление репозитория NVIDIA для установки или обновления драйверов— найдите пошаговые инструкции по этому ресурсу.

  2. [НЕОБЯЗАТЕЛЬНО] Вы также можете обновить драйверы CUDA из этого репозитория.

  3. Установите драйверы NVIDIA Fabric Manager:

    sudo apt-get install cuda-drivers-460
    sudo apt-get install cuda-drivers-fabricmanager-460
    
  4. Перезагрузите виртуальную машину (для подготовки драйверов)

  5. Включите и запустите только что установленную службу NVIDIA Fabric Manager:

    sudo systemctl enable nvidia-fabricmanager
    sudo systemctl start nvidia-fabricmanager
    

Запустите этот пример кода, чтобы убедиться, что gpu и драйверы работают:

systemctl status nvidia-fabricmanager.service

На снимка экрана показана запущенная служба Fabric Manager:

Снимок экрана: запущенная служба Fabric Manager.

Сбой подключения к среде рабочего стола

Если вы можете подключиться к DSVM через терминал SSH, но вы не можете подключиться через x2go, x2go может иметь неправильный параметр типа сеанса. Чтобы подключиться к классической среде DSVM, задайте тип сеанса в параметрах x2go/session/session значение XFCE. Другие среды рабочего стола сейчас не поддерживаются.

При подключении к DSVM с помощью x2go шрифты выглядят неправильно

Определенный параметр сеанса x2go может привести к неправильному просмотру некоторых шрифтов при подключении к x2go. Перед подключением к DSVM установите флажок "Задать DPI" на вкладке "Входные и выходные данные" диалогового окна параметров сеанса.

Запрос на ввод неизвестного пароля

Вы можете задать для параметра типа проверки подлинности DSVM значение "Открытый ключ SSH". Это рекомендуется вместо проверки подлинности паролей. Если вы используете открытый ключ SSH, вы не получаете пароль. Однако в некоторых сценариях некоторые приложения по-прежнему запрашивают пароль. Запустите sudo passwd <user_name> , чтобы создать новый пароль для конкретного пользователя. С помощью команды sudo passwd можно создать новый пароль для корневого пользователя.

Выполнение этой команды не изменяет конфигурацию SSH и разрешенные механизмы входа остаются неизменными.

Запрос пароля при выполнении команды sudo

При выполнении sudo команды на компьютере Ubuntu вы можете получить запрос, чтобы повторно ввести пароль, чтобы убедиться, что вы вошедший в систему пользователь. Это ожидаемое поведение Ubuntu по умолчанию. Однако в некоторых ситуациях повторная проверка подлинности не требуется и раздражает.

Чтобы отключить повторную проверку подлинности в большинстве случаев, эту команду можно выполнить в терминале:

echo -e "\n$USER ALL=(ALL) NOPASSWD: ALL\n" | sudo tee -a /etc/sudoers

После перезапуска терминала sudo не будет запрашивать другой вход, и он будет рассматривать проверку подлинности из входа в сеанс как достаточно.

Не удается использовать Docker в качестве пользователя, не являемого пользователем

Чтобы использовать Docker в качестве пользователя, отличного от сети, пользователю требуется членство в группе Docker. Команда getent group docker возвращает список пользователей, принадлежащих этой группе. Чтобы добавить пользователя в группу docker, выполните команду sudo usermod -aG docker $USER.

Контейнеры Docker не могут взаимодействовать с внешними через сеть

По умолчанию Docker добавляет новые контейнеры в так называемую "сеть моста": 172.17.0.0/16 Подсеть этой сети моста может перекрываться подсетью dsVM или другой частной подсети, которую вы имеете в вашей подписке. В этом случае сетевое взаимодействие между узлом и контейнером невозможно. Кроме того, веб-приложения, выполняемые в контейнере, не могут быть достигнуты, и контейнер не может обновлять пакеты из apt.

Чтобы устранить проблему, необходимо перенастроить Docker, чтобы использовать пространство IP-адресов для сети моста, которая не перекрывается с другими сетями вашей подписки. Например, при добавлении

"default-address-pools": [
        {
            "base": "10.255.248.0/21",
            "size": 21
        }
    ]

/etc/docker/daemon.json в JSON-файл Docker назначает другую подсеть сети моста. Необходимо изменить файл с помощью sudo, например, выполнив команду sudo nano /etc/docker/daemon.json.

После изменения запустите service docker restart , чтобы перезапустить службу Docker. Чтобы определить, вступили ли в силу изменения, можно выполнить docker network inspect bridge. Значение в IPAM. Config.Subnet должен соответствовать указанному ранее пулу адресов.

GPU недоступны в контейнере docker

Ресурс Docker, установленный на DSVM, поддерживает графические процессоры по умолчанию. Однако для этой поддержки требуются определенные предварительные требования.

  • Размер виртуальной машины DSVM должен содержать по крайней мере один GPU.
  • При запуске контейнера docker runDocker необходимо добавить параметр --gpus: например. --gpus all
  • Размеры виртуальных машин, включая GPU NVIDIA A100, требуют установки других программных пакетов, особенно nvidia Fabric Manager. Эти пакеты могут не быть предварительно установлены в образе.

Windows

Виртуальная машина 2-го поколения (Gen 2) не работает

При попытке создать виртуальную машину Обработка и анализ данных на основе виртуальной машины поколения 2 (2-го поколения) она завершается ошибкой.

В настоящее время мы поддерживаем и предоставляем образы для Виртуальная машина для обработки и анализа данных (DSVMs) на базе Windows 2019 Server только для виртуальных машин DSVM поколения 1. 2-го поколения пока не поддерживаются, но мы планируем поддержать их в ближайшем будущем.

Доступ к SQL Server

При попытке подключиться к предварительно установленному экземпляру SQL Server может возникнуть ошибка "сбой входа". Чтобы успешно подключиться к экземпляру SQL Server, необходимо запустить программу, к которой требуется подключиться ( например, SQL Server Management Studio (SSMS) в режиме администратора. Режим администратора необходим, так как по умолчанию dsVM может подключаться только администраторы.

Hyper-V не работает

Как ожидается, поведение Hyper-V изначально не работает в Windows. Для повышения производительности мы отключили некоторые службы. Чтобы включить Hyper-V:

  1. Откройте панель поиска на виртуальной машине Windows для обработки и анализа данных
  2. Введите в поисковое поле: "Services".
  3. Задайте для всех служб Hyper-V значение "Вручную"
  4. Задайте для параметра "Управление виртуальными машинами Hyper-V" значение "Автоматически".

Итоговое окно должно выглядеть следующим образом:

Снимок экрана: запущенная служба Hyper-V.