Поделиться через


Устранение неполадок при развертывании виртуальной машины в GPU Azure Stack Edge Pro

ОБЛАСТЬ ПРИМЕНЕНИЯ: Да для SKU GPU ProAzure Stack Edge Pro — GPUДа для SKU Pro 2Azure Stack Edge Pro 2Да для SKU R ProAzure Stack Edge Pro RДа для номера SKU Mini RAzure Stack Edge Mini R

Из этой статьи вы узнаете, как устранять распространенные ошибки при развертывании виртуальных машин на GPU-устройстве Azure Stack Edge Pro. В ней также приведены рекомендации по исследованию наиболее распространенных проблем, приводящих к истечению времени ожидания при подготовке виртуальной машины и возникновению проблем во время создания сетевого интерфейса и виртуальной машины.

Чтобы диагностировать сбой подготовки виртуальных машин, просмотрите гостевые журналы для неудачной виртуальной машины. Инструкции по сбору гостевых журналов виртуальных машин и их включению в пакет поддержки см. в статье о сборе гостевых журналов для виртуальных машин в Azure Stack Edge Pro.

Руководство по решению проблем, препятствующих успешной загрузке образа виртуальной машины перед развертыванием виртуальной машины, см. в статье Устранение неполадок при отправке образа виртуальной машины в GPU Azure Stack Edge Pro.

Время ожидания подготовки виртуальной машины

В этом разделе содержатся сведения об устранении причин наиболее распространенных проблем с истечением времени ожидания при подготовке виртуальной машины.

При истечении времени ожидания во время подготовки виртуальной машины отображается следующая ошибка:

Снимок экрана: ошибка на портале Azure при истечении времени подготовки виртуальной машины в Azure Stack.

Ниже перечислены основные причины истечения времени ожидания при подготовке виртуальной машины.

  • IP-адрес, назначенный виртуальной машине, уже используется. Подробнее
  • Образ, использованный для развертывания виртуальной машины, неправильно подготовлен. Подробнее
  • Гостевой виртуальной машине не удалось получить доступ к стандартному шлюзу и DNS-серверу. Подробнее
  • Во время установки cloud init средство cloud init не запустилось, либо же проблемы возникли во время выполнения. (Только для виртуальных машин Linux) Дополнительные сведения
  • Для виртуальной машины Linux, развернутой с помощью пользовательского образа виртуальной машины, флаги подготовки в файле /etc/waagent.conf не верны. (Только для виртуальных машин Linux) Дополнительные сведения
  • Основной сетевой интерфейс, подключенный к виртуальному коммутатору с поддержкой SRIOV, см. дополнительные сведения

IP-адрес, назначенный виртуальной машине, уже используется

Описание ошибки. Виртуальной машине назначен уже используемый статический IP-адрес, поэтому подготовка виртуальной машины завершилась сбоем. Эта ошибка возникает, если IP-адрес уже используется в подсети, в которой вы развернули виртуальную машину. В процессе развертывания виртуальной машины с помощью портала Azure выполняется проверка на наличие такого же IP-адреса на устройстве, однако проверить IP-адреса других служб или виртуальных машин, которые также могут находиться в вашей подсети, этому процессу не удастся.

Предлагаемое решение: используйте статический IP-адрес, который не используется, или используйте динамический IP-адрес, предоставленный DHCP-сервером.

Чтобы выполнить проверку на наличие повторяющихся IP-адресов, сделайте следующее:

  • Выполните приведенные ниже команды ping и Test-NetConnection (tnc) с любого устройства в одной сети:

    ping <IP address>
    tnc <IP address>
    tnc <IP address> -CommonTCPPort “RDP”
    

Если вы получили ответ, IP-адрес, назначенный виртуальной машине, уже используется.

Образ виртуальной машины подготовлен неправильно

Описание ошибки. Чтобы подготовить образ виртуальной машины для использования на GPU-устройстве Azure Stack Edge Pro, необходимо выполнить конкретный рабочий процесс. Вы должны создать виртуальную машину 1-го поколения в Azure, настроить ее, подготовить VHD к использованию, а затем загрузить виртуальный жесткий диск ОС для этой виртуальной машины. Подготовленный образ должен быть виртуальным жестким диском 1-го поколения, иметь расширение файла vhd и фиксированный тип.

Общие сведения о требованиях см. в статье Создание пользовательских образов виртуальных машин для GPU-устройства Azure Stack Edge Pro. Рекомендации по устранению проблем с образами виртуальных машин см. в статье Устранение неполадок при отправке образов виртуальных машин в GPU Azure Stack Edge Pro.

Предлагаемое решение. Завершите рабочий процесс для подготовки образа виртуальной машины. Соответствующее руководство см. в одной из следующих статей:

Гостевой виртуальной машине не удалось получить доступ к шлюзу и DNS-серверу

Описание ошибки. Если шлюз по умолчанию и DNS-сервер не могут быть достигнуты во время развертывания виртуальной машины, время ожидания подготовки виртуальной машины и развертывание виртуальной машины завершается сбоем.

Предлагаемое решение. Убедитесь, что виртуальной машине удается получить доступ к стандартному шлюзу и DNS-серверу. Затем повторите развертывание виртуальной машины.

Чтобы убедиться, что стандартный шлюз и DNS-сервер доступны для виртуальной машины, выполните следующие действия.

  1. Подключитесь к виртуальной машине.

  2. Выполните следующие команды:

    ping <default gateway IP address>
    ping <DNS server IP address>
    

    Чтобы узнать IP-адреса для стандартных шлюза и DNS-серверов, перейдите в локальный пользовательский интерфейс своего устройства. Выберите нужный порт и ознакомьтесь с параметрами сети.

    Снимок экрана: страница сети для устройства Azure Stack Edge с параметрами сети для порта 2.

Проблемы с cloud init (виртуальные машины Linux)

Описание ошибки: cloud init не выполнялось или возникали проблемы во время cloud init выполнения. Средство cloud-init позволяет настроить виртуальную машину Linux при ее первой загрузке. Дополнительные сведения см. в статье Поддержка cloud-init для виртуальных машин в Azure.

Предлагаемые решения. Чтобы определить проблемы, возникающие при запуске cloud init, выполните следующие действия.

  1. Подключитесь к виртуальной машине.

  2. Выполните проверку на наличие ошибок cloud init в следующих файлах журнала:

    • /var/log/cloud-init-output.log
    • /var/log/cloud-init.log
    • /var/log/waagent.log

Чтобы выполнить проверку на наличие некоторых наиболее распространенных проблем, препятствующих успешному запуску cloud init, выполните следующие действия:

  1. Убедитесь, что образ виртуальной машины основан на cloud init. Выполните следующую команду:

    cloud-init --version

    Команда должна возвращать номер версии cloud init. Если образ не cloud initоснован, команда не вернет сведения о версии.

    Чтобы получить справку по параметрам cloud init, выполните следующую команду:

    cloud-init --help

  2. Убедитесь, что экземпляр cloud init может успешно выполняться, используя в качестве источника данных Azure.

    Если в качестве источника данных используется Azure, запись в журналах cloud init будет выглядеть примерно так:

    Иллюстрация записи журнала cloud-init для образа виртуальной машины с набором источника данных в Azure. Выделенный текст.

    Если источник данных не задан в Azure, может потребоваться изменить cloud init сценарий. Дополнительные сведения см. в статье Углубленное изучение cloud-init.

Флаги подготовки заданы неправильно (виртуальные машины Linux)

Описание ошибки. Чтобы обеспечить успешное развертывание виртуальной машины Linux в Azure, вам понадобится отключить подготовку для образа и включить подготовку с помощью cloud init. Для стандартных образов виртуальных машин флаги подготовки, задающие эти значения, уже настроены правильно. Но, если вы используете пользовательский образ виртуальной машины, правильность этих параметров нужно проверять.

Предлагаемое решение. Убедитесь, что флаги подготовки в файле /etc/waagent.conf имеют следующие значения:

Возможность Обязательное значение
Включение подготовки Provisioning.Enabled=n
Использование cloud-init для подготовки Provisioning.UseCloudInit=y

Основной сетевой интерфейс, подключенный к виртуальному коммутатору с поддержкой SRIOV

Описание ошибки. Основной сетевой интерфейс, подключенный к одному корневому виртуальному коммутатору виртуализации ввода-вывода (SRIOV), вызвал сетевой трафик для обхода Hyper-V, поэтому узел не мог получать DHCP-запросы от виртуальной машины, что привело к истечении времени ожидания подготовки.

Предлагаемые решения:

  • Подключите основной сетевой интерфейс виртуальной машины к виртуальному коммутатору без включения ускорения сети.

  • На устройстве Azure Stack Edge Pro 1 виртуальные коммутаторы, созданные на порте 1 до порта 4, не позволяют ускорить сеть. В порте 5 или порте 6 виртуальные коммутаторы позволяют ускорить сеть по умолчанию.

  • На устройстве Azure Stack Edge Pro 2 виртуальные коммутаторы, созданные в порте 1 или порту 2, не позволяют ускорить сеть. В порте 3 или порте 4 виртуальные коммутаторы позволяют ускорить сеть по умолчанию.

Проблемы при создании сетевого интерфейса

В этом разделе приведены рекомендации по решению проблем, которые приводят к сбою при создании сетевого интерфейса во время развертывания виртуальной машины.

Время ожидания при создании сетевого адаптера

Описание ошибки. Создание сетевого интерфейса на виртуальной машине не завершилось в течение допустимого периода ожидания. К этой ошибке могли привести проблемы с сервером DHCP в вашем окружении.

Чтобы проверить, успешно ли создан сетевой интерфейс, выполните следующие действия.

  1. На портале Azure перейдите к ресурсу Azure Stack Edge для вашего устройства (перейдите в раздел Edge Services(Службы Edge) >Виртуальные машины). Затем выберите пункт Развертывания и перейдите к развертыванию виртуальной машины.

  2. Если сетевой интерфейс не был создан успешно, вы увидите следующую ошибку.

    Снимок экрана: ошибка на портале Azure при сбое создания сетевого интерфейса во время развертывания виртуальной машины на устройстве Azure Stack Edge.

Предлагаемое решение. Создайте виртуальную машину еще раз и назначьте ей статический IP-адрес.

Проблемы при создании виртуальной машины

В этом разделе рассматриваются распространенные проблемы, которые могут возникнуть при создании виртуальной машины.

Сбой при создании виртуальной машины

Описание ошибки. Если у вас есть образ Marketplace, созданный с помощью Azure Stack Edge ранее 2403, а затем создайте виртуальную машину из существующего образа Marketplace, создание виртуальной машины завершается сбоем, так как Azure Stack Edge 2407 изменил путь загрузки образа Marketplace.

Предлагаемое решение: выполните следующие действия, чтобы удалить существующий образ Marketplace, а затем создать новый образ Marketplace из портал Azure.

  1. Из портал Azure удалите существующий образ Marketplace.

    1. Вывод списка приемов и задания приема BLOBDownload для образа Marketplace. Выполните следующие действия, чтобы подключиться к Azure Resource Manager.

      Выполните следующий скрипт для перечисления заданий приема:

      Укажите идентификатор подписки в следующем URI:

      $uri 1 = "https://management.appliance name. Dns domain/subscriptions/sid/providers/Microsoft.AzureBridge/location/DBELocal/ingestionJobs/?api-version=2022-03-01"

      Function Get-AzCachedAccessToken() 
      {
      $ErrorActionPreference = 'Stop' 
      $azureRmProfile = [Microsoft.Azure.Commands.Common.Authentication.Abstractions.AzureRmProfileProvider]::Instance.Profile 
      $currentAzureContext = Get-AzContext 
      $profileClient = New-Object Microsoft.Azure.Commands.ResourceManager.Common.RMProfileClient($azureRmProfile) 
      Write-Debug ("Getting access token for tenant" + $currentAzureContext.Subscription.TenantId) 
      $token = $profileClient.AcquireAccessToken($currentAzureContext.Subscription.TenantId) 
      $token.AccessToken 
      } 
      
      $token = Get-AzCachedAccessToken 
      $headers = @{Authorization = "Bearer $token"; "Content-Type" = "application/json" } 
      $v = Invoke-RestMethod -Method Get -Uri $uri1 -Headers $headers 
      v.value
      
    2. Найдите имя задания приема = Marketplace image sku name и тип = BlobDownload.

      Пример: имя задания приема = Ubuntu-18-04 и тип = BlobDownload.

      Снимок экрана: пример синтаксиса для поиска имени задания приема.

  2. Если задание приема найдено на шаге 1, выполните следующие действия, чтобы удалить задание приема и удалить изображение. Например, имя задания приема в приведенном выше примере.ubuntu-18-04 Кроме того, Subscription ID в Resource group примере можно найти имя.

    $uri2 = "https://management.<appliance name>.<DNS domain>/subscriptions/sid/resourceGroups/rgname/providers/Microsoft.AzureBridge/locations/dbelocal/ingestionJobs/<ingestion job name>?api-version=2018-06-01" 
    
    Invoke-RestMethod -Method DELETE -Uri $uri2 -Headers $headers
    
  3. Выполните действия, чтобы создать образ виртуальной машины из Azure Marketplace.

Недостаточно памяти для создания виртуальной машины

Описание ошибки. При сбое создания виртуальной машины из-за нехватки памяти вы увидите следующую ошибку.

Снимок экрана: ошибка на портале Azure при сбое создания виртуальной машины на устройстве Azure Stack Edge.

Предлагаемое решение. Проверьте объем доступной памяти на устройстве и соответствующим образом выберите размер виртуальной машины. Дополнительные сведения см. в разделе Поддерживаемые размеры виртуальных машин для Azure Stack Edge.

Объем памяти, доступный для развертывания виртуальной машины, ограничивается несколькими факторами:

  • Объем доступной памяти на устройстве. Дополнительные сведения о вычислительных характеристиках и характеристиках памяти см. в описаниях технических характеристик GPU Azure Stack Edge Pro и Azure Stack Edge Mini R.

  • Если вы используете Kubernetes, то это — объем памяти для вычислений, необходимый для Kubernetes и приложений в кластере Kubernetes.

  • Дополнительные затраты на каждую виртуальную машину в Hyper-V.

Предлагаемые решения:

  • Используйте размер виртуальной машины, для которого нужно меньше памяти.
  • Остановите неиспользуемые виртуальные машины на портале, прежде чем развертывать новую виртуальную машину.
  • Удалите виртуальные машины, которые больше не используются.

Недостаточное количество GPU для создания виртуальной машины GPU

Если вы попытаетесь развернуть виртуальную машину на устройстве GPU с поддержкой Kubernetes, не доступны графические процессоры, а подготовка виртуальных машин завершается сбоем со следующей ошибкой:

Снимок экрана: ошибка на портале Azure при сбое создания виртуальной машины с GPU из-за отсутствия доступных графических процессоров на устройстве Azure Stack Edge.

Возможные причины. Если Kubernetes включен до создания виртуальной машины, Kubernetes использует все доступные GPU, и вы не сможете создавать виртуальные машины с размером GPU. Вы сможете создать столько виртуальных машин с размером GPU, сколько доступно процессоров GPU. Устройство Azure Stack Edge может иметь 1 или 2 GPU.

Предлагаемое решение. Ознакомьтесь со сведениями о вариантах развертывания виртуальных машин на устройстве с 1 GPU или 2 GPU и настроенной платформе Kubernetes в разделе о виртуальных машинах GPU и Kubernetes.

Следующие шаги