Поделиться через


Рекомендации по управлению для рабочих нагрузок ИИ в инфраструктуре Azure (IaaS)

В этой статье приведены рекомендации по управлению для организаций, работающих с рабочими нагрузками искусственного интеллекта в инфраструктуре Azure (IaaS). Эффективное управление рабочими нагрузками искусственного интеллекта в Azure требует непрерывного мониторинга, оптимизации и строгой стратегии резервного копирования и восстановления. Эти усилия сокращают время простоя и обеспечивают надежность в операциях искусственного интеллекта.

Мониторинг инфраструктуры искусственного интеллекта

Мониторинг инфраструктуры искусственного интеллекта включает отслеживание и оценку производительности, работоспособности и доступности всех компонентов в развертывании ИИ в Azure IaaS. Упреждающий мониторинг позволяет организациям обнаруживать и устранять потенциальные проблемы, прежде чем они влияют на операции.

  • Убедитесь, что мониторинг по умолчанию. Разверните необходимых агентов Azure Monitor для виртуальных машин и масштабируемых наборов виртуальных машин Azure, включая подключенные серверы Azure Arc. Подключите их к центральной рабочей области Log Analytics в подписке управления. Рассмотрите возможность использования базовых оповещений Azure Monitor (AMBA).

  • Используйте Диспетчер обновлений Azure. Вы можете отслеживать соответствие обновлений Windows и Linux на компьютерах в Azure и локальной среде или на других облачных платформах (подключенных к Azure Arc) с одной панели управления. Вы также можете использовать Диспетчер обновлений, чтобы устанавливать обновления в реальном времени или планировать их в течение определенного периода обслуживания.

  • Мониторинг виртуальных машин. Мониторинг данных узла виртуальной машины (физического узла) и гостевых данных виртуальной машины (операционной системы и приложения). Рассмотрите возможность использования VM Insights для упрощения подключения, доступа к предопределенным диаграммам производительности и использования сопоставления зависимостей. Отслеживайте вытеснение точечных виртуальных машин и события обслуживания, чтобы эффективно управлять прерываниями. Дополнительные сведения о запланированных событиях.

  • Мониторинг сетей. Мониторинг и диагностика проблем с сетью без входа в виртуальные машины. Получение сведений о производительности в режиме реального времени на уровне пакета. Устранение проблем с производительностью с помощью средства диагностики производительности. Отслеживание топологии, работоспособности и метрик для всех развернутых сетевых ресурсов.

  • Мониторинг хранилища. Отслеживайте производительность хранилища, например локальные диски SSD, подключенные диски, общие папки и учетные записи хранения Azure.

  • Используйте возможности мониторинга оркестратора (если применимо). Рассмотрите возможность использования встроенных возможностей мониторинга оркестраторов, таких как Azure CycleCloud, пакетная служба Azure и Служба Azure Kubernetes (AKS). Следуйте указаниям для выбранного оркестратора:

    • Azure CycleCloud или Рабочая область Azure CycleCloud для Slurm: отслеживание ЦП, диска и сетевых метрик. Сохраните данные из кластеров Azure CycleCloud в Log Analytics и создайте пользовательские панели мониторинга метрик. Дополнительные сведения см. в разделе "Мониторинг Azure CycleCloud". Проверки работоспособности узлов — это набор автоматических тестов, чтобы обеспечить работоспособность оборудования HPC/AI. Эту проверку можно выполнить в Azure CycleCloud в рамках развертывания кластера или отдельно с помощью инструкций репозитория GitHub. Убедитесь, что вы обратите внимание на матрицу совместимости в документации. Запустите в нужном месте, чтобы убедиться, что перед запуском рабочих нагрузок ИИ определите все неработоспособные узлы.

    • пакетная служба Azure: Сбор метрик заданий и задач, таких как активные задачи, длительность задачи, время начала задания, длительность, время начала задачи. Также собираются метрики пула, такие как неактивные узлы, запущенные узлы, использование ЦП, операции ввода-вывода диска. Дополнительные сведения см. в разделе пакетная служба Azure мониторинга.

    • Служба Azure Kubernetes. Используйте Azure Monitor для контейнеров. Мониторинг производительности pod, работоспособности узлов и использования ресурсов. Настройте оповещения и пользовательские панели мониторинга.

Управление непрерывностью бизнес-процессов и аварийное восстановление

Управление непрерывностью бизнес-процессов и аварийное восстановление для приложений ИИ в Azure гарантирует, что организации могут быстро восстанавливаться после сбоев. Реализуя такие стратегии, как репликация в режиме реального времени, автоматическое восстановление и регулярное резервное копирование, организации защищают инфраструктуру искусственного интеллекта от потери данных и оперативного простоя.

  • Используйте Azure Site Recovery. Site Recovery использует репликацию в режиме реального времени и автоматизацию восстановления для репликации рабочих нагрузок между регионами. Встроенные возможности платформы для рабочих нагрузок виртуальных машин соответствуют низким требованиям RPO и RTO. Site Recovery можно использовать для выполнения детализации восстановления без влияния на производственные рабочие нагрузки. Кроме того, можно использовать Политику Azure, чтобы включить репликацию и выполнить аудит защиты виртуальной машины.

  • Используйте возможности оркестратора (если применимо). Используйте оркестратор для восстановления неудачных вычислительных узлов. Например, настройте пакетная служба Azure автоматически повторять задачи при сбое.

  • Планирование резервных копий. Определите, нужно ли создавать добавочные изменения в наборах данных и моделях ежедневно или еженедельно. Резервные копии также могут включать базы данных или целые наборы данных.

  • Обеспечение соответствия данным. Убедитесь, что стратегия резервного копирования соответствует нормативным требованиям по защите данных. Соблюдайте требования к месту расположения данных и храните резервные копии в соответствующих географических расположениях.

  • Создание моментальных снимков. Вы можете использовать возможности планировщика для создания моментальных снимков. Например, CycleCloud может создавать моментальные снимки базового хранилища данных приложения в качестве точек восстановления.

Следующий шаг