Рекомендации по управлению для рабочих нагрузок ИИ в инфраструктуре Azure (IaaS)
В этой статье приведены рекомендации по управлению для организаций, работающих с рабочими нагрузками искусственного интеллекта в инфраструктуре Azure (IaaS). Эффективное управление рабочими нагрузками искусственного интеллекта в Azure требует непрерывного мониторинга, оптимизации и строгой стратегии резервного копирования и восстановления. Эти усилия сокращают время простоя и обеспечивают надежность в операциях искусственного интеллекта.
Мониторинг инфраструктуры искусственного интеллекта
Мониторинг инфраструктуры искусственного интеллекта включает отслеживание и оценку производительности, работоспособности и доступности всех компонентов в развертывании ИИ в Azure IaaS. Упреждающий мониторинг позволяет организациям обнаруживать и устранять потенциальные проблемы, прежде чем они влияют на операции.
Убедитесь, что мониторинг по умолчанию. Разверните необходимых агентов Azure Monitor для виртуальных машин и масштабируемых наборов виртуальных машин Azure, включая подключенные серверы Azure Arc. Подключите их к центральной рабочей области Log Analytics в подписке управления. Рассмотрите возможность использования базовых оповещений Azure Monitor (AMBA).
Используйте Диспетчер обновлений Azure. Вы можете отслеживать соответствие обновлений Windows и Linux на компьютерах в Azure и локальной среде или на других облачных платформах (подключенных к Azure Arc) с одной панели управления. Вы также можете использовать Диспетчер обновлений, чтобы устанавливать обновления в реальном времени или планировать их в течение определенного периода обслуживания.
Мониторинг виртуальных машин. Мониторинг данных узла виртуальной машины (физического узла) и гостевых данных виртуальной машины (операционной системы и приложения). Рассмотрите возможность использования VM Insights для упрощения подключения, доступа к предопределенным диаграммам производительности и использования сопоставления зависимостей. Отслеживайте вытеснение точечных виртуальных машин и события обслуживания, чтобы эффективно управлять прерываниями. Дополнительные сведения о запланированных событиях.
Мониторинг сетей. Мониторинг и диагностика проблем с сетью без входа в виртуальные машины. Получение сведений о производительности в режиме реального времени на уровне пакета. Устранение проблем с производительностью с помощью средства диагностики производительности. Отслеживание топологии, работоспособности и метрик для всех развернутых сетевых ресурсов.
Мониторинг хранилища. Отслеживайте производительность хранилища, например локальные диски SSD, подключенные диски, общие папки и учетные записи хранения Azure.
Используйте возможности мониторинга оркестратора (если применимо). Рассмотрите возможность использования встроенных возможностей мониторинга оркестраторов, таких как Azure CycleCloud, пакетная служба Azure и Служба Azure Kubernetes (AKS). Следуйте указаниям для выбранного оркестратора:
Azure CycleCloud или Рабочая область Azure CycleCloud для Slurm: отслеживание ЦП, диска и сетевых метрик. Сохраните данные из кластеров Azure CycleCloud в Log Analytics и создайте пользовательские панели мониторинга метрик. Дополнительные сведения см. в разделе "Мониторинг Azure CycleCloud". Проверки работоспособности узлов — это набор автоматических тестов, чтобы обеспечить работоспособность оборудования HPC/AI. Эту проверку можно выполнить в Azure CycleCloud в рамках развертывания кластера или отдельно с помощью инструкций репозитория GitHub. Убедитесь, что вы обратите внимание на матрицу совместимости в документации. Запустите в нужном месте, чтобы убедиться, что перед запуском рабочих нагрузок ИИ определите все неработоспособные узлы.
пакетная служба Azure: Сбор метрик заданий и задач, таких как активные задачи, длительность задачи, время начала задания, длительность, время начала задачи. Также собираются метрики пула, такие как неактивные узлы, запущенные узлы, использование ЦП, операции ввода-вывода диска. Дополнительные сведения см. в разделе пакетная служба Azure мониторинга.
Служба Azure Kubernetes. Используйте Azure Monitor для контейнеров. Мониторинг производительности pod, работоспособности узлов и использования ресурсов. Настройте оповещения и пользовательские панели мониторинга.
Управление непрерывностью бизнес-процессов и аварийное восстановление
Управление непрерывностью бизнес-процессов и аварийное восстановление для приложений ИИ в Azure гарантирует, что организации могут быстро восстанавливаться после сбоев. Реализуя такие стратегии, как репликация в режиме реального времени, автоматическое восстановление и регулярное резервное копирование, организации защищают инфраструктуру искусственного интеллекта от потери данных и оперативного простоя.
Используйте Azure Site Recovery. Site Recovery использует репликацию в режиме реального времени и автоматизацию восстановления для репликации рабочих нагрузок между регионами. Встроенные возможности платформы для рабочих нагрузок виртуальных машин соответствуют низким требованиям RPO и RTO. Site Recovery можно использовать для выполнения детализации восстановления без влияния на производственные рабочие нагрузки. Кроме того, можно использовать Политику Azure, чтобы включить репликацию и выполнить аудит защиты виртуальной машины.
Используйте возможности оркестратора (если применимо). Используйте оркестратор для восстановления неудачных вычислительных узлов. Например, настройте пакетная служба Azure автоматически повторять задачи при сбое.
Планирование резервных копий. Определите, нужно ли создавать добавочные изменения в наборах данных и моделях ежедневно или еженедельно. Резервные копии также могут включать базы данных или целые наборы данных.
Обеспечение соответствия данным. Убедитесь, что стратегия резервного копирования соответствует нормативным требованиям по защите данных. Соблюдайте требования к месту расположения данных и храните резервные копии в соответствующих географических расположениях.
Создание моментальных снимков. Вы можете использовать возможности планировщика для создания моментальных снимков. Например, CycleCloud может создавать моментальные снимки базового хранилища данных приложения в качестве точек восстановления.