Рекомендации по сети для рабочих нагрузок ИИ в инфраструктуре Azure (IaaS)
В этой статье приведены рекомендации по сети для организаций, на которых выполняются рабочие нагрузки искусственного интеллекта в инфраструктуре Azure (IaaS). Проектирование хорошо оптимизированной сети может повысить скорость обработки данных, уменьшить задержку и обеспечить масштабирование сетевой инфраструктуры вместе с растущими требованиями искусственного интеллекта.
Обеспечение достаточной пропускной способности
Достаточная пропускная способность относится к емкости сети для обработки больших объемов данных без задержек или прерываний. Высокая пропускная способность обеспечивает быструю, бесперебойную передачу данных между локальными системами и Azure, поддерживая быстрое обучение модели ИИ и уменьшая время простоя в конвейере. Для организаций, которые передают большие наборы данных из локальной среды в облако для обучения модели искусственного интеллекта, важно подключение с высокой пропускной способностью. Используйте Azure ExpressRoute для создания выделенного, безопасного и надежного высокоскоростного подключения между локальной сетью и Azure.
Минимизация задержки
Минимизация задержки включает сокращение задержек в передаче данных между сетевыми ресурсами. Низкая задержка обеспечивает быструю обработку данных, включение аналитических сведений в режиме реального времени и повышение производительности рабочих нагрузок с учетом задержки.
Оптимизация размещения ресурсов. Чтобы свести к минимуму задержку для рабочих нагрузок ИИ, таких как предварительная обработка данных, обучение модели и вывод, развертывание виртуальных машин в одном регионе Или зоне доступности Azure. Совместное размещение ресурсов сокращает физическое расстояние, что повышает производительность сети.
Используйте группы размещения близкого взаимодействия (PPG). Для рабочих нагрузок с учетом задержки, требующих обработки в режиме реального времени или быстрого взаимодействия между процессами, используйте PPG для физического колочения ресурсов в центре обработки данных Azure. PPG гарантирует, что вычислительные ресурсы, хранилища и сетевые ресурсы остаются близкими, минимизируя задержку для требовательных рабочих нагрузок. Решения оркестрации и InfiniBand автоматически обрабатывают близкое расположение узлов.
Используйте предварительно настроенные образы ОС Linux. Упрощение развертывания кластера путем выбора образов ОС Linux из предварительно упакованой версии Azure Marketplace с драйверами InfiniBand, драйверами NVIDIA, библиотеками коммуникации и средствами мониторинга. Эти образы оптимизированы для производительности и могут быть развернуты с помощью Azure CycleCloud для быстрого и эффективного создания кластера.
Реализация высокопроизводительной сети
Высокопроизводительная сеть использует расширенные сетевые функции для поддержки крупномасштабных, интенсивных вычислений ИИ, особенно для задач с ускорением GPU. Высокопроизводительные сети обеспечивают быстрый, эффективный обмен данными между графическими процессорами, что оптимизирует обучение моделей и ускоряет циклы разработки ИИ.
Используйте InfiniBand для рабочих нагрузок GPU. Для рабочих нагрузок, зависящих от ускорения GPU и распределенного обучения по нескольким GPU, используйте сеть InfiniBand Azure. Возможность удаленного прямого доступа к памяти (RDMA) InfiniBand в InfiniBand поддерживает прямую связь с GPU и GPU. Это повышает скорость передачи данных и эффективность обучения модели. Решения оркестрации, такие как Azure CycleCloud и пакетная служба Azure, обрабатывают конфигурацию сети InfiniBand при использовании соответствующих номеров SKU виртуальных машин.
Выберите оптимизированные для GPU виртуальные машины Azure. Выберите виртуальные машины, использующие InfiniBand, такие как виртуальные машины серии ND, предназначенные для высокой пропускной способности, низкой задержки взаимодействия между GPU. Эта конфигурация необходима для масштабируемого распределенного обучения и вывода, что позволяет ускорить обмен данными между GPU.
Оптимизация для обработки крупномасштабных данных
Оптимизация для обработки крупномасштабных данных включает стратегии управления обширными передачами данных и высокими вычислительными нагрузками. Используя параллелизм данных и моделей, вы можете масштабировать рабочие нагрузки ИИ и повысить скорость обработки. Используйте оптимизированные для GPU виртуальные машины Azure для обработки сложных рабочих нагрузок ИИ с большим объемом данных.
Применение методов параллелизма данных или моделей. Чтобы управлять обширной передачей данных по нескольким GPU, реализуйте параллелизм данных или параллелизм моделей в зависимости от потребностей рабочей нагрузки ИИ. Обеспечьте использование памяти высокой пропускной способности (HBM), которая идеально подходит для высокопроизводительных рабочих нагрузок из-за высокой пропускной способности, низкой энергопотребления и компактных конструкций. HBM поддерживает быструю обработку данных, необходимую для рабочих нагрузок ИИ, требующих обработки больших наборов данных.
Используйте расширенные возможности сети GPU. Для требовательных сценариев ИИ выберите виртуальные машины Azure, такие как NDH100v5 и NDMI300Xv5. Azure настраивает эти виртуальные машины с выделенными подключениями NVIDIA Quantum-2 CX7 InfiniBand в масштабируемых наборах виртуальных машин. Эти подключения поддерживают GPU Direct RDMA, обеспечивая прямую передачу данных GPU в GPU, что снижает задержку и повышает общую производительность системы.