Акселератор целевой зоны azure с высокой производительностью (HPC)

Статья
10/10/2023

Ускоритель высокопроизводительных вычислений (HPC) для целевой зоны автоматизирует развертывание среды. Эта среда предоставляет базовую платформу, которую можно настроить для создания комплексного механизма развертывания для полного решения кластера HPC в Azure. Акселератор — это коллекция скриптов с открытым исходным кодом и шаблонов, которые могут подготовить целевые зоны корпоративного масштаба. Он может обеспечить конкретный архитектурный подход и эталонную реализацию, которая соответствует архитектуре и рекомендациям платформы Cloud Adoption Framework.

Клиенты принимают HPC различными способами, чтобы удовлетворить свои бизнес-потребности, и вы можете адаптировать акселератор целевой зоны HPC для создания архитектуры, которая соответствует вашему пути. Использование акселератора помогает разместить организацию на пути к устойчивому масштабированию.

Реализация целевой зоны корпоративного масштаба

Акселератор целевой зоны HPC предполагает, что вы начинаете с корпоративной целевой зоны, которая успешно реализована. Дополнительные сведения об этом условии см. в следующих статьях:

Что предоставляет акселератор целевой зоны HPC

Подход к целевым зонам акселератора целевой зоны HPC предоставляет следующие ресурсы для проекта:

Модульный подход, позволяющий настраивать переменные среды.
Рекомендации по проектированию для оценки критических решений.
Архитектура целевой зоны
Реализация, которая включает в себя:
- Развернутая ссылка, способная создать среду для развертывания HPC
- Эталонная реализация HPC, утвержденная корпорацией Майкрософт, для тестирования развернутой среды

Рекомендации по проектированию энергии, производства и финансов

Архитектура целевых зон зависит от бизнес-сектора в дополнение к различным по организации. В этом разделе перечислены статьи по секторам, которые предоставляют рекомендации по созданию целевой зоны:

Рекомендации по проектированию для выбора вычислений HPC для рабочих нагрузок искусственного интеллекта

Выбор правильного номера SKU оптимизированного для GPU вычислений для рабочих нагрузок ИИ важен для оптимизации производительности и управления затратами. Корпорация Майкрософт предлагает множество различных номеров SKU, оптимизированных для рабочих нагрузок, которые пользуются большей мощностью GPU. При выборе подходящего номера SKU для рабочих нагрузок ИИ следует учитывать несколько рекомендаций. Небольшие рабочие нагрузки могут использовать только часть ЦП, GPU и пропускной способности более мощных номеров SKU, таких как NDv4. Вы можете рассмотреть другие номера SKU вычислений, такие как NCv4 и NDv2 для небольших заданий. Ниже приведены некоторые рекомендации по выбору правильного номера SKU оптимизированного для GPU вычислений для рабочих нагрузок ИИ:

Контрольная точка. Учитывайте такие факторы, как интервал проверка точки при запуске моделей машинного обучения. Это может повлиять на производительность GPU на этапе обучения. Наведите баланс между эффективностью хранилища и обслуживанием гладких операций GPU. Отслеживайте использование GPU.
Формирования. Требования к выводу отличаются от требований к обучению с возможной более высокой нагрузкой ЦП, которая может максимально повысить производительность ЦП. При выборе номера SKU вычислений учитывайте требования к выводу модели. Мониторинг использования ЦП.
Обучение. Учитывайте требования модели во время обучения, отслеживая использование ЦП и GPU.
Размер задания. При рассмотрении номера SKU вычислений для рабочих нагрузок ИИ рассмотрите размер задания. Небольшие задания, такие как приблизительно OPT 1.3B, могут не использовать более крупные размеры SKU и могут оставить ЦП и gpu питание бездействие в зависимости от этапа задания (вывод, обучение).
Пропускной способности. Более большая, низкая пропускная способность задержки может быть затратами, если они не используются. Рассмотрим InfiniBand только для самых больших моделей, которые потребуют дополнительной пропускной способности.

Просмотр оптимизированных размеров виртуальных машин в Gpu Azure.

Пример: концептуальная эталонная архитектура для энергии

Следующая концептуальная эталонная архитектура — это пример, показывающий области проектирования и рекомендации по использованию энергетических сред.

Пример: концептуальная эталонная архитектура для финансирования

Следующая концептуальная эталонная архитектура — это пример, показывающий области проектирования и рекомендации по финансовым средам.

Пример: концептуальная эталонная архитектура для производства

Следующая концептуальная эталонная архитектура — это пример, показывающий области проектирования и рекомендации по производственным средам.

Получение акселератора целевой зоны HPC

Ускоритель целевой зоны HPC доступен на сайте GitHub: Azure HPC OnDemand Platform Accelerator

Следующие шаги

Рекомендации и рекомендации по архитектуре акселератора целевой зоны HPC см. в критически важных областях проектирования акселератора целевой зоны HPC в Службе управления удостоверениями и доступом Azure.

Поделиться через