Акселератор целевой зоны azure с высокой производительностью (HPC)
Ускоритель высокопроизводительных вычислений (HPC) для целевой зоны автоматизирует развертывание среды. Эта среда предоставляет базовую платформу, которую можно настроить для создания комплексного механизма развертывания для полного решения кластера HPC в Azure. Акселератор — это коллекция скриптов с открытым исходным кодом и шаблонов, которые могут подготовить целевые зоны корпоративного масштаба. Он может обеспечить конкретный архитектурный подход и эталонную реализацию, которая соответствует архитектуре и рекомендациям платформы Cloud Adoption Framework.
Клиенты принимают HPC различными способами, чтобы удовлетворить свои бизнес-потребности, и вы можете адаптировать акселератор целевой зоны HPC для создания архитектуры, которая соответствует вашему пути. Использование акселератора помогает разместить организацию на пути к устойчивому масштабированию.
Реализация целевой зоны корпоративного масштаба
Акселератор целевой зоны HPC предполагает, что вы начинаете с корпоративной целевой зоны, которая успешно реализована. Дополнительные сведения об этом условии см. в следующих статьях:
- Начало работы с целевыми зонами корпоративного масштаба Cloud Adoption Framework
- Реализация целевой зоны Cloud Adoption Framework корпоративного масштаба
Что предоставляет акселератор целевой зоны HPC
Подход к целевым зонам акселератора целевой зоны HPC предоставляет следующие ресурсы для проекта:
- Модульный подход, позволяющий настраивать переменные среды.
- Рекомендации по проектированию для оценки критических решений.
- Архитектура целевой зоны
- Реализация, которая включает в себя:
- Развернутая ссылка, способная создать среду для развертывания HPC
- Эталонная реализация HPC, утвержденная корпорацией Майкрософт, для тестирования развернутой среды
Рекомендации по проектированию энергии, производства и финансов
Архитектура целевых зон зависит от бизнес-сектора в дополнение к различным по организации. В этом разделе перечислены статьи по секторам, которые предоставляют рекомендации по созданию целевой зоны:
Энергия (нефть и газ)
- Выставление счетов Azure и клиенты Microsoft Entra для энергии HPC
- Управление удостоверениями и доступом для Azure HPC в энергии
- Управление для Azure HPC в энергии
- Топология сети и подключение для Azure HPC в энергии
- Автоматизация платформы и DevOps для Azure HPC в энергии
- Организация ресурсов для HPC в энергетической отрасли
- Управление hpC в энергетических отраслях
- Безопасность для Azure HPC в энергии
- Работа с крупномасштабными вычислительными нагрузками HPC на виртуальных машинах Azure
- служба хранилища для энергетических сред HPC
Производство
- Производство выставления счетов в Azure HPC и клиентов Active Directory
- Управление удостоверениями и доступом Azure для HPC в производстве
- Управление HPC в производственной отрасли
- Производственная топология сети HPC и подключение
- Автоматизация платформы и DevOps для Azure HPC в производственной отрасли
- Организация ресурсов HPC для производства
- Управление Azure для производства HPC
- Безопасность HPC в производственных отраслях
- Производство хранилища HPC
Finance
- Предложения по выставлению счетов Azure и клиенты Active Directory для финансирования HPC
- Финансы управления удостоверениями и доступом в Azure HPC
- Управление HPC в финансовом секторе
- Топология сети и подключение для HPC в финансовом секторе
- Автоматизация платформы и DevOps для HPC в финансовом секторе
- Организация ресурсов для Azure HPC в финансовом секторе
- Управление финансами HPC
- Безопасность HPC в финансовом секторе
- служба хранилища для HPC в финансовом секторе
Рекомендации по проектированию для выбора вычислений HPC для рабочих нагрузок искусственного интеллекта
Выбор правильного номера SKU оптимизированного для GPU вычислений для рабочих нагрузок ИИ важен для оптимизации производительности и управления затратами. Корпорация Майкрософт предлагает множество различных номеров SKU, оптимизированных для рабочих нагрузок, которые пользуются большей мощностью GPU. При выборе подходящего номера SKU для рабочих нагрузок ИИ следует учитывать несколько рекомендаций. Небольшие рабочие нагрузки могут использовать только часть ЦП, GPU и пропускной способности более мощных номеров SKU, таких как NDv4. Вы можете рассмотреть другие номера SKU вычислений, такие как NCv4 и NDv2 для небольших заданий. Ниже приведены некоторые рекомендации по выбору правильного номера SKU оптимизированного для GPU вычислений для рабочих нагрузок ИИ:
- Контрольная точка. Учитывайте такие факторы, как интервал проверка точки при запуске моделей машинного обучения. Это может повлиять на производительность GPU на этапе обучения. Наведите баланс между эффективностью хранилища и обслуживанием гладких операций GPU. Отслеживайте использование GPU.
- Формирования. Требования к выводу отличаются от требований к обучению с возможной более высокой нагрузкой ЦП, которая может максимально повысить производительность ЦП. При выборе номера SKU вычислений учитывайте требования к выводу модели. Мониторинг использования ЦП.
- Обучение. Учитывайте требования модели во время обучения, отслеживая использование ЦП и GPU.
- Размер задания. При рассмотрении номера SKU вычислений для рабочих нагрузок ИИ рассмотрите размер задания. Небольшие задания, такие как приблизительно OPT 1.3B, могут не использовать более крупные размеры SKU и могут оставить ЦП и gpu питание бездействие в зависимости от этапа задания (вывод, обучение).
- Пропускной способности. Более большая, низкая пропускная способность задержки может быть затратами, если они не используются. Рассмотрим InfiniBand только для самых больших моделей, которые потребуют дополнительной пропускной способности.
Просмотр оптимизированных размеров виртуальных машин в Gpu Azure.
Пример: концептуальная эталонная архитектура для энергии
Следующая концептуальная эталонная архитектура — это пример, показывающий области проектирования и рекомендации по использованию энергетических сред.
Пример: концептуальная эталонная архитектура для финансирования
Следующая концептуальная эталонная архитектура — это пример, показывающий области проектирования и рекомендации по финансовым средам.
Пример: концептуальная эталонная архитектура для производства
Следующая концептуальная эталонная архитектура — это пример, показывающий области проектирования и рекомендации по производственным средам.
Получение акселератора целевой зоны HPC
Ускоритель целевой зоны HPC доступен на сайте GitHub: Azure HPC OnDemand Platform Accelerator
Следующие шаги
Рекомендации и рекомендации по архитектуре акселератора целевой зоны HPC см. в критически важных областях проектирования акселератора целевой зоны HPC в Службе управления удостоверениями и доступом Azure.