Рекомендации по хранению рабочих нагрузок ИИ в инфраструктуре Azure (IaaS)
В этой статье приведены рекомендации по хранилищу для организаций, работающих с рабочими нагрузками искусственного интеллекта в инфраструктуре Azure (IaaS). Решение хранилища для рабочих нагрузок искусственного интеллекта в инфраструктуре Azure должно иметь возможность управлять требованиями к хранилищу данных, доступу и передаче, которые присущи обучению и выводу моделей ИИ.
Рабочие нагрузки искусственного интеллекта требуют высокой пропускной способности и низкой задержки для эффективного извлечения и обработки данных. Они также нуждаются в механизмах управления версиями данных и согласованности, чтобы гарантировать точные и воспроизводимые результаты в распределенных средах. При выборе соответствующего решения хранилища следует учитывать такие факторы, как время передачи данных, задержка, требования к производительности и совместимость с существующими системами.
Используйте файловую систему для активных данных. Реализуйте файловую систему для хранения активно используемых или создаваемых заданиями ИИ данных с определенными заданиями. Это решение идеально подходит для обработки данных в режиме реального времени из-за низкой задержки и высокой пропускной способности. Эти возможности важны для оптимизации производительности рабочих процессов искусственного интеллекта. В Azure есть три основных решения файловой системы для поддержки обучения и вывода моделей ИИ в инфраструктуре Azure. Чтобы выбрать правильную файловую систему, следуйте приведенным ниже рекомендациям.
Используйте Управляемый Lustre Azure для наименьшего времени передачи данных и свести к минимуму задержку. Управляемый Lustre Azure обеспечивает высокую производительность с возможностями параллельной файловой системы и упрощает управление с помощью интеграции Azure. Это экономично, с затратами на хранение на основе использования и позволяет выборочно импортировать данные из хранилища BLOB-объектов, оптимизируя обработку данных.
Используйте Azure NetApp Files, если вам нужны функции корпоративного уровня и производительность для рабочих нагрузок ИИ. Azure NetApp Files обеспечивает высокую надежность и производительность, идеально подходит для критически важных приложений. Azure NetApp Files выгоден, если у вас есть инвестиции в инфраструктуру NetApp. Это полезно для гибридных облачных возможностей и при необходимости настраивать и настраивать конфигурации хранилища.
Используйте локальные файловые системы NVMe/SSD, если производительность является главным приоритетом. Он объединяет локальный NVMe вычислительных (рабочих узлов) с помощью выделенной параллельной файловой системы, например BeeGFS on Demand (BeeOND). Они работают непосредственно на вычислительных узлах, чтобы создать временную, высокопроизводительную файловую систему во время задания. Эти системы предлагают ультра-низкую задержку и высокую пропускную способность, что делает их идеальными для приложений с интенсивным вводом-выводом, такими как обучение глубокого обучения или вывод в режиме реального времени.
Передача неактивных данных в Хранилище BLOB-объектов Azure. После завершения задания перенесите неактивные данные задания из Управляемого Lustre Azure в Хранилище BLOB-объектов Azure для долгосрочного эффективного хранилища. Хранилище BLOB-объектов предоставляет масштабируемые параметры с различными уровнями доступа, обеспечивая эффективное хранение неактивных или редко доступ к данным, обеспечивая доступность при необходимости.
Реализуйте контрольные точки для обучения модели. Настройте механизм контрольной точки, который сохраняет состояние модели, включая весы обучения и параметры, с регулярными интервалами, такими как каждые 500 итераций. Сохраните эти данные контрольной точки в Управляемом Lustre Azure, чтобы разрешить перезапуск обучения модели из ранее сохраненного состояния, что повышает гибкость и устойчивость рабочих процессов искусственного интеллекта.
Автоматизация миграции данных на более низкие уровни хранилища. Настройте политики управления жизненным циклом Хранилище BLOB-объектов Azure для автоматической миграции старых, редко доступ к данным на более низкие уровни хранилища, такие как холодные или архивные уровни. Этот подход оптимизирует затраты на хранение, обеспечивая доступность важных данных при необходимости.
Обеспечение согласованности данных в распределенных средах. Обеспечение согласованности данных между распределенными рабочими нагрузками ИИ путем настройки синхронизации между Управляемым Lustre Azure и Хранилище BLOB-объектов Azure. Эта синхронизация гарантирует, что все узлы, обращающиеся к данным, работают с одной и той же, согласованной версией, предотвращая ошибки и несоответствия в распределенных средах.
Включите управление версиями данных для воспроизведения. Активируйте управление версиями в Хранилище BLOB-объектов Azure для отслеживания изменений наборов данных и моделей с течением времени. Эта функция упрощает откат, повышает воспроизводимость и поддерживает совместную работу. Он поддерживает подробный журнал изменений данных и моделей и позволяет сравнивать и восстанавливать предыдущие версии по мере необходимости.