Платформа приложений для рабочих нагрузок ИИ в Azure

Статья
11/19/2024

Необходимо тщательно рассмотреть платформу размещения приложений, на которую развернута рабочая нагрузка ИИ, чтобы обеспечить максимальную эффективность, безопасность операций и надежность.

Эта область разработки охватывает несколько типов приложений, которые могут иметь отношение к рабочей нагрузке ИИ:

Произвольный анализ данных
Обучение и настройка моделей
Вывод

В этой статье приведены рекомендации по выбору оптимальной платформы для каждой из этих функций в соответствии с вашими бизнес-потребностями. Существуют также общие рекомендации, которые можно применить ко всем этим функциям.

Рекомендация	Description
Повторное использование инструментов.	Начните с оценки уже используемых средств, чтобы понять, можно ли повторно использовать их для рабочей нагрузки ИИ. Если они поддерживают необходимые функциональные возможности и могут соответствовать вашим требованиям к надежности, безопасности, затратам и производительности, приведение в новое средство может не стоить затрат и усилий.
Рассмотрите требования к соответствию вашим данным и регионам, в которые планируется развернуть.	Возможно, вам потребуется ограничить регионы, развернутые в рабочих нагрузках или изолировать их друг от друга, чтобы соответствовать требованиям соответствия требованиям. Переход на этап разработки с этой информацией может помочь защитить вас от необходимости перепроектировать позже.
Свести к минимуму сборку.	Рассмотрите решения платформы как услуга (PaaS) или программное обеспечение как услуга (SaaS), чтобы свести к минимуму рабочее бремя, которое создает собственное решение, такое как исправление и другое обслуживание. Минимизация нагрузки дня 2, необходимой для новой технологии, упрощает внедрение. Многие функции ИИ являются сложными, поэтому мы не рекомендуем создавать собственную платформу.
Общие сведения о квотах и ограничениях.	При разработке решений PaaS или SaaS изучите все квоты или ограничения, которые применяются. Возможность горизонтального масштабирования для удовлетворения высоких требований к трафику может повлиять на квоты или ограничения, поэтому может потребоваться изменить структуру, чтобы свести к минимуму этот риск.
Развертывание в одном регионе.	Попробуйте развернуть все связанные ресурсы в одном регионе, чтобы уменьшить задержку и упростить проектирование.
Практикуйте безопасное развертывание.	Как правило, следует рассматривать API для рабочей нагрузки ИИ так же, как и любой другой API в вашей среде. Все API-интерфейсы должны размещаться за шлюзом, и весь код должен обрабатываться с теми же методами безопасного развертывания, что и каждый другой ресурс кода.
Создайте тесты производительности с помощью экспериментов.	Каждая рабочая нагрузка ИИ отличается, и объем необходимых вычислений зависит от вашего варианта использования. Определите объем и типы вычислительных ресурсов, оптимальных для рабочей нагрузки, проверив тщательное тестирование тестов. Это руководство поможет вам выбрать платформу, но вы узнаете, какие номера SKU подходят только для рабочей нагрузки после тестирования тестов.

Рекомендации по размещению модели и платформе вывода

Функции размещения и вывода модели составляют уровень обслуживания рабочей нагрузки ИИ. Эти функции выполняются с конечными точками, которые относятся к используемому программному обеспечению. Решения программного обеспечения, обслуживающие модели, такие как NVIDIA Triton, TorchServe и TensorFlow Service, по сути, являются пакетами SDK Для Python, которые передают модель с ПОМОЩЬЮ API и добавляют функциональные возможности, относящиеся к решению. Вы можете выбрать свою платформу размещения на основе выбранного программного обеспечения или выбрать программное обеспечение на основе выбранной платформы размещения.

При использовании решений SaaS или PaaS с предварительно подготовленными моделями, такими как большие языковые модели, доступные в Azure OpenAI, у вас мало возможностей выбора программного обеспечения для обслуживания. Вместо этого служба, которую вы используете, предоставляет API. Это снижает гибкость процесса создания развертывания модели, что может обеспечить преимущества и недостатки. Например, это может упростить процесс разработки рабочей нагрузки. С другой стороны, это снижает гибкость в том, как приложение может вызывать и взаимодействовать с моделью.

По сути, API-интерфейсы для слоя обслуживания являются микрослужбами, поэтому следует следовать тем же рекомендациям для этих API, которые вы следуете для других микрослужб в вашей среде. Они должны быть контейнеризованы, переборы из других служб и иметь собственные жизненные циклы, которые не зависят от других служб и API. Имейте в виду, однако, что служит API уровня, как правило, требуют значительно больше вычислительной мощности на основе GPU и более крупных образов контейнеров, чем традиционные API.

В этом разделе приводятся рекомендации по возможностям, которые следует учитывать при выборе платформы размещения и вывода модели.

Функциональные требования

При оценке платформ для размещения и вывода моделей рассмотрите следующие вопросы:

Требуется ли пакетная или онлайн-выводная нагрузка?

Конечные точки вывода используются для пакетных или онлайн-процессов вывода, а метод вывода помогает определить правильную платформу размещения. Пакетная выводов лучше всего размещена на платформе, поддерживающей временное использование, и позволяет завершить работу вычислений при его использовании. Вывод по сети лучше всего размещен на платформе, поддерживающей использование эластичных вычислений, которая автоматически масштабируется на основе нагрузки в любое время.
Поддерживает ли платформа возможность трассировки?

Трассировка важна для обеспечения целостности моделей, используемых в рабочей нагрузке. Важно знать сведения о модели, например текущей версии, которая развернула ее, когда она была развернута, и происхождения данных модели.

Примените значимые теги к изображениям в реестре контейнеров, чтобы убедиться, что служба размещения моделей извлекает определенную версию, которую команда может легко определить. Этот подход помогает управлять данными, уменьшая риск устаревших или неправильных моделей, используемых в рабочей среде.
Будет ли ваша платформа размещения централизованным ресурсом?

Многие организации используют централизованную платформу размещения моделей, которая используется различными командами для собственных рабочих нагрузок. Если ваша платформа размещения централизованна, следует рассмотреть, нужна ли поддержка обратной оплаты. Эта функция позволяет отслеживать использование платформы по команде и рабочей нагрузке.

Нефункциональные требования

Рассмотрим следующие вопросы:

Каковы требования к надежности для платформы?

Обслуживают API уровня — это рабочие ресурсы, поэтому к ним следует применять те же требования надежности, которые применяются к другим потокам рабочей нагрузки, которые соответствуют их оценке критическости . Если их критичность требует высокой доступности, платформа размещения должна поддерживать зоны доступности или многорегионную структуру.
Какие сетевые элементы управления необходимы для платформы?

Определите, требуется ли частная сеть или брандмауэр исходящего трафика для обеспечения защиты платформы.
Каковы требования к безопасности удостоверений и доступа для платформы?

Определите элементы управления удостоверениями и доступом, необходимые для конечных точек. Рассмотрите необходимость собственного управления доступом на основе ролей (RBAC) или встроенной поддержки платформы удостоверений и доступа, например идентификатора Microsoft Entra.
Какие возможности мониторинга поддерживают платформу?

Определите необходимые возможности мониторинга для конечных точек. В зависимости от платформы у вас может быть ограниченный доступ к журналам и метрикам, что может ограничить возможность аудита действий или обнаружения сбоев.
Каковы требования к производительности для платформы?

Задержка вывода является распространенной проблемой, и разные платформы имеют разные профили производительности. Бессерверные и службы PaaS, использующие служебную модель, могут быть затронуты шумной проблемой соседа и часто не имеют гарантий пропускной способности. С другой стороны, те же платформы могут предложить автономный вариант, обеспечивающий гарантированную пропускную способность с предварительной моделью приобретения. Вы также можете рассмотреть возможность самостоятельного размещения в Kubernetes для более предсказуемого поведения задержки.

Помните об ограничениях и квотах служб, которые могут повлиять на производительность, например для Azure OpenAI. Часто эти квоты и ограничения агрессивно устанавливаются для удовлетворения требований к емкости, поэтому если выбор платформы не обеспечивает требуемую производительность, может потребоваться принять стратегии для распространения спроса на вычислительные ресурсы между экземплярами.

Расширенные архитектуры могут объединять несколько развертываний для достижения фиксированной пропускной способности для основной части рабочей нагрузки и возможностей ускорения для более гибких вычислений.

Инструменты

Пакетная обработка

Если вы выполняете вывод данных, которые находятся на платформе, поддерживающей размещение моделей, например Databricks, рассмотрите возможность использования этой платформы для вывода. Обязательно изолируйте вычисления вывода от других функций, выполняемых платформой данных.
Мы рекомендуем API пакетной службы Azure OpenAI для базовых моделей.
Для моделей, отличных от основы, рассмотрим следующие рекомендации:
- Рассмотрите возможность использования Машинное обучение Azure конечных точек пакетной службы для следующих сценариев:
  - Необходимо выполнить вывод в большом наборе данных, распределенном в нескольких файлах, и не требуется низкая задержка.
  - Необходимо выполнять длительные пакетные операции по большим наборам данных и использовать преимущества параллелизации.
  - Необходимо развернуть компоненты конвейера для пакетной обработки.
- Если необходимо запустить задания Spark для распределенной обработки данных, рассмотрите возможность использования azure Synapse Analytics, Databricks или Машинное обучение бессерверных вычислений Spark.
- Если ни один из этих сценариев не применяется, рекомендуется Машинное обучение конечных точек пакетной службы.

Вывод по сети

Оцените платформу PaaS и бессерверные решения как первый шаг. Как правило, эти службы являются самыми простыми для внедрения и управления, так как они упрощают проектирование и минимизирует рабочее бремя. Например, Azure OpenAI — это хороший выбор для базовых моделей.
- Рекомендуется использовать Машинное обучение Azure БЕССерверный API для агрегирования доступа к конечным точкам, даже если вы используете Azure OpenAI или другое решение для размещения моделей фундамента.
Рассмотрите возможность Машинное обучение с управляемыми вычислительными кластерами, если решения PaaS или бессерверные решения не подходят лучше всего. Вычисления, управляемые Машинное обучение, поддерживают разделение трафика и зеркальное отображение для A/B тестирования, отладки и надежного аудита. Так как вычислительные ресурсы управляются службой, операции Day-2 проще при самостоятельном размещении модели. Управляемые вычислительные ресурсы также предоставляют широкий выбор конфигураций вычислений и возможностей масштабирования.
Если вы решили самостоятельно разместить модель в кластере Служба Azure Kubernetes (AKS), подключенном к Машинное обучение или другой платформе на основе контейнеров, убедитесь, что пул узлов изолирован от других API или других рабочих нагрузок в кластере для достижения прогнозируемой производительности и оптимизации безопасности. Избегайте использования вычислительных ресурсов на основе GPU или GPU, оптимизированных для других функций рабочей нагрузки ИИ, чтобы сократить затраты. Вместо этого настройте базовые показатели производительности с помощью тестирования и правильного размера вычислительных ресурсов, чтобы обеспечить соответствие требованиям к производительности без чрезмерной подготовки.
Вы также можете самостоятельно разместить модель с помощью решений инфраструктуры как службы (IaaS), таких как Azure Виртуальная машина для обработки и анализа данных.

Следующие шаги

Область разработки: проектирование данных обучения

Поделиться через

Платформа приложений для рабочих нагрузок ИИ в Azure

Рекомендации

Рекомендации по платформе EDA

Функциональные требования

Нефункциональные требования

Инструменты

Рекомендации по обучению и настройке модели

Функциональные требования

Нефункциональные требования

Инструменты

Рекомендации по размещению модели и платформе вывода

Функциональные требования

Нефункциональные требования

Инструменты

Пакетная обработка

Вывод по сети

Рекомендации по платформе оркестрации

Нефункциональные требования

Инструменты

Следующие шаги

Обратная связь

Дополнительные ресурсы