Масштабирование чата Microsoft Azure OpenAI для Java с использованием RAG и приложений Azure Container Apps.
Узнайте, как добавить балансировку нагрузки в ваше приложение, чтобы расширить возможности приложения чата за пределы токенов Azure OpenAI и лимитов квоты модели. Этот подход использует приложения контейнеров Azure для создания трех конечных точек Azure OpenAI, а также основного контейнера для направления входящего трафика в одну из трех конечных точек.
В этой статье требуется развернуть два отдельных примера:
Приложение чата
Если вы еще не развернули приложение чата, дождитесь развертывания примера подсистемы балансировки нагрузки.
Если вы уже развернули приложение чата один раз, вы измените переменную среды для поддержки пользовательской конечной точки для подсистемы балансировки нагрузки и повторно разверните ее.
Приложение чата доступно на следующих языках:
Приложение подсистемы балансировки нагрузки
Заметка
В этой статье используется один или несколько шаблонов приложений ИИ в качестве основы для примеров и рекомендаций в этой статье. Шаблоны приложений ИИ предоставляют вам хорошо поддерживаемые и простые в развертывании эталонные реализации, которые помогают обеспечить высококачественную отправную точку для приложений ИИ.
Архитектура балансировки нагрузки Azure OpenAI с помощью приложений контейнеров Azure
Поскольку ресурс Azure OpenAI имеет определенные ограничения на токены и квоту модели, приложение для чата, использующее единственный ресурс Azure OpenAI, может приводить к сбоям в разговорах из-за этих ограничений.
Чтобы использовать приложение чата без достижения этих ограничений, используйте решение с балансировкой нагрузки с помощью приложений контейнеров Azure. Это решение бесшовно отображает одну конечную точку из Azure Container Apps для вашего сервера чат-приложения.
Приложение контейнера Azure находится перед набором ресурсов Azure OpenAI. Приложение-контейнер решает два сценария: обычный и ограниченный. В обычном сценарии, где доступна квота маркера и модели, ресурс Azure OpenAI возвращает 200 обратно через приложение контейнера и сервер приложений.
Если ресурс находится в режиме ограничения, например из-за квотных ограничений, приложение Azure Container может немедленно попробовать использовать другой ресурс Azure OpenAI, чтобы выполнить исходный запрос чата.
Необходимые условия
Подписка Azure. создание бесплатной
Доступ к Azure OpenAI предоставлен в нужной подписке Azure.
В настоящее время доступ к этой службе предоставляется только приложением. Вы можете подать заявку на доступ к Azure OpenAI, выполнив форму на https://aka.ms/oai/access.
контейнеры разработки доступны для обоих примеров, со всеми зависимостями, необходимыми для выполнения этой статьи. Контейнеры разработки можно запускать в GitHub Codespaces (в браузере) или локально с помощью Visual Studio Code.
- Учетная запись GitHub
Пример приложения для внешнего балансировщика приложений с открытыми контейнерами
GitHub Codespaces запускает контейнер разработки, управляемый GitHub, с Visual Studio Code для веб-приложений в качестве пользовательского интерфейса. Для наиболее простой среды разработки используйте GitHub Codespaces, чтобы у вас были правильные средства разработчика и зависимости, предварительно установленные для выполнения этой статьи.
Важный
Все учетные записи GitHub могут использовать Codespaces бесплатно до 60 часов каждый месяц с 2 ядрами. Дополнительные сведения см. в разделе о ежемесячно включаемом объеме хранилища и основных часах GitHub Codespaces.
Развертывание подсистемы балансировки нагрузки для приложений контейнеров Azure
Войдите в интерфейс командной строки разработчика Azure, чтобы обеспечить проверку подлинности для шагов подготовки и развертывания.
azd auth login --use-device-code
Задайте переменную среды для использования аутентификации Azure CLI на этапе после развертывания.
azd config set auth.useAzCliAuth "true"
Разверните приложение подсистемы балансировки нагрузки.
azd up
Вам потребуется выбрать подписку и регион для развертывания. Они не должны быть той же подпиской и регионом, что и приложение чата.
Дождитесь завершения развертывания, прежде чем продолжить.
Получите конечную точку развертывания
Используйте следующую команду, чтобы отобразить развернутую конечную точку для приложения контейнера Azure.
azd env get-values
Скопируйте значение
CONTAINER_APP_URL
. Вы будете использовать его в следующем разделе.
Переразвертывание приложения чата с конечной точкой балансировщика нагрузки
Они завершены в примере приложения чата.
Откройте контейнер разработки приложения чата с помощью одного из следующих вариантов.
Язык Пространства кода Visual Studio Code .СЕТЬ JavaScript Питон Войдите в Azure Developer CLI (AZD).
azd auth login
Завершите выполнение инструкций для входа.
Создайте среду AZD с таким именем, как, например,
chat-app
.azd env new <name>
Добавьте следующую переменную среды, которая сообщает серверной части приложения Чата использовать настраиваемый URL-адрес для запросов OpenAI.
azd env set OPENAI_HOST azure_custom
Добавьте следующую переменную среды, заменив
<CONTAINER_APP_URL>
на URL-адрес из предыдущего раздела. Это действие сообщает серверной части приложения чата, что такое значение настраиваемого URL-адреса для запроса OpenAI.azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
Разверните приложение чата.
azd up
Теперь вы можете использовать приложение чата с уверенностью в том, что оно создано для масштабирования для многих пользователей без превышения квоты.
Потоковая передача журналов для просмотра результатов подсистемы балансировки нагрузки
На портале Azureвыполните поиск по группе ресурсов.
В списке ресурсов в группе выберите ресурс контейнерного приложения.
Выберите мониторинг —> поток журналов для просмотра журнала.
Используйте чат-приложение для генерации трафика в журнале учёта.
Найдите журналы, которые ссылаются на ресурсы Azure OpenAI. Каждый из трех ресурсов имеет свое числовое удостоверение в комментарии журнала, начиная с
Proxying to https://openai3
, где3
указывает третий ресурс Azure OpenAI.При использовании приложения чата, когда балансировщик нагрузки получает уведомление о превышении квоты запроса, он автоматически переключается на другой ресурс.
Настройка квоты доверенного платформенного модуля
По умолчанию каждый экземпляр Azure OpenAI в балансировщике нагрузки развертывается с пропускной способностью 30 000 токенов в минуту (TPM). Вы можете использовать приложение чата с уверенностью, что оно масштабируется для большого числа пользователей без риска превышения квоты. Измените это значение, если:
- Вы получаете ошибки емкости развертывания: уменьшите значение.
- Вам нужна более высокая емкость: увеличьте значение.
Чтобы изменить значение, используйте следующую команду:
azd env set OPENAI_CAPACITY 50
Повторно разверните подсистему балансировки нагрузки:
azd up
Очистка ресурсов
Когда вы закончите работу с приложением чата и подсистемой балансировки нагрузки, очистите ресурсы. Ресурсы Azure, созданные в этой статье, оплачиваются с вашей подписки Azure. Если вы не ожидаете, что эти ресурсы потребуются в будущем, удалите их, чтобы избежать дополнительных расходов.
Очистка ресурсов приложения чата
Вернитесь в статью о приложении чата, чтобы очистить эти ресурсы.
Очистка ресурсов подсистемы балансировки нагрузки
Выполните следующую команду Командной строки разработчика Azure, чтобы удалить ресурсы Azure и удалить исходный код:
azd down --purge --force
Переключатели предоставляют:
-
purge
: удаленные ресурсы немедленно очищаются. Это позволяет повторно использовать TPM Azure OpenAI. -
force
. Удаление выполняется автоматически, не требуя согласия пользователя.
Очистка GitHub Codespaces
Удаление среды GitHub Codespaces гарантирует, что вы можете максимально увеличить объем бесплатных прав на базовые часы, которые вы получаете для вашей учетной записи.
Важный
Дополнительные сведения о правах вашей учетной записи GitHub см. в разделе , посвященном ежемесячно включаемым объему хранилища и основным часам в GitHub Codespaces.
Войдите на панель мониторинга GitHub Codespaces (https://github.com/codespaces).
Найдите свои работающие Codespaces, которые берутся из репозитория
azure-samples/openai-aca-lb
на GitHub.Откройте контекстное меню пространства кода и выберите Удалить.
Получить помощь
Если у вас возникли проблемы с развертыванием подсистемы балансировки нагрузки управления API Azure, зайдите в журнал проблемы репозитория.
Пример кода
Примеры, используемые в этой статье, включают: