Поделиться через


Развёртывание моделей с использованием Mosaic AI Model Serving

В этой статье описывается Mosaic AI Model Serving — решение компании Databricks для развертывания моделей ИИ и машинного обучения с целью их обслуживания в режиме реального времени и проведения пакетного вычисления.

Что такое мозаичная модель ИИ, обслуживающая?

Служба модели ИИ Мозаики предоставляет единый интерфейс для развертывания, управления и запроса моделей ИИ для вывода в режиме реального времени и пакетной обработки. Каждая модель, которую вы обслуживаете, доступна в качестве REST API, которую можно интегрировать в веб-приложение или клиентское приложение.

Служба модели предоставляет высокодоступную и низкую задержку службы для развертывания моделей. Служба автоматически масштабируется до изменения спроса и экономии затрат на инфраструктуру при оптимизации производительности задержки. Эта функция использует бессерверные вычисления. Дополнительные сведения см. на странице цен на обслуживание моделей.

Служба моделей предлагает унифицированный REST API и API развертывания MLflow для задач CRUD и запросов. Кроме того, он предоставляет единый пользовательский интерфейс для управления всеми моделями и соответствующими конечными точками обслуживания. Вы также можете получить доступ к моделям непосредственно из SQL с помощью функций искусственного интеллекта для простой интеграции с рабочими процессами аналитики.

Ознакомьтесь со следующими руководствами по началу работы:

Модели, которые можно развернуть

Служба моделей поддерживает вывод в режиме реального времени и пакетной обработки для следующих типов моделей:

  • Настраиваемые модели. Это модели Python, упакованные в формате MLflow. Их можно зарегистрировать в каталоге Unity или в реестре моделей рабочей области. Примеры включают scikit-learn, XGBoost, PyTorch и модели преобразователя распознавания лиц.
  • основные модели.
    • основные модели, размещенные в Databricks, такие как Meta Llama. Эти модели доступны через API Foundation Model. Эти модели являются курируемыми архитектурами базовых моделей, поддерживающими оптимизированное вывод. Базовые модели, такие как Meta-Llama-3.3-70B-Instruct, GTE-Large и Mistral-7B, доступны для немедленного использования с оплатой за токен, а рабочие нагрузки, требующие гарантий производительности и точно настроенных вариантов модели, можно развертывать с подготовленной пропускной способности.
    • Foundation модели, размещенные за пределами Databricks, например GPT-4 из OpenAI. Эти модели доступны с помощью внешних моделей. Конечные точки, обслуживающие эти модели, можно централизованно управлять из Azure Databricks, чтобы упростить использование и управление различными поставщиками LLM, такими как OpenAI и Anthropic, в вашей организации.

Примечание.

Вы можете взаимодействовать с поддерживаемыми крупными языковыми моделями с помощью игровой площадки ИИ. Платформа искусственного интеллекта — это среда чата, в которой можно тестировать, запрашивать и сравнивать LLM. Эта функция доступна в рабочей области Azure Databricks.

Зачем использовать обслуживание моделей?

  • Развертывание и запрос любых моделей. Служба моделей предоставляет единый интерфейс, который позволяет управлять всеми моделями в одном расположении и запрашивать их с помощью одного API независимо от того, размещаются ли они в Databricks или на внешних устройствах. Этот подход упрощает процесс экспериментирования с моделями, настройкой и развертыванием моделей в рабочей среде в различных облаках и поставщиках.
  • Безопасная настройка моделей с помощью частных данных: на основе платформы аналитики данных, служба моделей упрощает интеграцию функций и внедрения в модели с помощью встроенной интеграции с Хранилищем компонентов Databricks и векторным поиском векторов мозаики. Для еще более улучшенной точности и контекстного понимания модели модели можно точно настраивать с помощью собственных данных и развертывать без усилий в службе моделей.
  • Управление моделями и мониторингом. Пользовательский интерфейс обслуживания позволяет централизованно управлять всеми конечными точками модели в одном месте, включая те, которые размещаются во внешнем расположении. Вы можете управлять разрешениями, отслеживать и задавать ограничения использования и отслеживать качество всех типов моделей с помощью шлюза искусственного интеллекта. Это позволяет демократизировать доступ к SaaS и открывать LLM в организации, обеспечивая наличие соответствующих охранников.
  • сократить затраты с помощью оптимизированного вывода и быстрого масштабирования: Databricks реализовала ряд оптимизаций, чтобы обеспечить оптимальную пропускную способность и задержку для больших моделей. Конечные точки автоматически масштабируется вверх или вниз, чтобы удовлетворить изменения спроса, экономя затраты на инфраструктуру при оптимизации производительности задержки. Отслеживайте затраты на обслуживание модели.

Примечание.

Для рабочих нагрузок, которые чувствительны к задержке или включают большое количество запросов в секунду, Databricks рекомендует использовать оптимизацию маршрутов для конечных точек обслуживания пользовательской модели. Обратитесь к группе учетных записей Databricks, чтобы обеспечить высокую масштабируемость рабочей области.

  • Обеспечение надежности и безопасности для службы моделей: служба моделей предназначена для обеспечения высокой доступности, использования рабочей среды с низкой задержкой и может поддерживать более 25 КБ запросов в секунду с задержкой накладных расходов менее 50 мс. Рабочие нагрузки обслуживания защищены несколькими уровнями безопасности, обеспечивая безопасную и надежную среду для даже самых конфиденциальных задач.

Примечание.

Служба моделей не предоставляет исправления безопасности для существующих образов моделей из-за риска дестабилизации рабочих развертываний. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.

Требования

  • Зарегистрированная модель в каталоге Unity или в реестре моделей рабочей области .
  • Разрешения для зарегистрированных моделей, как описано в списке ACL конечных точек обслуживания.
    • MLflow 1.29 или более поздней версии.
  • Если вы используете Приватный канал Azure для соблюдения правил входящего трафика, связанных с сетью, настроенных в рабочей области, Приватный канал Azure поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, которые служат пользовательским моделям. См. раздел "Настройка частного подключения из бессерверных вычислений".

Включение службы моделей для рабочей области

Дополнительные шаги не требуются для включения службы моделей в рабочей области.

Ограничения и доступность в регионах

Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. См . ограничения и регионы обслуживания моделей. Если у вас есть отзывы об этих ограничениях или конечной точке в неподдерживаемом регионе, обратитесь к группе учетной записи Databricks.

Защита данных в службе "Модель"

Databricks серьезно относится к безопасности данных. Databricks понимает важность данных, которые вы анализируете с помощью службы модели ИИ Мозаики, и реализует следующие элементы управления безопасностью для защиты данных.

  • Каждый запрос клиента к службе модели логически изолирован, прошел проверку подлинности и авторизован.
  • Мозаичная модель ИИ, обслуживающая, шифрует все неактивных данных (AES-256) и передает (TLS 1.2+).

Для всех платных учетных записей служба модели ИИ Мозаики не использует входные данные пользователя, отправленные в службу, или выходные данные из службы для обучения любых моделей или улучшения любых служб Databricks.

Для API модели Databricks Foundation, в рамках предоставления службы Databricks может временно обрабатывать и хранить входные и выходные данные для предотвращения, обнаружения и устранения злоупотреблений или вредных использования. Входные данные и выходные данные изолированы от других клиентов, хранящихся в том же регионе, что и рабочая область в течение 30 дней, и доступна только для обнаружения и реагирования на проблемы безопасности или злоупотреблений. API-интерфейсы модели Foundation — это служба Databricks, то есть она соответствует границам расположения данных, реализованным Databricks Geos.

Дополнительные ресурсы