API модели Databricks Foundation
В этой статье представлен обзор API-интерфейсов модели Foundation в Azure Databricks. Он включает требования к использованию, поддерживаемым моделям и ограничениям.
Что такое API модели Databricks Foundation?
Mosaic AI Model Serving теперь поддерживает API моделей Foundation, которые позволяют получать доступ к передовым открытым моделям и запрашивать их из сервиса. Эти модели размещаются на платформе Databricks, и вы можете быстро и легко создавать приложения, которые их используют, без необходимости поддерживать собственное развертывание модели. API Foundation Model — это специализированный сервис Databricks, что означает, что при обработке содержимого клиента используется Databricks Geos для управления местоположением данных.
API-интерфейсы модели foundation предоставляются в следующих режимах:
- Pay-per-token: это самый простой способ начать использовать фундаментальные модели на платформе Databricks и рекомендуется для начала работы с API-интерфейсами фундаментальных моделей. Этот режим не предназначен для приложений с высокой пропускной способностью или производственных рабочих нагрузок.
- Подготовленная пропускная способность: этот режим рекомендуется для всех рабочих нагрузок, особенно для рабочих нагрузок, требующих высокой пропускной способности, гарантий производительности, точно настроенных моделей или наличия дополнительных требований к безопасности. Выделенные конечные точки с пропускной способностью доступны с сертификатами соответствия, такими как HIPAA.
См. Использование API Foundation Model для получения рекомендаций по использованию этих режимов и поддерживаемых моделей.
Используя API-интерфейсы модели Foundation, можно выполнить следующие действия.
- Запрос обобщенного LLM для проверки действительности проекта перед вложением дополнительных ресурсов.
- Запросите обобщённую LLM, чтобы создать быстрый прототип приложения на основе LLM, перед тем как инвестировать в обучение и развертывание кастомной модели.
- Используйте основополагающую модель и векторную базу данных для создания чат-бота с помощью генерации, дополненной поиском (RAG).
- Замените собственные модели открытыми альтернативами для оптимизации затрат и производительности.
- Эффективно сравнивайте LLM-ы, чтобы определить лучшего кандидата для вашего варианта использования или заменить производственную модель на более производительную.
- Создайте приложение LLM для разработки или эксплуатации на базе масштабируемой платформы с поддержкой SLA, которая может справляться с пиковыми нагрузками в производственном трафике.
Требования
- Токен API Databricks для аутентификации запросов к конечным точкам.
- Бессерверные вычисления (для подготовленных моделей пропускной способности).
- Рабочая область в одном из следующих поддерживаемых регионов:
использовать API модели Foundation
Существует несколько вариантов использования API-интерфейсов модели Foundation.
API совместимы с OpenAI, поэтому для запроса можно использовать клиент OpenAI. Вы также можете использовать пользовательский интерфейс, пакет SDK для работы с базовыми моделями на Python, пакет SDK для развертываний MLflow или REST API для запроса поддерживаемых моделей. Databricks рекомендует использовать клиентский пакет SDK OpenAI или API для расширенных взаимодействий и пользовательского интерфейса для пробной версии функции.
См. примеры оценки в разделе базовых моделей запросов.
API-интерфейсы модели Foundation с оплатой за токен
Предварительно настроенные конечные точки, обслуживающие модели с оплатой за токен, доступны в рабочей области Azure Databricks. Для начала работы рекомендуется использовать эти модели оплаты за токены. Чтобы получить доступ к ним в рабочей области, перейдите на вкладку обслуживание на левой боковой панели. API-интерфейсы модели foundation находятся в верхней части представления списка конечных точек.
- поддерживаемые модели оплаты за токены.
- Смотрите Запросы к API моделей на основе Foundation, чтобы получить рекомендации о том, как запрашивать API таких моделей.
- Дополнительные сведения о необходимых параметрах и синтаксисе см. в справочнике по REST API модели
Foundation.
API основной модели с указанной пропускной способностью
Подготовленная пропускная способность предоставляет конечные точки с оптимизированным выводом для рабочих нагрузок базовой модели, требующих гарантий производительности. Databricks рекомендует выделенную пропускную способность для производственных рабочих нагрузок.
- архитектуры моделей, поддерживающие заданную пропускную способность.
- См. раздел API модели Foundation для режима с заданной пропускной способностью для пошагового руководства по развертыванию API модели Foundation в режиме с заданной пропускной способностью.
Поддержка выделенной пропускной способности включает:
- Базовые модели всех размеров. К базовым моделям можно получить доступ с помощью Databricks Marketplace или скачать их из Hugging Face или другого внешнего источника и зарегистрировать их в каталоге Unity. Последний подход работает с любым точно настроенным вариантом поддерживаемых моделей.
- точно настроенные варианты базовых моделей, например модели, которые настраиваются на основе собственных данных.
- Полностью настраиваемые веса и токенизаторы, такие как обученные с нуля или дообученные, или другие варианты с использованием архитектуры базовой модели (например, CodeLlama).
Пакетный вывод
Вы также можете выполнить пакетный вывод с помощью конечных точек предоставления моделей, которые используют подготовленную пропускную способность или оплату за токен.
См. "Выполнение выводов пакетной обработки LLM с помощью функций ИИ" о том, как создавать конвейеры вывода, которые используют конечные точки с оплатой за токен или выделенную пропускную способность.
Ограничения
См. ограничения API модели Foundation .