Поделиться через


Ограничения и регионы обслуживания модели

В этой статье приведены ограничения и доступность регионов для обслуживания моделей ИИ Мозаики и поддерживаемых типов конечных точек.

Ограничения ресурсов и полезных данных

Служба модели ИИ мозаики накладывает ограничения по умолчанию, чтобы обеспечить надежную производительность. Если у вас есть отзывы об этих ограничениях, обратитесь к группе учетной записи Databricks.

В следующей таблице приводятся ограничения ресурсов и полезной нагрузки для модельных конечных точек.

Функция Степень детализации Предел
Размер полезной нагрузки Для каждого запроса 16 МБ. Для конечных точек, обслуживающих базовые модели или внешние модели , ограничение составляет 4 МБ.
Число запросов в секунду (QPS) На рабочую область 200, но может быть увеличено до 25 000 или более, обратитесь к группе учетной записи Databricks.
Длительность выполнения модели Для каждого запроса 120 секунд
Использование памяти модели конечной точки ЦП На конечную точку 4 ГБ
Использование памяти модели конечной точки GPU На конечную точку Больше или равно назначенной памяти GPU зависит от размера рабочей нагрузки GPU
Подготовленная параллелизм Для каждой модели и рабочей области Параллелизм 200. Можно увеличить, обратитесь к команде по учетной записи Databricks.
Задержка накладных расходов Для каждого запроса Менее 50 миллисекунда
Скрипты инициализации Скрипты инициализации не поддерживаются.
Ограничения скорости оплаты за токены (API модели Foundation) На рабочую область Если для вашего варианта использования недостаточно указанных ниже ограничений, Databricks рекомендует использовать подготовленную пропускную способность.

— Ллама 3.3 70B Instruct имеет ограничение на 2 запроса в секунду и 1200 запросов в час.
Llama 3.1 405B Instruct имеет ограничение в 1 запрос в секунду и 1200 запросов в час.
— Модель инструктажа DBRX имеет ограничение в 1 запрос в секунду.
— Mixtral-8x 7B Instruct имеет ограничение скорости по умолчанию в 2 запроса в секунду.
— GtE Large (En) имеет ограничение скорости 150 запросов в секунду
— BGE Large (En) имеет ограничение скорости в 600 запросов в секунду.
Ограничения скорости api модели Foundation (подготовленная пропускная способность) На рабочую область 200

Ограничения сети и безопасности

  • Конечные точки обслуживания моделей защищены с помощью управления доступом и соблюдения правил входящего трафика, связанных с сетью, настроенных в рабочей области, таких как списки разрешений IP и Приватный канал.
  • Частное подключение (например, Приватный канал Azure) поддерживается только для конечных точек обслуживания моделей, использующих подготовленную пропускную способность или конечные точки, обслуживающие пользовательские модели.
  • По умолчанию служба моделей не поддерживает Приватный канал внешних конечных точек (например, Azure OpenAI). Поддержка этой функции оценивается и реализуется на основе каждого региона. Дополнительные сведения см. в команде учетной записи Azure Databricks.
  • Служба моделей не предоставляет исправления безопасности для существующих образов моделей из-за риска дестабилизации рабочих развертываний. Новый образ модели, созданный из новой версии модели, будет содержать последние исправления. Обратитесь к группе учетных записей Databricks, чтобы получить дополнительные сведения.

Ограничения API-интерфейсов модели foundation

Примечание.

В рамках предоставления API интерфейсов модели Foundation, Databricks может обрабатывать ваши данные за пределами региона их происхождения, но не за пределами соответствующего географического положения .

Для рабочих нагрузок пропускной способности с оплатой за токен и подготовленных пропускной способности:

  • Только администраторы рабочей области могут изменять параметры управления, такие как ограничения скорости для конечных точек API модели Foundation. Чтобы изменить ограничения скорости, выполните следующие действия.
    1. Откройте пользовательский интерфейс обслуживания в рабочей области, чтобы увидеть конечные точки обслуживания.
    2. В меню kebab в конечной точке API-интерфейсов модели Foundation, которую вы хотите изменить, выберите Просмотреть сведения.
    3. В меню «кебаб» в правой верхней части страницы сведений о конечных точках выберите изменить ограничение скорости.
  • Модели встраивания GTE Large (En) не создают нормализованные встраивания.

Ограничения на оплату за токен

Ниже приведены ограничения, касающиеся рабочих нагрузок api модели Foundation для оплаты за токен .

  • Рабочие нагрузки с оплатой за токены не соответствуют требованиям HIPAA или профиля безопасности соответствия требованиям.
  • модели Meta Llama 3.3 70B и GTE Large (En) доступны в регионах ЕС и США с оплатой за токен .
  • Следующие модели оплаты за токен поддерживаются только в поддерживаемых регионах США api модели Foundation.
    • Мета Ллома 3.1 405B Инструктирует
    • Указание DBRX
    • Инструкции Mixtral-8x7B
    • BGE Large (en)
  • Если рабочая область находится в регионе обслуживания моделей, но не в регионе США или ЕС, ваша рабочая область должна быть включена для обработки данных между регионами. При включенной рабочей нагрузке по маркеру оплаты направляется в США. Databricks Geo. Сведения о том, какие географические регионы обрабатывают рабочие нагрузки на токены, см. в разделе Databricks Designated Services.

Ограничения подготовленной пропускной способности

Ниже приведены ограничения, относящиеся к api-интерфейсам модели Foundation, подготовленным рабочими нагрузками пропускной способности .

  • Подготовленная пропускная способность поддерживает профиль соответствия HIPAA и рекомендуется для рабочих нагрузок, требующих сертификации соответствия.
  • Чтобы использовать архитектуру модели DBRX для подготовленной рабочей нагрузки пропускной способности , конечная точка обслуживания должна находиться в одном из следующих регионов:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • В следующей таблице показана доступность поддерживаемых моделей Meta Llama 3.1 и 3.2. Сведения о развертывании точно настроенных базовых моделей см. в руководстве по развертыванию точно настроенных моделей.
Вариант модели Meta Llama Регионы
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
мета-лама – Лама-3.3-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Доступность по регионам

Примечание.

Если требуется конечная точка в неподдерживаемом регионе, обратитесь к группе учетной записи Azure Databricks.

Если рабочая область развернута в регионе, поддерживающем обслуживание моделей, но обслуживается плоскостем управления в неподдерживаемом регионе, рабочая область не поддерживает обслуживание моделей. Если вы пытаетесь использовать модель, обслуживаемую в такой рабочей области, вы увидите сообщение об ошибке о том, что ваша рабочая область не поддерживается. Дополнительные сведения см. в команде учетной записи Azure Databricks.

Дополнительные сведения о региональной доступности функций см. в разделе "Модель обслуживания региональной доступности".