Поддерживаемые модели для оплаты за токен
Внимание
В
См. ограничения API Foundation Model для моделей с оплатой за токены, поддерживаемых только в регионах США.
В этой статье описываются современные открытые модели, поддерживаемые API-интерфейсами Databricks Foundation Model в режиме оплаты за токен.
Запросы можно отправлять в эти модели с помощью конечных точек с оплатой за токен, доступных в рабочей области Databricks. См. Сведения о моделях запросов и таблицу моделей с оплатой за токен , чтобы узнать названия конечных точек моделей для использования.
Помимо поддержки моделей в режиме оплаты за токен, API базовых моделей также предлагают режим обеспеченной пропускной способности. Databricks рекомендует выделенную пропускную способность для производственных рабочих нагрузок. Этот режим поддерживает все модели семейства архитектур моделей (например, модели DBRX), включая тонко настроенные и настраиваемые предварительно обученные модели, поддерживаемые в режиме оплаты за токен. Дополнительные сведения о поддерживаемых архитектурах см. в разделе API интерфейсов базовой модели предоставленной пропускной способности.
Вы можете взаимодействовать с этими поддерживаемыми моделями с помощью ИИ Платформа.
Meta Llama 3.3 70B
Внимание
Начиная с 11 декабря 2024 года Meta-Llama-3.3-70B-Instruct приходит на смену поддержку Meta-Llama-3.1-70B-Instruct в точках взаимодействия Foundation Model API с оплатой за каждый токен.
Внимание
Meta Llama 3.3 лицензируется в соответствии с Сообщественной лицензией LLAMA 3.3, Copyright © Meta Platforms, Inc. Все права защищены. Клиенты несут ответственность за соблюдение условий этой лицензии и Политика допустимого использования Llama 3.3.
Meta-Llama-3.3-70B-Instruct — это современная модель обработки естественного языка с контекстом на 128 000 маркеров, созданная и обученная компанией Meta. Модель поддерживает несколько языков и оптимизирована для вариантов использования диалога. Узнайте больше о мета-Лломе 3.3.
Как и в других крупных языковых моделях, выходные данные Llama-3 могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать генерацию, дополненную выборкой (RAG), в сценариях, где особенно важна точность.
Мета Ллома 3.1 405B Инструктаж
Внимание
Использование этой модели с API Foundation находится в общедоступной предварительной версии
Внимание
Meta Llama 3.1 лицензирован в соответствии с сообщественным лицензированием LLAMA 3.1, Copyright © Meta Platforms, Inc. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.
Meta-Llama-3.1-405B-Instruct является крупнейшей открыто доступной моделью большого языка, созданной и обученной мета, и распространяется машинным обучением Azure с помощью каталога моделей AzureML. Использование этой модели позволяет клиентам разблокировать новые возможности, такие как расширенное многошаговое рассуждение и высококачественная генерация синтетических данных. Эта модель конкурентоспособна с GPT-4-Turbo с точки зрения качества.
Как и Meta-Llama-3.1-70B-Instruct, эта модель имеет контекст 128 000 маркеров и поддержку на десяти языках. Он соответствует человеческим предпочтениям для полезности и безопасности и оптимизирован для вариантов использования диалога. Дополнительные сведения о моделях Meta Llama 3.1.
Как и в других крупных языковых моделях, выходные данные Llama-3.1 могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать генерацию, дополненную извлечением информации (RAG), в сценариях, где точность особенно важна.
инструкции DBRX
Внимание
Эта модель больше не поддерживается после 30 апреля 2025 г. См. "Устаревшие модели" для получения рекомендаций по замене модели в.
Внимание
DBRX предоставляется в соответствии с лицензией Databricks Open Model License, Copyright © Databricks, Inc. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям моделей, включая политику допустимого использования Databricks.
DBRX Instruct — это передовая языковая модель типа "смешение экспертов" (MoE), обученная компанией Databricks.
Модель опережает установленные модели с открытым исходным кодом для стандартных эталонных показателей и работает в широком наборе задач естественного языка, таких как сводка текста, ответы на вопросы, извлечение и кодирование.
DBRX Instruct может обрабатывать до 32k токенов входной длины и генерировать выходной текст длиной до 4k токенов. Благодаря своей архитектуре MoE, DBRX Instruct является очень эффективным в выводе, активируя только 36 миллиардов параметров из общего количества 132 миллиардов обученных параметров. Конечная точка с оплатой за токен, обслуживающая эту модель, имеет ограничение скорости одного запроса в секунду. См. ограничения и регионы обслуживания моделей.
Как и в других крупных языковых моделях, выходные данные инструкции DBRX могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать генерирование, дополненное извлечением (RAG), в сценариях, где точность особенно важна.
Модели DBRX используют следующую системную строку по умолчанию для обеспечения релевантности и точности в ответах модели:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Mixtral-8x7B Инструкции
Внимание
Эта модель больше не поддерживается после 30 апреля 2025 г. См. Устаревшие модели, чтобы получить сведения о рекомендуемой замене модели.
Mixtral-8x7B Instruct является высококачественной разреженной смесью экспертной модели (SMoE), обученной Мистраль ИИ. Mixtral-8x7B Instruct можно использовать для различных задач, таких как ответы на вопросы, резюмирование и извлечение.
Mixtral может обрабатывать контекст длиной до 32 тыс. токенов. Mixtral может обрабатывать английский, французский, итальянский, немецкий и испанский. Mixtral сопоставим или превосходит Llama 2 70B и GPT3.5 на большинстве эталонных показателей (Производительность Mixtral), при этом работая в четыре раза быстрее, чем Llama 70B при выполнении вывода.
Аналогично другим крупным языковым моделям, на модель Mixtral-8x7B Instruct не следует полагаться для получения фактически точной информации. Хотя было предпринято большое усилие по очистке предварительно подготовленных данных, возможно, что эта модель может генерировать непристойные, предвзятые или иным образом оскорбительные выходные данные. Чтобы снизить риск, Databricks по умолчанию использует вариант системной подсказки безопасного режима Мистрала .
GTE Large (en)
Внимание
GTE Large (En) предоставляется на условиях лицензии Apache 2.0, под авторским правом © Apache Software Foundation. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.
общее текстовое внедрение (GTE) — это модель текстового внедрения, которая может сопоставить любой текст с 1024-мерным вектором внедрения и окном внедрения длиной 8192 токена. Эти векторы можно использовать в векторных базах данных для LLM, а также для задач, таких как извлечение, классификация, ответы на вопросы, кластеризация или семантический поиск. Эта конечная точка служит английской версией модели и не создает нормализованные внедрения.
Модели встраивания особенно эффективны при использовании в тандеме с крупномасштабными языковыми моделями (LLM) для дополненного извлечением генерации (RAG). GTE можно использовать для поиска соответствующих фрагментов текста в больших блоках документов, которые можно использовать в контексте LLM.
BGE Large (En)
baAI General Embedding (BGE) — это модель внедрения текста, которая может сопоставить любой текст с вектором внедрения 1024 измерения и окном внедрения 512 токенов. Эти векторы можно использовать в векторных базах данных для LLM, а также для задач, таких как извлечение, классификация, ответы на вопросы, кластеризация или семантический поиск. Эта конечная точка служит английской версией модели и создает нормализованные внедрения.
Модели встраивания особенно эффективны при использовании в тандеме с крупномасштабными языковыми моделями (LLM) для дополненного извлечением генерации (RAG). BGE можно использовать для поиска соответствующих фрагментов текста в больших блоках документов, которые можно использовать в контексте LLM.
В приложениях RAG можно повысить производительность системы извлечения, включив параметр инструкции. Авторы BGE рекомендуют попробовать инструкцию "Represent this sentence for searching relevant passages:"
для внедрения запросов, хотя её влияние на производительность зависит от области.
Дополнительные ресурсы
- Запрос базовых моделей
- Справочник по REST API модели
Foundation