Поддерживаемые модели для оплаты за токен
Внимание
В поддерживаемых регионах ЕС и США доступны только модели инструкций GTE Large (En) и Meta Llama 3.1 70B.
См . ограничения API модели Foundation для моделей с оплатой за токены, поддерживаемых только в регионах США.
В этой статье описываются современные открытые модели, поддерживаемые API модели Databricks Foundation в режиме оплаты за токен.
Запросы можно отправлять в эти модели с помощью конечных точек с оплатой за токен, доступных в рабочей области Databricks. Сведения об используемых именах конечных точек модели модели см. в таблице моделей, созданных для создания запросов и оплаты за токен.
Помимо поддержки моделей в режиме оплаты за токен, API модели Foundation также предлагают подготовленный режим пропускной способности. Databricks рекомендует подготовленную пропускную способность для рабочих нагрузок. Этот режим поддерживает все модели семейства архитектур модели (например, модели DBRX), включая настраиваемые и настраиваемые предварительно обученные модели, поддерживаемые в режиме оплаты за токен. Список поддерживаемых архитектур см . в API-интерфейсах модели модели подготовки подготовленной пропускной способности.
Вы можете взаимодействовать с этими поддерживаемыми моделями с помощью игровой площадки искусственного интеллекта.
Мета Ллома 3.1 405B Инструктирует
Внимание
Использование этой модели с API-интерфейсами модели Foundation находится в общедоступной предварительной версии. Обратитесь к группе учетных записей Databricks, если при использовании этой модели возникают сбои конечных точек или ошибки стабилизации.
Внимание
Meta Llama 3.1 лицензирован в соответствии с лицензией сообщества LLAMA 3.1, © Meta Platform, Inc. Все права зарезервированы. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.
Meta-Llama-3.1-405B-Instruct является крупнейшей открыто доступной моделью большого языка, созданной и обученной мета, и распространяется Машинное обучение Azure с помощью каталога моделей AzureML. Использование этой модели позволяет клиентам разблокировать новые возможности, такие как расширенные, многофакторные причины и высококачественное создание синтетических данных. Эта модель конкурентоспособна с GPT-4-Turbo с точки зрения качества.
Как и Meta-Llama-3.1-70B-Instruct, эта модель имеет контекст 128 000 маркеров и поддержку на десяти языках. Он соответствует человеческим предпочтениям для полезности и безопасности и оптимизирован для вариантов использования диалога. Дополнительные сведения о моделях Meta Llama 3.1.
Как и в других крупных языковых моделях, выходные данные Llama-3.1 могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать расширенное поколение (RAG) в сценариях, где точность особенно важна.
Указание DBRX
Внимание
DBRX предоставляется под лицензией Databricks Open Model, Copyright © Databricks, Inc. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели, включая политику допустимого использования Databricks.
Инструкции DBRX — это модель языка, обученная Databricks.
Модель выходит за пределы установленных открытый код моделей на стандартных тестах и выполняется в широком наборе задач естественного языка, таких как сводка текста, ответы на вопросы, извлечение и кодирование.
Инструкции DBRX Instruct могут обрабатывать до 32 кб маркеров входной длины и генерировать выходные данные до 4 кб маркеров. Благодаря своей архитектуре MoE DBRX Instruct является очень эффективным для вывода, активируя только 36B параметров из общей сложности 132B обученных параметров. Конечная точка с оплатой за токен, обслуживающая эту модель, имеет ограничение скорости одного запроса в секунду. См . ограничения и регионы обслуживания моделей.
Как и в других крупных языковых моделях, выходные данные инструкции DBRX могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать расширенное поколение (RAG) в сценариях, где точность особенно важна.
Модели DBRX используют следующую системную строку по умолчанию для обеспечения релевантности и точности в ответах модели:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Мета Ллома 3.1 70B Инструкция
Внимание
Начиная с 23 июля 2024 г., мета-Ллома-3.1-70B-Instruct заменяет поддержку мета-Ллома-3-70B-инструктажа в конечных точках api модели foundation.
Внимание
Meta Llama 3.1 лицензирован в соответствии с лицензией сообщества LLAMA 3.1, © Meta Platform, Inc. Все права зарезервированы. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.
Meta-Llama-3.1-70B-Instruct — это модель большого языка с контекстом 128 000 маркеров, созданных и обученных Мета. Модель имеет поддержку на десяти языках, соответствует человеческим предпочтениям для полезности и безопасности и оптимизирован для вариантов использования диалога. Дополнительные сведения о моделях Meta Llama 3.1.
Как и в других крупных языковых моделях, выходные данные Llama-3 могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать расширенное поколение (RAG) в сценариях, где точность особенно важна.
Инструкции Mixtral-8x7B
Mixtral-8x7B Instruct является высококачественной разреженной смесью экспертной модели (SMoE), обученной Мистраль ИИ. Инструкции Mixtral-8x7B можно использовать для различных задач, таких как ответы на вопросы, суммирование и извлечение.
Mixtral может обрабатывать длину контекста до 32 кб маркеров. Mixtral может обрабатывать английский, французский, итальянский, немецкий и испанский. Mixtral совпадений или переиграет Ллама 2 70B и GPT3.5 на большинстве эталонных показателей (производительность Mixtral), в то время как в четыре раза быстрее, чем Llama 70B во время вывода.
Аналогично другим крупным языковым моделям, модель структуры Mixtral-8x7B не должна полагаться на создание фактически точной информации. Хотя было предпринято большое усилие по очистке предварительно подготовленных данных, возможно, что эта модель может генерировать непристойные, предвзятые или иным образом оскорбительные выходные данные. Чтобы снизить риск, Databricks по умолчанию использует вариант запроса системы безопасного режима Мистраля.
GTE large (en)
Внимание
GtE Large (En) предоставляется в соответствии с лицензией Apache 2.0, авторским правом © Apache Software Foundation, всеми правами зарезервированы. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.
General Text Embedding (GTE) — это модель внедрения текста, которая может сопоставить любой текст с вектором внедрения 1024 измерения и окном внедрения 8192 токенов. Эти векторы можно использовать в векторных базах данных для LLM, а также для задач, таких как извлечение, классификация, ответы на вопросы, кластеризация или семантический поиск. Эта конечная точка служит английской версией модели и не создает нормализованные внедрения.
Модели внедрения особенно эффективны при использовании в тандеме с LLM для получения дополненного поколения (RAG). GTE можно использовать для поиска соответствующих фрагментов текста в больших блоках документов, которые можно использовать в контексте LLM.
BGE Large (en)
BaAI General Embedding (BGE) — это модель внедрения текста, которая может сопоставить любой текст с вектором внедрения 1024 измерения и окном внедрения 512 токенов. Эти векторы можно использовать в векторных базах данных для LLM, а также для задач, таких как извлечение, классификация, ответы на вопросы, кластеризация или семантический поиск. Эта конечная точка служит английской версией модели и создает нормализованные внедрения.
Модели внедрения особенно эффективны при использовании в тандеме с LLM для получения дополненного поколения (RAG). BGE можно использовать для поиска соответствующих фрагментов текста в больших блоках документов, которые можно использовать в контексте LLM.
В приложениях RAG можно повысить производительность системы извлечения, включив параметр инструкции. Авторы BGE рекомендуют попробовать инструкцию "Represent this sentence for searching relevant passages:"
по внедрению запросов, хотя его влияние на производительность зависит от домена.