Поделиться через


Поддерживаемые модели для оплаты за токен

Внимание

Вдоступны только Meta Llama 3.3 70B Instruct модели.

См. ограничения API Foundation Model для моделей с оплатой за токены, поддерживаемых только в регионах США.

В этой статье описываются современные открытые модели, поддерживаемые API-интерфейсами Databricks Foundation Model в режиме оплаты за токен.

Запросы можно отправлять в эти модели с помощью конечных точек с оплатой за токен, доступных в рабочей области Databricks. Посмотрите раздел о моделях на основе запросов и поддерживаемых моделей с оплатой за токен table, чтобы узнать имена конечных точек моделей для использования.

Помимо поддержки моделей в режиме оплаты за токен, API базовых моделей также предлагают режим обеспеченной пропускной способности. Databricks рекомендует выделенную пропускную способность для производственных рабочих нагрузок. Этот режим поддерживает все модели семейства архитектур моделей (например, модели DBRX), включая тонко настроенные и настраиваемые предварительно обученные модели, поддерживаемые в режиме оплаты за токен. Сведения о поддерживаемых архитектурах см. в API-интерфейсах базовой модели под установленную пропускную способность .

Вы можете взаимодействовать с этими поддерживаемыми моделями с помощью ИИ Платформа.

Meta Llama 3.3 70B

Важный

Начиная с 11 декабря 2024 года Meta-Llama-3.3-70B-Instruct приходит на смену поддержку Meta-Llama-3.1-70B-Instruct в точках взаимодействия Foundation Model API с оплатой за каждый токен.

Важный

Meta Llama 3.3 лицензируется в соответствии с Сообщественной лицензией LLAMA 3.3, Copyright © Meta Platforms, Inc. Все права защищены. Клиенты несут ответственность за соблюдение условий этой лицензии и Политика допустимого использования Llama 3.3.

Meta-Llama-3.3-70B-Instruct — это современная модель обработки естественного языка с контекстом на 128 000 маркеров, созданная и обученная компанией Meta. Модель поддерживает несколько языков и оптимизирована для вариантов использования диалога. Узнайте больше о мета-Лломе 3.3.

Как и в других крупных языковых моделях, выходные данные Llama-3 могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать получение дополненного поколения (RAG) в сценариях, where точность особенно важна.

Мета Ллома 3.1 405B Инструктаж

Важный

Использование этой модели с API Foundation находится в общедоступной предварительной версии. Обратитесь к группе учетных записей Databricks, если при использовании этой модели возникают сбои конечных точек или ошибки стабилизации.

Важный

Meta Llama 3.1 лицензирован в соответствии с сообщественным лицензированием LLAMA 3.1, Copyright © Meta Platforms, Inc. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.

Meta-Llama-3.1-405B-Instruct является крупнейшей открыто доступной моделью большого языка, созданной и обученной мета, и распространяется машинным обучением Azure с помощью модели AzureML Catalog. Использование этой модели позволяет клиентам разблокировать новые возможности, такие как расширенное многошаговое рассуждение и высококачественная генерация синтетических данных. Эта модель конкурентоспособна с GPT-4-Turbo с точки зрения качества.

Как и Meta-Llama-3.1-70B-Instruct, эта модель имеет контекст 128 000 маркеров и поддержку на десяти языках. Он соответствует человеческим предпочтениям для полезности и безопасности и оптимизирован для вариантов использования диалога. Дополнительные сведения о моделях Meta Llama 3.1.

Как и в других крупных языковых моделях, выходные данные Llama-3.1 могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать получение дополненного поколения (RAG) в сценариях, where точность особенно важна.

инструкции DBRX

Важный

DBRX предоставляется в соответствии с лицензией Databricks Open Model License, Copyright © Databricks, Inc. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям моделей, включая политику допустимого использования Databricks.

DBRX Instruct — это передовая языковая модель типа "смешение экспертов" (MoE), обученная компанией Databricks.

Модель превзошел модели с открытым исходным кодом на стандартных тестах и работает на широком set задач естественного языка, таких как сводка текста, ответы на вопросы, извлечение и программирование.

DBRX Instruct может обрабатывать до 32k токенов входной длины и генерировать выходной текст длиной до 4k токенов. Благодаря своей архитектуре MoE, DBRX Instruct является очень эффективным для вывода, активируя только 36B parameters из общей сложности 132B обученных parameters. Конечная точка с оплатой за токен, обслуживающая эту модель, имеет скорость limit одного запроса в секунду. См. ограничения и регионы обслуживания моделей.

Как и в других крупных языковых моделях, выходные данные инструкции DBRX могут опустить некоторые факты и иногда создавать ложные сведения. Databricks рекомендует использовать получение дополненного поколения (RAG) в сценариях, where точность особенно важна.

Модели DBRX используют следующую системную строку по умолчанию для обеспечения релевантности и точности в ответах модели:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Инструкции

Mixtral-8x7B Instruct является высококачественной разреженной смесью экспертной модели (SMoE), обученной Мистраль ИИ. Mixtral-8x7B Instruct можно использовать для различных задач, таких как ответы на вопросы, резюмирование и извлечение.

Mixtral может обрабатывать контекст длиной до 32 тыс. токенов. Mixtral может обрабатывать английский, французский, итальянский, немецкий и испанский. Mixtral сопоставим или превосходит Llama 2 70B и GPT3.5 на большинстве эталонных показателей (Производительность Mixtral), при этом работая в четыре раза быстрее, чем Llama 70B при выполнении вывода.

Аналогично другим крупным языковым моделям, на модель Mixtral-8x7B Instruct не следует полагаться для получения фактически точной информации. Хотя было предпринято большое усилие по очистке предварительно подготовленных данных, возможно, что эта модель может generate непристойные, предвзятые или иным образом оскорбительные выходные данные. Чтобы снизить риск, Databricks по умолчанию использует вариант системной подсказки безопасного режима Мистрала .

GTE Large (en)

Важный

GTE Large (En) предоставляется на условиях лицензии Apache 2.0, под авторским правом © Apache Software Foundation. Все права защищены. Клиенты отвечают за обеспечение соответствия применимым лицензиям модели.

общего внедрения текста (GTE) — это модель внедрения текста, которая может сопоставить любой текст с 1024-мерным вектором внедрения и внедрением размером в 8192 токена . Эти векторы можно использовать в векторных базах данных для LLM, а также для задач, таких как извлечение, классификация, ответы на вопросы, кластеризация или семантический поиск. Эта конечная точка обслуживает версию модели на английском языке и не имеет generate-нормализованных векторов вложений.

Модели встраивания особенно эффективны при использовании в тандеме с крупномасштабными языковыми моделями (LLM) для дополненного извлечением генерации (RAG). GTE можно использовать для поиска соответствующих фрагментов текста в больших блоках документов, которые можно использовать в контексте LLM.

BGE Large (En)

baAI General Embedding (BGE) — это модель внедрения текста, которая может сопоставить любой текст с вектором внедрения 1024 измерения и внедрением из 512 токенов. Эти векторы можно использовать в векторных базах данных для LLM, а также для задач, таких как извлечение, классификация, ответы на вопросы, кластеризация или семантический поиск. Эта конечная точка служит английской версией модели и создает нормализованные внедрения.

Модели внедрения особенно эффективны при использовании в тандеме с LLM для получения дополненного поколения (RAG). BGE можно использовать для поиска соответствующих фрагментов текста в больших блоках документов, которые можно использовать в контексте LLM.

В приложениях RAG можно повысить производительность системы извлечения, включив параметр инструкции. Авторы BGE рекомендуют попробовать инструкцию "Represent this sentence for searching relevant passages:" для внедрения запросов, хотя её влияние на производительность зависит от области.

Дополнительные ресурсы