Modelos suportados para pagamento por token

Artigo
01/30/2025

Importante

Apenas os modelos GTE Large (En) e Meta Llama 3.3 70B Instruct estão disponíveis nas regiões da UE e dos EUA que apoiam o modelo pay-per-token .

Consulte limites das APIs do Modelo de Fundação para os modelos de pagamento por token suportados apenas em regiões dos EUA.

Este artigo descreve os modelos abertos de última geração suportados pelas APIs do Databricks Foundation Model no modo de pagamento por token.

Você pode enviar pedidos de consulta para estes modelos usando os endpoints de pagamento por token disponíveis no seu espaço de trabalho Databricks. Consulte Modelos básicos de consulta e da tabela de modelos suportados por pagamento por token para obter os nomes dos pontos de extremidade do modelo a serem usados.

Além de oferecer suporte a modelos no modo de pagamento por token, as APIs do Foundation Model também oferecem o modo de taxa de transferência provisionada. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Este modo suporta todos os modelos de uma família de arquiteturas de modelos (por exemplo, modelos DBRX), incluindo os modelos afinados, personalizados e pré-treinados suportados no modo pay-per-token. Consulte APIs do Modelo de Base de transferência provisionado para obter a lista de arquiteturas suportadas.

Você pode interagir com esses modelos suportados usando o AI Playground.

Meta Llama 3.3 70B Instruir

Importante

A partir de 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte para Meta-Llama-3.1-70B-Instruct em endpoints pay-per-token de APIs do Foundation Model.

Importante

Meta Llama 3.3 está licenciado sob a LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável Llama 3.3.

Meta-Llama-3.3-70B-Instruct é um modelo de linguagem grande de última geração com um contexto de 128.000 tokens que foi construído e treinado pela Meta. O modelo suporta vários idiomas e é otimizado para casos de uso de diálogo. Saiba mais sobre o Meta Llama 3.3.

Semelhante a outros grandes modelos de linguagem, a saída do Llama-3 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.

Meta Llama 3.1 405B Instruir

Importante

O uso desse modelo com APIs do Foundation Model está no Public Preview. Entre em contato com sua equipe de conta do Databricks se encontrar falhas de endpoint ou erros de estabilização ao usar esse modelo.

Importante

Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta, e é distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML. O uso desse modelo permite que os clientes desbloqueiem novos recursos, como raciocínio avançado em várias etapas e de geração de dados sintéticos de alta qualidade. Este modelo é competitivo com o GPT-4-Turbo em termos de qualidade.

Tal como o Meta-Llama-3.1-70B-Instruct, este modelo tem um contexto de 128.000 tokens e suporte em dez idiomas. Ele se alinha com as preferências humanas para utilidade e segurança, e é otimizado para casos de uso de diálogo. Saiba mais sobre os modelos Meta Llama 3.1.

Semelhante a outros grandes modelos de linguagem, a saída do Llama-3.1 pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.

DBRX Instruir

Importante

Este modelo não é mais suportado após 30 de abril de 2025. Consulte Modelos aposentados para obter a substituição de modelo recomendada.

Importante

DBRX é fornecido sob e sujeito ao Databricks Open Model License, Copyright © Databricks, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis, incluindo a política de Uso Aceitável Databricks.

DBRX Instruct é um modelo de linguagem de mistura de especialistas (MoE) de última geração treinado pela Databricks.

O modelo supera os modelos de código aberto estabelecidos em benchmarks padrão e se destaca em um amplo conjunto de tarefas de linguagem natural, tais como: resumo de texto, resposta a perguntas, extração e codificação.

DBRX Instruct pode lidar com até 32k tokens de comprimento de entrada e gera saídas de até 4k tokens. Graças à sua arquitetura MoE, o DBRX Instruct é altamente eficiente para inferência, ativando apenas 36 mil milhões de parâmetros de um total de 132 mil milhões de parâmetros treinados. O endpoint de pagamento por token que serve este modelo tem um limite de consultas de uma por segundo. Consulte os limites e regiões do Serviço de Modelos .

Semelhante a outros modelos de linguagem grandes, a saída DBRX Instruct pode omitir alguns fatos e, ocasionalmente, produzir informações falsas. A Databricks recomenda o uso da geração aumentada de recuperação (RAG) em cenários onde a precisão é especialmente importante.

Os modelos DBRX usam o seguinte prompt de sistema padrão para garantir relevância e precisão nas respostas do modelo:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Instruções Mixtral-8x7B

Importante

Este modelo não é mais suportado após 30 de abril de 2025. Consulte "Modelos Aposentados" para a recomendação de substituição de modelo.

O Mixtral-8x7B Instruct é um modelo de mistura esparsa de especialistas de alta qualidade (SMoE) treinado pela Mistral AI. O Mixtral-8x7B Instruct pode ser usado para uma variedade de tarefas, tais como resposta a perguntas, sumarização e extração.

O Mixtral pode lidar com comprimentos de contexto de até 32k tokens. O Mixtral pode processar inglês, francês, italiano, alemão e espanhol. O Mixtral corresponde ou supera o Llama 2 70B e o GPT3.5 na maioria dos benchmarks (desempenho do Mixtral), sendo quatro vezes mais rápido do que o Llama 70B durante a inferência.

Semelhante a outros modelos de linguagem de grande porte, não se deve confiar no modelo Mixtral-8x7B Instruct para produzir informações factualamente precisas. Embora grandes esforços tenham sido feitos para limpar os dados de pré-treinamento, é possível que esse modelo possa gerar saídas obscenas, tendenciosas ou ofensivas. Para reduzir o risco, o Databricks usa como padrão uma variante do prompt do sistema de modo de segurança do Mistral.

GTE Grande (pt)

Importante

GTE Large (En) é fornecido sob e sujeito ao Apache 2.0 License, Copyright © The Apache Software Foundation, Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

General Text Embedding (GTE) é um modelo de Incorporação de Texto Geral que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 8192 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, agrupamento ou pesquisa semântica. Este ponto de extremidade serve a versão em inglês do modelo e não gera incorporações normalizadas.

Os modelos de integração são especialmente eficazes quando utilizados em conjunto com LLMs para casos de uso de geração aumentada por recuperação (RAG). O GTE pode ser usado para encontrar trechos de texto relevantes em grandes pedaços de documentos que podem ser usados no contexto de um LLM.

BGE Grande (En)

BAAI General Embedding (BGE) é um modelo de incorporação de texto que pode mapear qualquer texto para um vetor de incorporação de 1024 dimensões e uma janela de incorporação de 512 tokens. Esses vetores podem ser usados em bancos de dados vetoriais para LLMs e para tarefas como recuperação, classificação, resposta a perguntas, agrupamento ou pesquisa semântica. Este ponto de extremidade serve a versão em inglês do modelo e gera incorporações normalizadas.

Os modelos de integração são especialmente eficazes quando utilizados em conjunto com LLMs para casos de uso de geração aumentada por recuperação (RAG). O BGE pode ser usado para encontrar trechos de texto relevantes em grandes blocos de documentos que podem ser usados no contexto de um LLM.

Em aplicativos RAG, você pode melhorar o desempenho do seu sistema de recuperação incluindo um parâmetro de instrução. Os autores do BGE recomendam tentar a instrução "Represent this sentence for searching relevant passages:" para embeddings de consulta, embora o seu impacto no desempenho dependa do domínio.

Recursos adicionais

Modelos de base de consulta
Referência da API REST do modelo Foundation

Partilhar via

Modelos suportados para pagamento por token

Meta Llama 3.3 70B Instruir

Meta Llama 3.1 405B Instruir

DBRX Instruir

Instruções Mixtral-8x7B

GTE Grande (pt)

BGE Grande (En)

Recursos adicionais

Comentários

Recursos adicionais