APIs de foundation model do Databricks
Este artigo fornece uma visão geral das APIs de foundation model no Azure Databricks. Ele inclui requisitos de uso, modelos com suporte e limitações.
O que são as APIs de foundation model do Databricks?
O Mosaic AI Model Serving agora dá suporte a APIs de Modelos Fundamentais, que permitem acessar e consultar modelos abertos de última geração a partir de um ponto de extremidade de serviço. Com as APIs do Modelo Base, você pode criar aplicativos de maneira rápida e fácil que aproveitam um modelo de IA generativa de alta qualidade sem manter uma implantação de modelo própria. As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que ele usa o Databricks Geos para gerenciar a residência de dados ao processar o conteúdo do cliente.
As APIs do Modelo de Fundação são fornecidas em dois modos de preço:
- Pagamento por token: esse é o modo mais fácil de começar a acessar modelos fundamentais no Databricks e é recomendado para iniciar sua jornada com as APIs de Modelos Fundamentais. Esse modo não foi projetado para aplicativos de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.
- Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos ajustados ou que têm requisitos de segurança adicionais. Os pontos de extremidade de taxa de transferência provisionados estão disponíveis com certificações de conformidade como HIPAA.
Confira Usar APIs de foundation model para obter diretrizes sobre como usar esses dois modos e os modelos com suporte.
Usando as APIs de Modelos Fundamentais, você pode:
- Consultar uma LLM generalizada para verificar a validade de um projeto antes de investir mais recursos.
- Consultar uma LLM generalizada para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantação de um modelo personalizado.
- Usar um modelo de base, juntamente com um banco de dados vetor, para criar um chatbot usando RAG (geração aumentada de recuperação).
- Substitua modelos proprietários por alternativas abertas para otimizar custo e desempenho.
- Comparar LLMs com eficiência para ver qual é o melhor candidato para seu caso de uso ou trocar um modelo de produção por um que tenha melhor desempenho.
- Criar um aplicativo de LLM para desenvolvimento ou produção com base em uma solução de serviço de LLM escalonável e respaldada por SLA que possa dar suporte aos picos de tráfego de produção.
Requisitos
- Token de API do Databricks para autenticar solicitações de ponto de extremidade.
- Computação sem servidor (para modelos de taxa de transferência provisionados).
- Um espaço de trabalho em uma região com suporte:
Usar APIs de foundation model
Você tem várias opções para usar as APIs de Modelos Fundamentais.
As APIs são compatíveis com OpenAI, então você pode usar o cliente OpenAI para consultas. Você também pode usar a IU, o SDK Python das APIs dos Modelos Fundamentais, o SDK de implantações do MLflow ou a API REST para consultar modelos com suporte. O Databricks recomenda usar o SDK ou API do client OpenAI para interações estendidas e a interface do usuário para experimentar o recurso.
Consulte Consultar modelos de IA generativa para obter exemplos de pontuação.
APIs de Modelo de Base de pagamento por token
Os modelos de pagamento por tokens são acessíveis em seu workspace do Azure Databricks e são recomendados para começar. Para acessá-los em seu workspace, navegue até a guia Servindo na barra lateral esquerda. As APIs de foundation model estão localizadas na parte superior da exibição de lista pontos de extremidade.
A tabela a seguir resume os modelos com suporte para pagamento por token. Veja Modelos suportados para pagamento por token para obter informações adicionais sobre o modelo.
Se você quiser testar e conversar com esses modelos, poderá fazer isso usando o AI Playground. Confira Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.
Importante
- A partir de 23 de julho de 2024, Meta-Llama-3.1-70B-Instruct substitui o suporte para Meta-Llama-3-70B-Instruct em pontos de extremidade de pagamento por token de APIs do Foundation Model.
- O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de ponta abertamente disponível, criado e treinado pela Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML
- Os seguintes modelos agora estão aposentados. Consulte Modelos desativados para obter os modelos de substituição recomendados.
- Llama 2 70B Chat
- Instrução do MPT 7B
- MPT 30B Instruct
Modelar | Tipo de tarefa | Ponto de extremidade | Observações |
---|---|---|---|
GTE Large (English) | Inserção | databricks-gte-large-en |
Não gera incorporações normalizadas. |
Meta-Llama-3.1-70B-Instruct | Chat | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | Chat | databricks-meta-llama-3-1-405b-instruct |
Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região. |
DBRX Instruct | Chat | databricks-dbrx-instruct |
Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região. |
Mixtral-8x7B Instruct | Chat | databricks-mixtral-8x7b-instruct |
Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região. |
BGE Large (English) | Inserção | databricks-bge-large-en |
Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região. |
*
Entre em contato com sua equipe de conta do Databricks se encontrar falhas de ponto de extremidade ou erros de estabilização ao usar esse modelo.
- Consulte Consultar modelos de IA generativa para obter diretrizes sobre como consultar APIs do Foundation Model.
- Confira Referência da API REST de foundation model para obter os parâmetros e a sintaxe necessários.
APIs de Modelo de Base de taxa de transferência provisionada
A taxa de transferência provisionada fornece aos pontos de extremidade inferência otimizada para cargas de trabalho de modelos fundamentais que exigem garantias de desempenho. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Confira APIs do Foundation Model de taxa de transferência provisionada para obter orientação passo a passo sobre como implantar APIs do Foundation Model no modo de taxa de transferência provisionada.
O suporte à taxa de transferência provisionada inclui:
- Modelos de base de todos os tamanhos, como a Base DBRX. Os modelos básicos podem ser acessados usando o Databricks Marketplace ou, alternativamente, você pode baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo do Unity. A última abordagem funciona com qualquer variante ajustada dos modelos com suporte, independentemente do método de ajuste fino empregado.
- Variantes ajustadas de modelos básicos, como LlamaGuard-7B ou
meta-llama/Llama-3.1-8B
. Isso inclui modelos ajustados em dados proprietários. - Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados contínuos ou outras variações usando a arquitetura do modelo base (como CodeLlama).
A tabela a seguir resume as arquiteturas de modelo com suporte para a taxa de transferência provisionada.
Importante
O Meta Llama 3.2 está licenciado sob a LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir sua conformidade com os termos desta licença e com a Política de Uso Aceitável do Llama 3.2.
O Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.
Arquitetura do modelo | Tipos de tarefa | Observações |
---|---|---|
Meta Llama 3.2 3B | Chat ou conclusão | Consulte Limites de taxa de transferência provisionada para obter variantes de modelo com suporte e disponibilidade de região. |
Meta Llama 3.2 1B | Chat ou conclusão | Consulte Limites de taxa de transferência provisionada para obter variantes de modelo com suporte e disponibilidade de região. |
Meta Llama 3.1 | Chat ou conclusão | Consulte Limites de taxa de transferência provisionada para obter variantes de modelo com suporte e disponibilidade de região. |
Meta Llama 3 | Chat ou conclusão | |
Meta Llama 2 | Chat ou conclusão | |
DBRX | Chat ou conclusão | Consulte Limites de taxa de transferência provisionada para disponibilidade de região. |
Mistral | Chat ou conclusão | |
Mixtral | Chat ou conclusão | |
MPT | Chat ou conclusão | |
GTE v1.5 (inglês) | Inserção | Não gera incorporações normalizadas. |
BGE v1.5 (inglês) | Inserção |
Limitações
Consulte Limites das APIs do Modelo de Fundação.