Compartilhar via


APIs de foundation model do Databricks

Este artigo fornece uma visão geral das APIs de foundation model no Azure Databricks. Ele inclui requisitos de uso, modelos com suporte e limitações.

O que são as APIs de foundation model do Databricks?

O Mosaic AI Model Serving agora dá suporte a APIs de Modelos Fundamentais, que permitem acessar e consultar modelos abertos de última geração a partir de um ponto de extremidade de serviço. Com as APIs do Modelo Base, você pode criar aplicativos de maneira rápida e fácil que aproveitam um modelo de IA generativa de alta qualidade sem manter uma implantação de modelo própria. As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que ele usa o Databricks Geos para gerenciar a residência de dados ao processar o conteúdo do cliente.

As APIs do Modelo de Fundação são fornecidas em dois modos de preço:

  • Pagamento por token: esse é o modo mais fácil de começar a acessar modelos fundamentais no Databricks e é recomendado para iniciar sua jornada com as APIs de Modelos Fundamentais. Esse modo não foi projetado para aplicativos de alta taxa de transferência ou cargas de trabalho de produção de alto desempenho.
  • Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alta taxa de transferência, garantias de desempenho, modelos ajustados ou que têm requisitos de segurança adicionais. Os pontos de extremidade de taxa de transferência provisionados estão disponíveis com certificações de conformidade como HIPAA.

Confira Usar APIs de foundation model para obter diretrizes sobre como usar esses dois modos e os modelos com suporte.

Usando as APIs de Modelos Fundamentais, você pode:

  • Consultar uma LLM generalizada para verificar a validade de um projeto antes de investir mais recursos.
  • Consultar uma LLM generalizada para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantação de um modelo personalizado.
  • Usar um modelo de base, juntamente com um banco de dados vetor, para criar um chatbot usando RAG (geração aumentada de recuperação).
  • Substitua modelos proprietários por alternativas abertas para otimizar custo e desempenho.
  • Comparar LLMs com eficiência para ver qual é o melhor candidato para seu caso de uso ou trocar um modelo de produção por um que tenha melhor desempenho.
  • Criar um aplicativo de LLM para desenvolvimento ou produção com base em uma solução de serviço de LLM escalonável e respaldada por SLA que possa dar suporte aos picos de tráfego de produção.

Requisitos

Usar APIs de foundation model

Você tem várias opções para usar as APIs de Modelos Fundamentais.

As APIs são compatíveis com OpenAI, então você pode usar o cliente OpenAI para consultas. Você também pode usar a IU, o SDK Python das APIs dos Modelos Fundamentais, o SDK de implantações do MLflow ou a API REST para consultar modelos com suporte. O Databricks recomenda usar o SDK ou API do client OpenAI para interações estendidas e a interface do usuário para experimentar o recurso.

Consulte Consultar modelos de IA generativa para obter exemplos de pontuação.

APIs de Modelo de Base de pagamento por token

Os modelos de pagamento por tokens são acessíveis em seu workspace do Azure Databricks e são recomendados para começar. Para acessá-los em seu workspace, navegue até a guia Servindo na barra lateral esquerda. As APIs de foundation model estão localizadas na parte superior da exibição de lista pontos de extremidade.

Lista de pontos de extremidade de serviço

A tabela a seguir resume os modelos com suporte para pagamento por token. Veja Modelos suportados para pagamento por token para obter informações adicionais sobre o modelo.

Se você quiser testar e conversar com esses modelos, poderá fazer isso usando o AI Playground. Confira Chat com LLMs e protótipos de aplicativos GenAI usando o AI Playground.

Importante

  • A partir de 23 de julho de 2024, Meta-Llama-3.1-70B-Instruct substitui o suporte para Meta-Llama-3-70B-Instruct em pontos de extremidade de pagamento por token de APIs do Foundation Model.
  • O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de ponta abertamente disponível, criado e treinado pela Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML
  • Os seguintes modelos agora estão aposentados. Consulte Modelos desativados para obter os modelos de substituição recomendados.
    • Llama 2 70B Chat
    • Instrução do MPT 7B
    • MPT 30B Instruct
Modelar Tipo de tarefa Ponto de extremidade Observações
GTE Large (English) Inserção databricks-gte-large-en Não gera incorporações normalizadas.
Meta-Llama-3.1-70B-Instruct Chat databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* Chat databricks-meta-llama-3-1-405b-instruct Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região.
DBRX Instruct Chat databricks-dbrx-instruct Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região.
Mixtral-8x7B Instruct Chat databricks-mixtral-8x7b-instruct Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região.
BGE Large (English) Inserção databricks-bge-large-en Consulte Limites das APIs de Modelo Fundamentais para a disponibilidade da região.

* Entre em contato com sua equipe de conta do Databricks se encontrar falhas de ponto de extremidade ou erros de estabilização ao usar esse modelo.

APIs de Modelo de Base de taxa de transferência provisionada

A taxa de transferência provisionada fornece aos pontos de extremidade inferência otimizada para cargas de trabalho de modelos fundamentais que exigem garantias de desempenho. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Confira APIs do Foundation Model de taxa de transferência provisionada para obter orientação passo a passo sobre como implantar APIs do Foundation Model no modo de taxa de transferência provisionada.

O suporte à taxa de transferência provisionada inclui:

  • Modelos de base de todos os tamanhos, como a Base DBRX. Os modelos básicos podem ser acessados usando o Databricks Marketplace ou, alternativamente, você pode baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo do Unity. A última abordagem funciona com qualquer variante ajustada dos modelos com suporte, independentemente do método de ajuste fino empregado.
  • Variantes ajustadas de modelos básicos, como LlamaGuard-7B ou meta-llama/Llama-3.1-8B. Isso inclui modelos ajustados em dados proprietários.
  • Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados contínuos ou outras variações usando a arquitetura do modelo base (como CodeLlama).

A tabela a seguir resume as arquiteturas de modelo com suporte para a taxa de transferência provisionada.

Importante

O Meta Llama 3.2 está licenciado sob a LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir sua conformidade com os termos desta licença e com a Política de Uso Aceitável do Llama 3.2.

O Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Arquitetura do modelo Tipos de tarefa Observações
Meta Llama 3.2 3B Chat ou conclusão Consulte Limites de taxa de transferência provisionada para obter variantes de modelo com suporte e disponibilidade de região.
Meta Llama 3.2 1B Chat ou conclusão Consulte Limites de taxa de transferência provisionada para obter variantes de modelo com suporte e disponibilidade de região.
Meta Llama 3.1 Chat ou conclusão Consulte Limites de taxa de transferência provisionada para obter variantes de modelo com suporte e disponibilidade de região.
Meta Llama 3 Chat ou conclusão
Meta Llama 2 Chat ou conclusão
DBRX Chat ou conclusão Consulte Limites de taxa de transferência provisionada para disponibilidade de região.
Mistral Chat ou conclusão
Mixtral Chat ou conclusão
MPT Chat ou conclusão
GTE v1.5 (inglês) Inserção Não gera incorporações normalizadas.
BGE v1.5 (inglês) Inserção

Limitações

Consulte Limites das APIs do Modelo de Fundação.

Recursos adicionais