APIs do Modelo de fundação do Databricks

Artigo
12/18/2024

Este artigo fornece uma visão geral das APIs do Modelo de Fundação no Azure Databricks. Inclui requisitos de utilização, modelos suportados e limitações.

O que são APIs do Databricks Foundation Model?

O Mosaic AI Model Serving agora suporta APIs de Modelo de Base que permitem acessar e consultar modelos abertos de última geração a partir de um ponto de extremidade de serviço. Com as APIs do Foundation Model, você pode criar aplicativos de forma rápida e fácil que aproveitam um modelo de IA generativa de alta qualidade sem manter sua própria implantação de modelo. As APIs do Modelo de Base são um Serviço Designado do Databricks, o que significa que ele usa o Databricks Geos para gerenciar a residência de dados ao processar o conteúdo do cliente.

As APIs do Modelo de Base são fornecidas nos seguintes modos de preços:

Pay-per-token: Esta é a maneira mais fácil de começar a acessar modelos de base no Databricks e é recomendada para começar sua jornada com APIs de modelo de fundação. Esse modo não foi projetado para aplicativos de alto rendimento ou cargas de trabalho de produção de alto desempenho.
Taxa de transferência provisionada: esse modo é recomendado para todas as cargas de trabalho de produção, especialmente aquelas que exigem alto rendimento, garantias de desempenho, modelos ajustados ou têm requisitos de segurança adicionais. Os endpoints de taxa de transferência provisionados estão disponíveis com certificações de conformidade como a HIPAA.

Consulte "Utilizar APIs de Foundation Model" para obter orientação sobre como usar esses modos e os modelos suportados.

Usando as APIs do Modelo de Fundação, você pode fazer o seguinte:

Consulte um LLM generalizado para verificar a validade de um projeto antes de investir mais recursos.
Consulte um LLM generalizado para criar uma prova de conceito rápida para um aplicativo baseado em LLM antes de investir em treinamento e implantar um modelo personalizado.
Use um modelo de base, juntamente com um banco de dados vetorial, para criar um chatbot usando a geração aumentada de recuperação (RAG).
Substitua modelos proprietários por alternativas abertas para otimizar o custo e o desempenho.
Compare LLMs de forma eficiente para ver qual é o melhor candidato para o seu caso de uso ou troque um modelo de produção por um de melhor desempenho.
Crie um aplicativo LLM para desenvolvimento ou produção sobre uma solução de LLM escalável e apoiada por SLA que pode suportar seus picos de tráfego de produção.

Requerimentos

Token de API Databricks para autenticar solicitações de ponto de extremidade.
Computação sem servidor (para modelos de taxa de transferência provisionada).
Um espaço de trabalho em uma das seguintes regiões suportadas:
- Regiões de pagamento por token.
- Regiões de taxa de transferência provisionadas.

Usar APIs de modelo de base

Você tem várias opções para usar as APIs do Modelo de Base.

As APIs são compatíveis com OpenAI, então você pode usar o cliente OpenAI para consulta. Você também pode usar a interface do usuário, o SDK Python das APIs de Modelos Básicos, o SDK de Implantações MLflow ou a API REST para consultar modelos suportados. O Databricks recomenda o uso do SDK ou API do cliente OpenAI para interações estendidas e a interface do usuário para testar o recurso.

Consulte Modelos de IA generativa de consulta para obter exemplos de pontuação.

APIs do modelo de base de pagamento por token

Você pode acessar modelos de pagamento por token em seu espaço de trabalho do Azure Databricks. Estes modelos são recomendados para começar. Para aceder a estes no seu espaço de trabalho, clique no separador Serviço na barra lateral esquerda. As APIs do Modelo de Base estão localizadas na parte superior da exibição da lista Pontos de Extremidade.

Servindo a lista de pontos de extremidade

A tabela a seguir resume os modelos suportados para pagamento por token. Consulte Modelos suportados para pagamento por token para obter informações adicionais sobre o modelo.

Se você quiser testar e conversar com esses modelos, você pode fazê-lo usando o AI Playground. Veja Bate-papo com LLMs e protótipos de aplicativos GenAI usando o AI Playground.

Importante

A partir de 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte para Meta-Llama-3.1-70B-Instruct nos endpoints de pagamento por token das APIs do Modelo de Fundação.
O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML.
Os seguintes modelos estão agora aposentados. Consulte Modelos retirados para obter os modelos de substituição recomendados.
- Llama 2 70B Bate-papo
- MPT 7B Instruir
- MPT 30B Instruir

Modelo	Tipo de tarefa	Ponto final	Notas
GTE Grande (Inglês)	Incorporar	`databricks-gte-large-en`	Não gera incorporações normalizadas.
Meta-Llama-3.3-70B-Instruct	Chat	`databricks-meta-llama-3-3-70b-instruct`
Meta-Llama-3.1-405B-Instruir*	Chat	`databricks-meta-llama-3-1-405b-instruct`	Consulte Limites de APIs do Modelo de Base para disponibilidade de região.
DBRX Instruir	Chat	`databricks-dbrx-instruct`	Consulte Limites de APIs do Modelo de Base para disponibilidade de região.
Instruções Mixtral-8x7B	Chat	`databricks-mixtral-8x7b-instruct`	Consulte Limites de APIs do Modelo de Base para disponibilidade de região.
BGE Large (Inglês)	Incorporar	`databricks-bge-large-en`	Consulte Limites de APIs do Modelo de Base para disponibilidade de região.

* Entre em contato com sua equipe de conta do Databricks se encontrar falhas de endpoint ou erros de estabilização ao usar esse modelo.

Consulte Modelos de IA generativa de consulta para obter orientação sobre como consultar APIs de modelo básico.
Consulte Referência da API REST do modelo de base para obter os parâmetros e a sintaxe necessários.

APIs de modelo de base de taxa de transferência provisionada

A taxa de transferência provisionada fornece pontos de extremidade com inferência otimizada para cargas de trabalho de modelo básico que exigem garantias de desempenho. O Databricks recomenda a taxa de transferência provisionada para cargas de trabalho de produção. Consulte APIs de modelo de base de taxa de transferência provisionada para obter um guia passo a passo sobre como implantar APIs de modelo de base no modo provisionado.

O suporte à taxa de transferência provisionada inclui:

Modelos base de todos os tamanhos. Os modelos básicos podem ser acessados usando o Databricks Marketplace, ou você pode alternativamente baixá-los do Hugging Face ou de outra fonte externa e registrá-los no Catálogo Unity. Esta última abordagem funciona com qualquer variante ajustada dos modelos suportados, independentemente do método de ajuste fino utilizado.
Variantes afinadas de modelos base, como modelos que são ajustados aos dados proprietários.
Pesos e tokenizadores totalmente personalizados, como aqueles treinados do zero ou pré-treinados continuados ou outras variações usando a arquitetura do modelo base (como CodeLlama).

A tabela a seguir resume as arquiteturas de modelo suportadas para taxa de transferência provisionada.

Importante

Meta Llama 3.3 está licenciado sob a LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável Llama 3.3.

Meta Llama 3.2 está licenciado sob a LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável da Llama 3.2.

Meta Llama 3.1 são licenciados sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Arquitetura do modelo	Tipos de tarefa	Notas
Meta Llama 3.3	Bate-papo ou conclusão	Consulte Limites de taxa de transferência provisionados para as variantes do modelo Meta Llama suportadas e sua disponibilidade regional.
Meta Lama 3,2 3B	Bate-papo ou conclusão
Meta Lama 3,2 1B	Bate-papo ou conclusão
Meta Lama 3,1	Bate-papo ou conclusão
Meta Lama 3	Bate-papo ou conclusão
Meta Lama 2	Bate-papo ou conclusão
DBRX	Bate-papo ou conclusão	Consulte Limites de taxa de transferência provisionados para disponibilidade da região.
Mistral	Bate-papo ou conclusão
Mixtral	Bate-papo ou conclusão
TMF	Bate-papo ou conclusão
GTE v1.5 (Inglês)	Incorporar	Não gera incorporações normalizadas.
BGE v1.5 (Inglês)	Incorporar

Limitações

Consulte Limites das APIs do Modelo de Fundação.

Partilhar via