Modelos de base suportados no Mosaic AI Model Serving

Artigo
01/30/2025

Este artigo descreve os modelos de base que podem ser servidos usando Mosaic AI Model Serving.

Os modelos de base são redes neurais grandes e pré-treinadas que são treinadas em grandes e amplas gamas de dados. Esses modelos são projetados para aprender padrões gerais em linguagem, imagens ou outros tipos de dados e podem ser ajustados para tarefas específicas com treinamento adicional.

O Model Serving oferece opções flexíveis para hospedar e consultar modelos básicos com base em suas necessidades:

Pay-per-token: Ideal para experimentação e exploração rápida. Esta opção permite que o/a utilizador/a consulte os endpoints pré-configurados no seu espaço de trabalho Databricks sem compromissos de infraestrutura iniciais.
Taxa de processamento provisionada: Recomendado para casos de uso de produção que exigem garantias de performance. Essa opção permite a implantação de modelos de base ajustados com pontos de extremidade de serviço otimizados.
Modelos externos: Esta opção permite o acesso a modelos de base hospedados fora do Databricks, como os fornecidos pela OpenAI ou Anthropic. Esses modelos podem ser gerenciados centralmente dentro do Databricks para uma governança simplificada.

Modelos de base hospedados no Databricks

O Databricks hospeda modelos de fundação aberta de última geração, como o Meta Llama. Esses modelos são disponibilizados usando APIs do Foundation Model e são acessíveis através de cobrança por unidade de token ou largura de banda provisionada.

Pagamento por token

As APIs do Modelo de Base de pagamento por token são recomendadas para começar e explorar rapidamente. Quando um modelo é suportado usando APIs de Modelo Fundamental com pagamento por token, o Databricks fornece um ponto de extremidade pré-configurado no seu espaço de trabalho do Azure Databricks que você pode testar e consultar. Você também pode interagir e conversar com esses modelos usando o AI Playground.

A tabela a seguir resume os modelos suportados para pagamento por token. Consulte de limites de APIs do Modelo de Base para disponibilidade de região específica do modelo.

Importante

A partir de 11 de dezembro de 2024, o Meta-Llama-3.3-70B-Instruct substitui o suporte ao Meta-Llama-3.1-70B-Instruct nos endpoints "pay-per-token" das APIs do modelo Foundation.
O Meta-Llama-3.1-405B-Instruct é o maior modelo de linguagem grande de última geração disponível abertamente, criado e treinado pela Meta e distribuído pelo Azure Machine Learning usando o Catálogo de Modelos do AzureML.
Os seguintes modelos estão agora aposentados. Consulte Modelos descontinuados para obter os modelos de substituição recomendados.
- Llama 2 70B Bate-papo
- MPT 7B Instruir
- MPT 30B Instruir

Modelo	Tipo de tarefa	Ponto final	Observações
GTE Large (Inglês)	Incorporação	`databricks-gte-large-en`	Não gera incorporações normalizadas.
Meta-Llama-3.3-70B-Instruct	Bate-papo	`databricks-meta-llama-3-3-70b-instruct`
Meta-Llama-3.1-405B-Instruct*	Bate-papo	`databricks-meta-llama-3-1-405b-instruct`
DBRX Instruir	Bate-papo	`databricks-dbrx-instruct`	Este modelo não é mais suportado após 30 de abril de 2025.
Mixtral-8x7B Instruct	Bate-papo	`databricks-mixtral-8x7b-instruct`	Este modelo não é mais suportado após 30 de abril de 2025.
BGE Large (Inglês)	Incorporação	`databricks-bge-large-en`

* Entre em contato com sua equipe de conta Databricks se encontrar falhas de endpoint ou erros de estabilização ao usar esse modelo.

Taxa de transferência provisionada

As APIs do Modelo de Base com capacidade de processamento provisionada são recomendadas para casos de produção. Você pode criar um ponto de extremidade que use a taxa de transferência provisionada para implantar arquiteturas de modelo de base ajustadas. Se usar largura de banda provisionada, o endpoint de serviço é otimizado para cargas de trabalho de modelo fundacional que exigem garantias de desempenho.

A tabela a seguir resume as arquiteturas de modelo suportadas para taxa de transferência provisionada. A Databricks recomenda o uso de modelos fundamentais pré-treinados no Unity Catalog para cargas de trabalho com taxa de transferência provisionada. Consulte Limites de taxa de transferência provisionados para conhecer as variantes de modelo Meta Llama suportadas e a disponibilidade da região.

Importante

Meta Llama 3.3 está licenciado sob a LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável Llama 3.3.

Meta Llama 3.2 está licenciado sob a LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a sua conformidade com os termos desta licença e com a Política de Utilização Aceitável Llama 3.2.

Meta Llama 3.1 está licenciado sob a LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos os direitos reservados. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Arquitetura do modelo	Tipos de tarefas	Observações
DeepSeek R1	Bate-papo	Você pode baixar esses modelos, registrá-los no Unity Catalog e implantá-los usando a taxa de transferência provisionada.
Meta Llama 3,3	Bate-papo ou finalização
Meta Llama 3,2 3B	Bate-papo ou finalização
Meta Llama 3.2 1B	Bate-papo ou finalização
Meta Llama 3.1	Bate-papo ou finalização
Meta Lama 3	Bate-papo ou finalização
Meta Llama 2	Bate-papo ou finalização
DBRX	Bate-papo ou finalização
Mistral	Bate-papo ou finalização
Mixtral	Bate-papo ou finalização
MPT	Bate-papo ou finalização
GTE v1.5 (Inglês)	Incorporação	Não gera incorporações normalizadas.
BGE v1.5 (Inglês)	Incorporação

Modelos de base do Access hospedados fora do Databricks

Modelos fundamentais criados por fornecedores de LLM, como OpenAI e Anthropic, também são acessíveis no Databricks usando modelos externos . Esses modelos estão alojados fora do Databricks e pode-se criar um endpoint para os consultar. Esses pontos de extremidade podem ser governados centralmente a partir do Azure Databricks, o que simplifica o uso e o gerenciamento de vários provedores de LLM em sua organização.

A tabela a seguir apresenta uma lista não exaustiva de modelos suportados e os tipos de ponto de extremidade correspondentes. Você pode usar as associações de modelo listadas para ajudá-lo a configurar seu ponto de extremidade para qualquer tipo de modelo recém-lançado à medida que eles se tornam disponíveis com um determinado provedor. Os clientes são responsáveis por garantir a conformidade com as licenças de modelo aplicáveis.

Observação

Com o rápido desenvolvimento dos LLMs, não há garantia de que esta lista esteja sempre atualizada. Novas versões de modelo do mesmo provedor geralmente são suportadas, mesmo que não estejam na lista.

Provedor de modelo	llm/v1/Conclusões	llm/v1/bate-papo	LLM/v1/Incorporações
OpenAI**	- GPT-3.5-turbo-instruct - Babbage-002 - Davinci-002	- O1 - O1-Mini - O1-Mini-2024-09-12 - GPT-3.5-Turbo - GPT-4 - GPT-4-Turbo - GPT-4-turbo-2024-04 - GPT-4O - GPT-4O-2024-05-13 - GPT-4O-Mini	- text-embedding-ada-002 - incorporação de texto-3-grande - incorporação de texto-3-pequeno
Azure OpenAI**	- texto-davinci-003 - GPT-35-turbo-instruir	- O1 - O1-Mini - GPT-35-Turbo - GPT-35-Turbo-16K - GPT-4 - GPT-4-Turbo - GPT-4-32K - GPT-4O - GPT-4O-Mini	- text-embedding-ada-002 - incorporação de texto-3-grande - incorporação de texto-3-pequeno
Antrópico	- Claude-1 - Claude-1.3-100K - Claude-2 - Claude-2.1 - Claude-2.0 - claude-instante-1.2	- claude-3-5-soneto-mais recente - claude-3-5-haiku-mais recente - claude-3-5-opus-mais recente - claude-3-5-soneto-20241022 - Claude-3-5-Haiku-20241022 - claude-3-5-soneto-20240620 - Claude-3-Haiku-20240307 - Claude-3-Opus-20240229 - claude-3-soneto-20240229
Cohere	- comando - luz de comando	- Comando-R7B-12-2024 - comando-r-plus-08-2024 - Comando-R-08-2024 - comando-r-plus - comando-r - comando - comando-luz-noturno - luz de comando - comando-noturno	- embed-inglês-v2.0 - integrar-multilíngue-v2.0 - embed-inglês-luz-v2.0 - embed-inglês-v3.0 - embed-inglês-luz-v3.0 - integrar-multilíngue-v3.0 - incorporar-multilíngue-luz-v3.0
Serviço de Modelos de IA Mosaic	Endpoint de serviço do Databricks	Endpoint de serviço do Databricks	Endpoint de serviço do Databricks
Substrato rochoso amazônico	Antrópico: - claude-instante-v1 - Claude-V2 Cohere - comando-texto-v14 - comando-luz-texto-v14 Laboratórios AI21: - j2-grande-instruir - j2-jumbo-instruir - J2-MÉDIO - J2-Mid-V1 - J2-Ultra - J2-Ultra-V1	Antrópico: - claude-3-5-soneto-20241022-v2:0 - claude-3-5-haiku-20241022-v1:0 - claude-3-opus-20240229-v1:0 - Claude-3-Soneto-20240229-v1:0 - claude-3-5-soneto-20240620-v1:0 Cohere - command-r-plus-v1:0 - comando-r-v1:0	Amazônia: - titan-embed-text-v1 - titan-embed-g1-texto-02 Cohere - embed-inglês-v3 - incorporar-multilinguístico-v3
Laboratórios AI21†	- J2-MÉDIO - j2-light - J2-Ultra
Google Cloud Vertex AI	text-bison	- bate-papo-Bison Gemini-Pro - Gemini-1.0-Pro - Gemini-1.5-Pro - gemini-1.5-flash - gemini-2.0-flash	- incorporação de texto-004 - incorporação de texto-005 - textembedding-gecko

** provedor de modelo suporta modelos de conclusão e bate-papo ajustados. Para consultar um modelo ajustado, preencha o campo name da configuração external model com o nome do modelo ajustado.

† provedor de modelo oferece suporte a modelos de conclusão personalizados.

Criar modelo de base servindo endpoints

Para consultar e usar modelos fundamentais nas suas aplicações de IA, deve primeiro criar um endpoint de serviço do modelo. O Model Serving usa uma API e uma interface de utilizador unificadas para criar e atualizar pontos de extremidade de serviço de modelos fundamentais.

Para criar um ponto de extremidade que ofereça variantes ajustadas de modelos de base disponibilizados usando a largura de banda provisionada de APIs de modelos de fundação, consulte Criar seu ponto de extremidade de largura de banda provisionada usando a API REST.
Para criar pontos de extremidade de serviço que acedem a modelos fundamentais disponibilizados através da oferta de Modelos Externos, consulte Criar um ponto de extremidade de serviço para modelos externos.

Modelo de base de consulta servindo pontos de extremidade

Depois de criar seu ponto de extremidade de serviço, você poderá consultar seu modelo de fundação. O Model Serving usa uma API e SDK unificadas compatíveis com OpenAI para consultar modelos básicos. Essa experiência unificada simplifica como você experimenta e personaliza modelos básicos para produção em nuvens e provedores suportados.

Consulte Modelos de base de consulta.

Compartilhar via