Condividi tramite


Modelli di base supportati in Mosaic AI Model Serving

Questo articolo descrive i modelli fondamentali che è possibile utilizzare con Mosaic AI Model Serving.

I modelli di base sono grandi reti neurali pre-addestrate su vasti e ampi intervalli di dati. Questi modelli sono progettati per apprendere modelli generali in linguaggio, immagini o altri tipi di dati e possono essere ottimizzati per attività specifiche con training aggiuntivo.

Model Serving offre opzioni flessibili per ospitare ed eseguire query sui modelli fondamentali in base alle tue esigenze.

  • Pagamento in base al token: ideale per la sperimentazione e l'esplorazione rapida. Questa opzione consente di eseguire query sugli endpoint preconfigurati nell'area di lavoro di Databricks senza impegni infrastrutturali iniziali.
  • velocità effettiva con provisioning : consigliato per i casi d'uso di produzione che richiedono garanzia di prestazioni. Questa opzione consente la distribuzione di modelli di base ottimizzati con endpoint di gestione ottimizzati.
  • modelli esterni: questa opzione consente l'accesso ai modelli di base ospitati all'esterno di Databricks, ad esempio quelli forniti da OpenAI o Anthropic. Questi modelli possono essere gestiti centralmente all'interno di Databricks per una governance semplificata.

Modelli di base ospitati in Databricks

Databricks ospita modelli di fondazione aperti all'avanguardia, come Meta Llama. Questi modelli vengono resi disponibili usando le API Foundation Model e sono accessibili utilizzando il pagamento in base al token o tramite velocità effettiva con provisioning.

un token con pagamento in base al consumo

Le API del modello di base con pagamento in base al token sono consigliate per iniziare e esplorare rapidamente. Quando un modello è supportato usando le API del modello di base con pagamento in base al token, Databricks fornisce un endpoint preconfigurato nell'area di lavoro di Azure Databricks che è possibile testare ed eseguire query. È anche possibile interagire e chattare con questi modelli usando AI Playground.

La tabella seguente riepiloga i modelli supportati per il pagamento per token. Vedere Foundation Model API limits for model specific region availability (Limiti per la disponibilità di aree specifiche del modello).

Importante

  • A partire dall'11 dicembre 2024, Meta-Llama-3.3-70B-Instruct sostituisce il supporto per Meta-Llama-3.1-70B-Instruct negli endpoint a pagamento per token delle API del modello Foundation.
  • Meta-Llama-3.1-405B-Instruct è il modello di linguaggio di grandi dimensioni più ampio e disponibile all'avanguardia, creato ed sottoposto a training da Meta e distribuito da Azure Machine Learning usando il catalogo dei modelli di AzureML.
  • I modelli seguenti vengono ora ritirati. Vedere modelli ritirati per i modelli di sostituzione consigliati.
    • Llama 2 70B Chat
    • Istruzioni MPT 7B
    • Istruzioni MPT 30B
Modello Tipo di attività Endpoint Note
GTE Large (inglese) Incorporamento databricks-gte-large-en Non genera incorporamenti normalizzati.
Meta-Llama-3.3-70B-Instruct Chiacchierare databricks-meta-llama-3-3-70b-instruct
* Meta-Llama-3.1-405B-Instruct Chiacchierare databricks-meta-llama-3-1-405b-instruct
DBRX Istruisci Chiacchierare databricks-dbrx-instruct Questo modello non è più supportato dopo il 30 aprile 2025.
Mixtral-8x7B Instruct Chiacchierare databricks-mixtral-8x7b-instruct Questo modello non è più supportato dopo il 30 aprile 2025.
BGE Grande (inglese) Incorporamento databricks-bge-large-en

* contattare il team dell'account Databricks se si verificano errori di endpoint o errori di stabilizzazione quando si usa questo modello.

velocità effettiva con provisioning

Le API del modello di base con velocità di throughput provisionata sono consigliate per i casi di produzione. È possibile creare un endpoint che usa il throughput provisionato per distribuire architetture di modelli fondamentali ottimizzate. Quando si utilizza il throughput fornito, l'endpoint di servizio è ottimizzato per gestire i carichi di lavoro del modello fondamentale che richiedono garanzie di prestazioni.

La tabella seguente riepiloga le architetture del modello supportate per il throughput provisionato. Databricks consiglia di usare modelli di base preaddestrati in Unity Catalog per i carichi di lavoro con throughput fornito. Vedere Limiti di velocità effettiva con provisioning per le varianti del modello Meta Llama supportate e la disponibilità dell'area.

Importante

Meta Llama 3.3 è concesso in licenza con LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle condizioni di questa licenza e ai criteri di utilizzo accettabile Llama 3.3.

Meta Llama 3.2 è concesso in licenza con LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle condizioni di questa licenza e ai criteri di utilizzo accettabili Llama 3.2.

Meta Llama 3.1 è concesso in licenza con LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili di garantire la conformità alle licenze del modello applicabili.

Architettura del modello Tipi di attività Note
DeepSeek R1 Chiacchierare È possibile scaricare questi modelli, registrarli in Unity Catalog e distribuirli utilizzando il throughput assegnato.
Meta Llama 3.3 Chat o completamento
Meta Llama 3.2 3B Chat o completamento
Meta Llama 3.2 1B Chat o completamento
Meta Llama 3.1 Chat o completamento
Meta Llama 3 Chat o completamento
Meta Llama 2 Chat o completamento
DBRX Chat o completamento
Maestrale Chat o completamento
Mixtral Chat o completamento
MPT Chat o completamento
GTE v1.5 (inglese) Incorporamento Non genera incorporamenti normalizzati.
BGE v1.5 (inglese) Incorporamento

modelli di base di Access ospitati all'esterno di Databricks

I modelli di base creati dai provider LLM, ad esempio OpenAI e Anthropic, sono accessibili anche in Databricks usando modelli esterni. Questi modelli sono ospitati all'esterno di Databricks ed è possibile creare un endpoint per eseguirne query. Questi endpoint possono essere regolati centralmente da Azure Databricks, semplificando l'uso e la gestione di vari provider LLM all'interno dell'organizzazione.

La tabella seguente presenta un elenco non completo dei modelli supportati e dei tipi di endpoint corrispondenti. È possibile utilizzare le associazioni di modelli elencate per aiutarti a configurare un endpoint per qualsiasi tipo di modello appena rilasciato, non appena diventano disponibili con un determinato fornitore. I clienti sono responsabili di garantire la conformità alle licenze del modello applicabili.

Nota

Con lo sviluppo rapido di LLMs, non c'è alcuna garanzia che questo elenco sia sempre aggiornato. Le nuove versioni del modello dello stesso provider sono in genere supportate anche se non sono presenti nell'elenco.

Provider di modelli llm/v1/completions llm/v1/chat llm/v1/embeddings
OpenAI** - gpt-3.5-turbo-instruct
- babbage-002
- davinci-002
- o1
- o1-mini
- o1-mini-2024-09-12
- gpt-3.5-turbo
- gpt-4
- gpt-4-turbo
- gpt-4-turbo-2024-04
- gpt-4o
- gpt-4o-2024-05-13
- gpt-4o-mini
- text-embedding-ada-002
- text-embedding-3-large
- text-embedding-3-small
Azure OpenAI** - text-davinci-003
- gpt-35-turbo-instruct
- o1
- o1-mini
- gpt-35-turbo
- gpt-35-turbo-16k
- gpt-4
- gpt-4-turbo
- gpt-4-32k
- gpt-4o
- gpt-4o-mini
- text-embedding-ada-002
- text-embedding-3-large
- text-embedding-3-small
Antropico - claude-1
- claude-1.3-100k
- claude-2
- claude-2.1
- claude-2.0
- claude-instant-1.2
- claude-3-5-sonnet-latest
- claude-3-5-haiku-latest
- claude-3-5-opus-latest
- claude-3-5-sonnet-20241022
- claude-3-5-haiku-20241022
- claude-3-5-sonnet-20240620
- claude-3-haiku-20240307
- claude-3-opus-20240229
- claude-3-sonnet-20240229
Cohere** - comando
- luce del comando
- command-r7b-12-2024
- command-r-plus-08-2024
- command-r-08-2024
- command-r-plus
- command-r
- comando
- comando-luce-notturno
- luce del comando
- comando notturno
- embed-english-v2.0
- embed-multilingual-v2.0
- embed-english-light-v2.0
- embed-english-v3.0
- embed-english-light-v3.0
- embed-multilingual-v3.0
- embed-multilingual-light-v3.0
Erogazione del Modello Mosaic AI Databricks che gestisce l'endpoint Databricks che gestisce l'endpoint Databricks che gestisce l'endpoint
Amazon Bedrock Antropico:

- claude-instant-v1
- claude-v2

Cohere:

- command-text-v14
- command-light-text-v14

AI21 Labs:

- j2-grande-instruct
- j2-jumbo-instruct
- j2-mid
- j2-mid-v1
- j2-ultra
- j2-ultra-v1
Antropico:

- claude-3-5-sonnet-20241022-v2:0
- claude-3-5-haiku-20241022-v1:0
- claude-3-opus-20240229-v1:0
- claude-3-sonnet-20240229-v1:0
- claude-3-5-sonnet-20240620-v1:0

Cohere:

- command-r-plus-v1:0
- command-r-v1:0
Amazon

- titan-embed-text-v1
- titan-embed-g1-text-02

Cohere:

- embed-english-v3
- embed-multilingual-v3
AI21 Labs† - j2-mid
- j2-light
- j2-ultra
Google Cloud Vertex AI, piattaforma di machine learning di Google. text-bison - chat-bison
- gemini-pro
- gemini-1.0-pro
- gemini-1.5-pro
- gemini-1.5-flash
- gemini-2.0-flash
- text-embedding-004
- text-embedding-005
- textembedding-gecko

Il provider di modelli ** supporta modelli ottimizzati di completamento e chat. Per eseguire query su un modello ottimizzato, popolare il campo name della configurazione external model con il nome del modello ottimizzato.

Il fornitore di modelli supporta modelli di completamento personalizzati.

Creare endpoint di servizio per il modello di base

Per eseguire query e usare modelli di base nelle applicazioni di intelligenza artificiale, è prima necessario creare un endpoint di gestione del modello. Model Serving usa un'API unificata e un'interfaccia utente per la creazione e l'aggiornamento dei modelli di base che servono gli endpoint.

Modello di base di query che gestisce gli endpoint

Dopo aver creato l'endpoint di servizio, è possibile eseguire query sul modello di base. Model Serving usa un'API e un SDK compatibili con OpenAI unificati per l'esecuzione di query sui modelli di base. Questa esperienza unificata semplifica l'esperimento e la personalizzazione dei modelli di base per la produzione in cloud e provider supportati.

Consultare Modelli di base per le query.