Condividi tramite


API del modello di base Databricks

Questo articolo offre una panoramica delle API del modello di base in Azure Databricks. Comprende i requisiti per l'uso, i modelli supportati e le limitazioni.

Cosa sono le API del modello di base Databricks?

Mosaic AI Model Serving adesso supporta le API del modello di base che consentono di accedere ai modelli aperti all'avanguardia ed eseguire query su modelli aperti all'avanguardia da un endpoint di servizio. Con le API del modello Di base, è possibile creare applicazioni in modo rapido e semplice che sfruttano un modello di intelligenza artificiale generativa di alta qualità senza gestire la distribuzione del proprio modello. Le API del modello di base sono un servizio designato di Databricks, il che significa che usa Databricks Geos per gestire la residenza dei dati durante l'elaborazione del contenuto del cliente.

Le API del modello di base sono disponibili in due modalità di prezzo:

  • Pagamento in base al token: questo è il modo più semplice per iniziare ad accedere ai modelli di base in Databricks ed è consigliato per iniziare il percorso con le API del modello di base. Questa modalità non è progettata per applicazioni a velocità effettiva elevata o carichi di lavoro di produzione con prestazioni elevate.
  • Velocità effettiva con provisioning: questa modalità è consigliata per tutti i carichi di lavoro di produzione, in particolare per quelli che richiedono velocità effettiva elevata, garanzie di prestazioni, modelli ottimizzati o requisiti di sicurezza aggiuntivi. Gli endpoint di velocità effettiva con provisioning sono disponibili con certificazioni di conformità come HIPAA.

Per indicazioni su come usare queste due modalità e i modelli supportati, consultare Usare le API del modello di base.

Utilizzando le API del modello di base è possibile:

  • Eseguire una query su un LLM generalizzato per verificare la validità di un progetto prima di investire più risorse.
  • Eseguire query su un LLM generalizzato per creare un modello di verifica rapido per un'applicazione basata su LLM prima di investire nel training e distribuire un modello personalizzato.
  • Usare un modello di base, insieme a un database vettoriale, per creare un chatbot usando la generazione aumentata di recupero (RAG).
  • Sostituire i modelli proprietari con alternative aperte per ottimizzare i costi e le prestazioni.
  • Confrontare in modo efficiente i moduli APM per vedere qual è il candidato migliore per il caso d'uso o scambiare un modello di produzione con uno con prestazioni migliori.
  • Creare un'applicazione LLM per lo sviluppo o la produzione oltre a una soluzione LLM scalabile e supportata dal contratto di servizio che può supportare i picchi di traffico di produzione.

Requisiti

Utilizzare API dei modelli di base

Sono disponibili più opzioni per l'uso delle API del modello di base.

Le API sono compatibili con OpenAI, quindi è possibile usare il client OpenAI per l'esecuzione di query. È anche possibile usare l'interfaccia utente, le API Python per i modelli di base, i servizi MLflow Deployments SDK o l'API REST per l'esecuzione di query sui modelli supportati. Databricks consiglia di usare l'SDK client o l'API OpenAI per interazioni estese e l'interfaccia utente per provare la funzionalità.

Per esempi di assegnazione dei punteggi, vedere Eseguire query sui modelli di intelligenza artificiale generativi.

API del modello di base con pagamento in base al token

I modelli con pagamento in base al token sono accessibili nell'area di lavoro di Azure Databricks e sono consigliati per iniziare. Per accedervi nell'area di lavoro, passare alla scheda Serve nella barra laterale sinistra. Le API del modello di base si trovano nella parte superiore della visualizzazione elenco Endpoint.

Elenco degli endpoint di gestione

La seguente tabella riepiloga i modelli supportati dal pagamento per token. Per altre informazioni sul modello, vedere Modelli supportati per il pagamento per token.

Se si vuole testare e chattare con questi modelli, è possibile farlo usando ai Playground. Vedere Chat con le app di LLMs e di GenAI prototipo usando AI Playground.

Importante

  • A partire dal 23 luglio 2024, Meta-Llama-3.1-70B-Instruct sostituisce il supporto per gli endpoint Meta-Llama-3-70B-Instruct in Foundation Model API con pagamento per token.
  • Meta-Llama-3.1-405B-Instruct è il modello di linguaggio di grandi dimensioni più ampio e disponibile all'avanguardia, creato ed sottoposto a training da Meta e distribuito da Azure Machine Learning usando il catalogo dei modelli di AzureML.
  • I modelli seguenti vengono ora ritirati. Vedere Modelli ritirati per i modelli di sostituzione consigliati.
    • Llama 2 70B Chat
    • Istruzioni MPT 7B
    • Istruzioni MPT 30B
Modello Tipo di attività Endpoint Note
GTE Large (inglese) Incorporamento databricks-gte-large-en Non genera incorporamenti normalizzati.
Meta-Llama-3.1-70B-Instruct Chat databricks-meta-llama-3-1-70b-instruct
Meta-Llama-3.1-405B-Instruct* Chat databricks-meta-llama-3-1-405b-instruct Vedere Limiti delle API del modello di base per la disponibilità dell'area.
DBRX-Instruct Chat databricks-dbrx-instruct Vedere Limiti delle API del modello di base per la disponibilità dell'area.
Mixtral-8x7B-Instruct Chat databricks-mixtral-8x7b-instruct Vedere Limiti delle API del modello di base per la disponibilità dell'area.
BGE Large (inglese) Incorporamento databricks-bge-large-en Vedere Limiti delle API del modello di base per la disponibilità dell'area.

* Contattare il team dell'account databricks se si verificano errori di endpoint o errori di stabilizzazione quando si usa questo modello.

API del modello di base throughput con provisioning

La velocità effettiva con provisioning fornisce agli endpoint un'inferenza ottimizzata per i carichi di lavoro dei modelli di base che richiedono garanzie di prestazioni. Databricks consiglia la produttività con provisioning per i carichi di lavoro di produzione. Si veda API del modello di base per la velocità effettiva con provisioning per una guida dettagliata su come implementare le API del modello di base in modalità velocità effettiva con provisioning.

Il supporto della velocità effettiva con provisioning include:

  • Modelli di base di tutte le dimensioni, ad esempio DBRX Base. È possibile accedere ai modelli di base usando Databricks Marketplace oppure è possibile scaricarli da Hugging Face o da un'altra origine esterna e registrarli nel catalogo Unity. Quest'ultimo approccio funziona con qualsiasi variante ottimizzata dei modelli supportati, indipendentemente dal metodo di ottimizzazione impiegato.
  • Varianti ottimizzate dei modelli di base, ad esempio LlamaGuard-7B o meta-llama/Llama-3.1-8B. Sono inclusi i modelli ottimizzati per i dati proprietari.
  • Pesi e tokenizer completamente personalizzati, ad esempio quelli sottoposti a training da zero o altre varianti con training preliminare o altre varianti che usano l'architettura del modello di base, ad esempio CodeLlama.

La tabella seguente riepiloga le architetture del modello supportate per la velocità effettiva con provisioning.

Importante

Meta Llama 3.2 viene concesso in licenza con la licenza community LLAMA 3.2, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono responsabili dell'osservanza dei termini di questa licenza e dei criteri d'uso accettabili di Llama 3.2.

Meta Llama 3.1 viene concesso in licenza con la licenza community LLAMA 3.1, Copyright © Meta Platforms, Inc. Tutti i diritti riservati. I clienti sono tenuti a garantire la conformità con i modelli di licenza applicabili.

Architettura del modello Tipi di attività Note
Meta Llama 3.2 3B Chat o completamento Vedere Limiti di velocità effettiva con provisioning per le varianti di modello supportate e la disponibilità dell'area.
Meta Llama 3.2 1B Chat o completamento Vedere Limiti di velocità effettiva con provisioning per le varianti di modello supportate e la disponibilità dell'area.
Meta Llama 3.1 Chat o completamento Vedere Limiti di velocità effettiva con provisioning per le varianti di modello supportate e la disponibilità dell'area.
Meta Llama 3 Chat o completamento
Meta Llama 2 Chat o completamento
DBRX Chat o completamento Vedere Limiti di velocità effettiva con provisioning per la disponibilità dell'area.
Mistral Chat o completamento
Mixtral Chat o completamento
MPT Chat o completamento
GTE v1.5 (inglese) Incorporamento Non genera incorporamenti normalizzati.
BGE v1.5 (inglese) Incorporamento

Limiti

Vedere Limiti delle API del modello di base.

Risorse aggiuntive