Condividi tramite


API del modello di Databricks Foundation

Questo articolo offre una panoramica delle API del modello di base in Azure Databricks. Include i requisiti per l'uso, i modelli supportati e le limitazioni.

Che cosa sono le API modello di Databricks Foundation?

Mosaic AI Model Serving ora supporta le API del modello di base che consentono di accedere ed eseguire query su modelli aperti all'avanguardia da un endpoint di servizio. Questi modelli sono ospitati da Databricks ed è possibile compilare rapidamente e facilmente applicazioni che le usano senza gestire la distribuzione del modello. Le API del modello di base sono un servizio designato Databricks, il che significa che usa Databricks Geos per gestire la residenza dei dati durante l'elaborazione del contenuto del cliente.

Le API del modello di base sono disponibili nelle modalità di determinazione dei prezzi seguenti:

  • Pagamento in base al token: questo è il modo più semplice per iniziare ad accedere ai modelli di base in Databricks ed è consigliato per iniziare il percorso con le API del modello di base. Questa modalità non è progettata per applicazioni a velocità effettiva elevata o carichi di lavoro di produzione con prestazioni elevate.
  • Velocità di trasferimento con provisioning: questa modalità è consigliata per tutti i carichi di lavoro di produzione, in particolare per quelli che richiedono alta capacità di trasferimento, garanzie sulle prestazioni, modelli finemente regolati o requisiti di sicurezza aggiuntivi. Gli endpoint di throughput con provisioning sono disponibili con certificazioni di conformità come HIPAA.

Per indicazioni su come usare queste modalità e i modelli supportati, vedere Uso delle API dei modelli di base.

Usando le API del modello di base è possibile eseguire le operazioni seguenti

  • Eseguire una query su un LLM generalizzato per verificare la validità di un progetto prima di investire più risorse.
  • Eseguire query su un LLM generalizzato per creare un prototipo rapido per un'applicazione basata su LLM prima di investire nella formazione e distribuire un modello personalizzato.
  • Usare un modello di fondazione, insieme a un database vettoriale, per creare un chatbot usando la generazione aumentata tramite recupero (RAG).
  • Sostituire i modelli proprietari con alternative aperte per ottimizzare i costi e le prestazioni.
  • Confrontare in modo efficiente gli LLM per vedere qual è il candidato migliore per il tuo caso d'uso, oppure sostituire un modello di produzione con uno che offre prestazioni migliori.
  • Costruire un'applicazione LLM per lo sviluppo o la produzione basata su una soluzione LLM scalabile e garantita dal contratto di servizio che può supportare i picchi di traffico di produzione.

Requisiti di

Usare le API del modello Foundation

Sono disponibili più opzioni per l'uso delle API Foundation Model.

Le API sono compatibili con OpenAI, quindi è possibile usare il client OpenAI per l'esecuzione di query. È anche possibile usare l'interfaccia utente, le API Python per i modelli di base, MLflow Deployments SDK o l'API REST per l'esecuzione di query sui modelli supportati. Databricks consiglia di usare l'SDK client o l'API OpenAI per interazioni estese e l'interfaccia utente per provare la funzionalità.

Per esempi di assegnazione dei punteggi, vedere Modelli di base di Query.

API modello di base con pagamento in base al token

Gli endpoint preconfigurati che servono i modelli con pagamento in base al token sono accessibili nell'area di lavoro di Azure Databricks. Questi modelli con pagamento in base al token sono consigliati per iniziare. Per accedervi nell'area di lavoro, passare alla scheda Serving nella barra laterale sinistra. Le API del modello di base si trovano nella parte superiore dell'elenco dei punti di accesso.

elenco degli endpoint di servizio

API del modello di base per il throughput provisionato

Il throughput fornito offre endpoint con inferenze ottimizzate per i carichi di lavoro dei modelli fondamentali che richiedono garanzie di prestazioni. Databricks consiglia il throughput con provisioning per i carichi di lavoro di produzione.

Il supporto per il throughput con provisioning include:

  • Modelli di base di tutte le dimensioni. È possibile accedere ai modelli di base usando Databricks Marketplace oppure è possibile scaricarli da Hugging Face o da un'altra origine esterna e registrarli nel catalogo unity. Quest'ultimo approccio funziona con qualsiasi variante ottimizzata dei modelli supportati.
  • varianti ottimizzate dei modelli di base, ad esempio i modelli ottimizzati sui dati proprietari.
  • pesi e tokenizer completamente personalizzati, ad esempio quelli addestrati da zero o ulteriormente addestrati o altre varianti usando l'architettura del modello di base (ad esempio CodeLlama).

Limitazioni

Consultare i limiti delle API del modello base .

Risorse aggiuntive