API del modello di Databricks Foundation

Articolo
03/11/2025

Questo articolo offre una panoramica delle API del modello di base in Azure Databricks. Include i requisiti per l'uso, i modelli supportati e le limitazioni.

Che cosa sono le API modello di Databricks Foundation?

Mosaic AI Model Serving ora supporta le API del modello di base che consentono di accedere ed eseguire query su modelli aperti all'avanguardia da un endpoint di servizio. Questi modelli sono ospitati da Databricks ed è possibile compilare rapidamente e facilmente applicazioni che le usano senza gestire la distribuzione del modello. Le API del modello di base sono un servizio designato Databricks, il che significa che usa Databricks Geos per gestire la residenza dei dati durante l'elaborazione del contenuto del cliente.

Le API del modello di base sono disponibili nelle modalità seguenti:

Pagamento in base al token: questo è il modo più semplice per iniziare ad accedere ai modelli di base in Databricks ed è consigliato per iniziare il percorso con le API del modello di base. Questa modalità non è progettata per applicazioni a velocità effettiva elevata o carichi di lavoro di produzione con prestazioni elevate.
Velocità di trasferimento con provisioning: questa modalità è consigliata per tutti i carichi di lavoro di produzione, in particolare per quelli che richiedono alta capacità di trasferimento, garanzie sulle prestazioni, modelli finemente regolati o requisiti di sicurezza aggiuntivi. Gli endpoint con throughput provisionato sono disponibili con certificazioni di rispetto come HIPAA.

Per indicazioni su come usare queste modalità e i modelli supportati, vedere Uso delle API dei modelli di base.

Usando le API del modello di base è possibile eseguire le operazioni seguenti:

Eseguire una query su un LLM generalizzato per verificare la validità di un progetto prima di investire più risorse.
Interrogare un LLM generalizzato per creare rapidamente una prova di concetto per un'applicazione basata su LLM prima di investire nell'addestramento e nella distribuzione di un modello personalizzato.
Usare un modello di fondazione, insieme a un database vettoriale, per creare un chatbot usando la generazione aumentata tramite recupero (RAG).
Sostituire i modelli proprietari con alternative aperte per ottimizzare i costi e le prestazioni.
Confronta in modo efficiente gli LLM per determinare il miglior candidato per il tuo caso d'uso o sostituire un modello di produzione con uno dalle prestazioni migliori.
Costruire un'applicazione LLM per lo sviluppo o la produzione basata su una soluzione LLM scalabile e garantita dal contratto di servizio che può supportare i picchi di traffico di produzione.

Requisiti

Token di accesso API di Databricks per autenticare le richieste all'endpoint.
Calcolo serverless (per i modelli a throughput predefinito).
Un'area di lavoro in una delle aree supportate seguenti:
- regioni a pagamento per token.
- Aree di velocità effettiva di cui è stato effettuato il provisioning.

Usare le API del modello Foundation

Sono disponibili più opzioni per l'uso delle API Foundation Model.

Le API sono compatibili con OpenAI, quindi è possibile usare il client OpenAI per l'esecuzione di query. È anche possibile usare l'interfaccia utente, le API Python per i modelli di base, MLflow Deployments SDK o l'API REST per l'esecuzione di query sui modelli supportati. Databricks consiglia di usare l'SDK client o l'API OpenAI per interazioni estese e l'interfaccia utente per provare la funzionalità.

Per esempi di assegnazione dei punteggi, vedere Modelli di base di Query.

API modello di base con pagamento in base al token

Gli endpoint preconfigurati che servono i modelli con pagamento in base al token sono accessibili nell'area di lavoro di Azure Databricks. Questi modelli con pagamento in base al token sono consigliati per iniziare. Per accedervi nell'area di lavoro, passare alla scheda Serving nella barra laterale sinistra. Le API del modello di base si trovano nella parte superiore della visualizzazione elenco Endpoint.

elenco degli endpoint di servizio

Modelli supportati con pagamento in base al token.
Per indicazioni su come eseguire query sulle API del modello di base, vedere Modelli di query.
Consultare il riferimento API REST del modello Foundation per parametri e sintassi richiesti.

API del modello di base per il throughput provisionato

Il throughput configurato offre agli endpoint inferenze ottimizzate per i carichi di lavoro dei modelli di base che richiedono garanzie sulle prestazioni. Databricks consiglia il provisioning del throughput per carichi di produzione.

Architetture di modelli supportate con throughput preconfigurato.
Per una guida dettagliata su come distribuire le API del Modello Foundation in modalità di throughput fornita, vedere Provisioned throughput Foundation Model APIs.

Il supporto per il throughput con provisioning include:

Modelli di base di tutte le dimensioni. È possibile accedere ai modelli di base usando Databricks Marketplace oppure è possibile scaricarli da Hugging Face o da un'altra origine esterna e registrarli nel catalogo unity. Quest'ultimo approccio funziona con qualsiasi variante ottimizzata dei modelli supportati.
varianti ottimizzate dei modelli di base, ad esempio i modelli ottimizzati sui dati proprietari.
Pesi e tokenizer completamente personalizzati, ad esempio quelli addestrati da zero o addestrati preregolarmente o altre varianti usando l'architettura del modello di base (ad esempio CodeLlama).

Inferenza batch

È anche possibile eseguire l'inferenza batch utilizzando endpoint per il servizio di modelli che sfruttano la larghezza di banda predefinita o il pagamento in base ai token.

Vedere Eseguire l'inferenza LLM batch usando funzioni di intelligenza artificiale per informazioni su come creare pipeline di inferenza batch che sfruttano gli endpoint con pagamento in base al token o alla velocità effettiva con provisioning.

Limitazioni

Consultare i limiti delle API del modello base .

Condividi tramite