Distribuire modelli per l'inferenza e la previsione batch
Questo articolo descrive le raccomandazioni di Databricks per l'inferenza batch.
Per la gestione di modelli in tempo reale in Azure Databricks, vedere Distribuire modelli con Mosaic AI Model Serving.
Usare ai_query per l'inferenza batch
Importante
Questa funzionalità è disponibile in anteprima pubblica.
Databricks consiglia di usare ai_query
con Model Serving per l'inferenza batch.
ai_query
è una funzione SQL predefinita di Databricks che consente di eseguire query sui modelli esistenti che servono gli endpoint usando SQL. È stato verificato per elaborare in modo affidabile e coerente i set di dati nell'intervallo di miliardi di token. Per altre informazioni su questa funzione di intelligenza artificiale, vedere ai_query funzione .
Per una sperimentazione rapida, si può usare ai_query
per l'inferenza LLM batch con gli endpoint a pagamento per token, preconfigurati nel tuo spazio di lavoro.
Quando si è pronti per eseguire l'inferenza batch LLM su dati di grandi dimensioni o dati di produzione, Databricks consiglia di usare endpoint con throughput garantito per ottenere prestazioni migliori.
- Per creare un endpoint di velocità effettiva con provisioning, vedere API del modello di base per la velocità effettiva con provisioning.
- Vedere Eseguire l'inferenza LLM batch usando ai_query.
Per un esempio di inferenza batch del modello di Machine Learning tradizionale, vedere il notebook seguente: