Condividi tramite


Distribuire modelli per l'inferenza e la previsione batch

Questo articolo descrive le raccomandazioni di Databricks per l'inferenza batch.

Per la gestione di modelli in tempo reale in Azure Databricks, vedere Distribuire modelli con Mosaic AI Model Serving.

Usare ai_query per l'inferenza batch

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Databricks consiglia di usare ai_query con Model Serving per l'inferenza batch. ai_query è una funzione SQL predefinita di Databricks che consente di eseguire query sui modelli esistenti che servono gli endpoint usando SQL. È stato verificato per elaborare in modo affidabile e coerente i set di dati nell'intervallo di miliardi di token. Per altre informazioni su questa funzione di intelligenza artificiale, vedere ai_query funzione .

Per una sperimentazione rapida, si può usare ai_query per l'inferenza LLM batch con gli endpoint a pagamento per token, preconfigurati nel tuo spazio di lavoro.

Quando si è pronti per eseguire l'inferenza batch LLM su dati di grandi dimensioni o dati di produzione, Databricks consiglia di usare endpoint con throughput garantito per ottenere prestazioni migliori.

Per un esempio di inferenza batch del modello di Machine Learning tradizionale, vedere il notebook seguente:

Inferenza batch con BERT per il riconoscimento di entità nominate nel taccuino

Prendi il taccuino