Déployer des modèles groupés à des fins d’inférence et de prédiction
Cet article décrit ce que Databricks recommande pour l’inférence par lots.
Pour la mise en production de modèles en temps réel sur Azure Databricks, consultez Déployer des modèles en utilisant Mosaic AI Model Serving.
Utiliser ai_query pour l’inférence par lots
Important
Cette fonctionnalité est disponible en préversion publique.
Databricks recommande d’utiliser ai_query
avec Model Serve pour l’inférence par lots. ai_query
est une fonction Databricks SQL intégrée qui vous permet d’interroger des points de terminaison de service de modèle existants à l’aide de SQL. Il a été vérifié qu'il traitait de manière fiable et cohérente des ensembles de données de l'ordre de plusieurs milliards de jetons. Pour plus d’informations sur cette fonction IA, consultez ai_query fonction.
Pour une expérimentation rapide, ai_query
peut être utilisé pour l'inférence LLM par lot avec points de terminaison à paiement par token, qui sont préconfigurés sur votre espace de travail.
Lorsque vous êtes prêt à exécuter l’inférence LLM par lot sur des données volumineuses ou de production, Databricks recommande d’utiliser des points de terminaison de débit approvisionnés pour accélérer les performances.
- Consultez API de modèle Foundation de débit approvisionné.
- Consultez Effectuer une inférence LLM par lot à l’aide de ai_query.
Pour obtenir un exemple d’inférence par lot de modèle ML traditionnel, consultez le bloc-notes suivant :