Partager via


Déployer des modèles groupés à des fins d’inférence et de prédiction

Cet article décrit ce que Databricks recommande pour l’inférence par lots.

Pour la mise en production de modèles en temps réel sur Azure Databricks, consultez Déployer des modèles en utilisant Mosaic AI Model Serving.

Utiliser ai_query pour l’inférence par lots

Important

Cette fonctionnalité est disponible en préversion publique.

Databricks recommande d’utiliser ai_query avec Model Serve pour l’inférence par lots. ai_query est une fonction Databricks SQL intégrée qui vous permet d’interroger des points de terminaison de service de modèle existants à l’aide de SQL. Il a été vérifié qu'il traitait de manière fiable et cohérente des ensembles de données de l'ordre de plusieurs milliards de jetons. Pour plus d’informations sur cette fonction IA, consultez ai_query fonction.

Pour une expérimentation rapide, ai_query peut être utilisé pour l'inférence LLM par lot avec points de terminaison à paiement par token, qui sont préconfigurés sur votre espace de travail.

Lorsque vous êtes prêt à exécuter l’inférence LLM par lot sur des données volumineuses ou de production, Databricks recommande d’utiliser des points de terminaison de débit approvisionnés pour accélérer les performances.

Pour obtenir un exemple d’inférence par lot de modèle ML traditionnel, consultez le bloc-notes suivant :

Inférence par lots à l'aide de BERT pour le cahier de reconnaissance des entités nommées

Obtenir le notebook