Partager via


API Databricks Foundation Model

Cet article fournit une vue d’ensemble des API Foundation Model sur Azure Databricks. Il inclut des exigences d’utilisation, de modèles pris en charge et de limitations.

Qu’est-ce que les API Databricks Foundation Model ?

Mosaic AI Model Serving prend désormais en charge les API des modèles fondamentaux, ce qui vous permet d'accéder et d'interroger des modèles ouverts de pointe à partir d’un point de terminaison de service. Ces modèles sont hébergés par Databricks et vous pouvez rapidement et facilement créer des applications qui les utilisent sans gérer votre propre déploiement de modèle. Les API Foundation Model sont un Service désigné Databricks, en d'autres termes,il utilise Databricks Geos pour gérer la résidence des données lors du traitement du contenu client.

Les API Foundation Model sont fournies dans les modes tarifaires suivants :

  • Paiement par jeton : il s’agit du moyen le plus simple de commencer à accéder aux modèles de base sur Databricks et est recommandé pour commencer votre parcours avec les API Foundation Model. Ce mode n’est pas conçu pour les applications à haut débit ou les charges de travail de production performantes.
  • Débit approvisionné : ce mode est recommandé pour toutes les charges de travail de production, en particulier celles qui nécessitent un débit élevé, des garanties de performances, des modèles affinés ou des exigences de sécurité supplémentaires. Les points de terminaison de débit approvisionnés sont disponibles avec des certifications de conformité telles que HIPAA.

Pour plus d’informations sur l’utilisation de ces modes et ses modèles pris en charge, consultez Utiliser les API Foundation Model.

À l’aide des API Foundation Model, vous pouvez effectuer les opérations suivantes :

  • Interrogez un LLM généralisé pour vérifier la validité d’un projet avant d’investir davantage de ressources.
  • Interrogez un LLM généralisé pour créer une preuve de concept rapide pour une application basée sur LLM avant d’investir dans l’apprentissage et le déploiement d’un modèle personnalisé.
  • Utilisez un modèle fondamental, ainsi qu'une base de données vectorielle, pour créer un chatbot à l'aide de la génération augmentée par la récupération (RAG).
  • Remplacez les modèles propriétaires par des alternatives ouvertes pour optimiser les coûts et les performances.
  • Comparez efficacement les machines virtuelles LLM pour voir le meilleur candidat pour votre cas d’usage, ou échangez un modèle de production avec un modèle de production plus performant.
  • Créez une application LLM pour le développement ou la production en plus d’une solution de service LLM évolutive et soutenue par un contrat SLA qui peut prendre en charge vos pics de trafic de production.

Exigences

Utiliser les API Foundation Model

Vous avez plusieurs options pour utiliser les API Foundation Model.

Les API sont compatibles avec OpenAI. Vous pouvez donc utiliser le client OpenAI pour l’interrogation. Vous pouvez également utiliser l’interface utilisateur, le SDK Python des API Foundation Models, le SDK MLflow Deployments ou l’API REST pour interroger des modèles pris en charge. Databricks recommande d’utiliser le Kit de développement logiciel (SDK) ou l’API du client OpenAI pour les interactions étendues et l’interface utilisateur pour essayer la fonctionnalité.

Consultez Interroger les modèles de base pour obtenir des exemples de scoring.

API de modèle De base de paiement par jeton

Les points de terminaison préconfigurés qui servent les modèles de paiement par jeton sont accessibles dans votre espace de travail Azure Databricks. Ces modèles de paiement par jeton sont recommandés pour commencer. Pour y accéder dans votre espace de travail, accédez à l’onglet Service dans la barre latérale gauche. Les API Foundation Model se trouvent en haut de l’affichage liste des points de terminaison.

liste des points de terminaison de service

API Foundation Model avec débit approvisionné

Le débit provisionné fournit des points de terminaison avec une inférence optimisée pour les charges de travail de modèle de base qui nécessitent des garanties de performances. Databricks préconise un débit provisionné pour les charges de travail en production.

La prise en charge du débit approvisionné comprend les éléments suivants :

  • Modèles de base de toutes tailles. Les modèles de base sont accessibles à l’aide de la Place de marché Databricks, ou vous pouvez également les télécharger à partir de Hugging Face ou d’une autre source externe et les inscrire dans le catalogue Unity. Cette dernière approche fonctionne avec n’importe quelle variante affinée des modèles pris en charge.
  • Versions personnalisées de modèles de base, telles que les modèles basés sur des données propriétaires.
  • Poids et générateur de jetons entièrement personnalisés, comme ceux entraînés à partir de zéro ou pré-entraînés ou d’autres variantes à l’aide de l’architecture du modèle de base (par exemple, CodeLlama).

Limitations

Consultez les limites des API Foundation Model.

Ressources additionnelles