Grand modèles de langage (LLM) sur Databricks
Azure Databricks simplifie l’accès et la création de grands modèles de langage disponibles au public.
Databricks Runtime pour Machine Learning inclut des bibliothèques, telles que Hugging Face Transformers et LangChain, qui vous permettent d’intégrer des modèles pré-entraînés existants ou d’autres bibliothèques open source dans votre flux de travail. À partir de là, vous pouvez tirer parti des fonctionnalités de la plateforme Azure Databricks pour ajuster les LLM à l’aide de vos propres données pour obtenir de meilleures performances de domaine.
En outre, Azure Databricks offre une fonctionnalité intégrée permettant aux utilisateurs SQL d’accéder et d’expérimenter des LLM, comme Azure OpenAI et OpenAI, en utilisant les fonctions IA.
Formation de modèles IA Mosaic
Important
Cette fonctionnalité est disponible en préversion publique. Contactez votre équipe de votre compte Databricks pour vous inscrire à la Préversion publique.
Mosaïque AI Model Training (anciennement Foundation Model Training) est une interface simple de la pile d’entraînement Databricks pour effectuer un réglage complet du modèle.
Vous pouvez effectuer les opérations suivantes à l’aide de l’entraînement de modèle d’IA De Mosaïque :
- Ajuster un modèle avec vos données personnalisées, avec les points de contrôle enregistrés dans MLflow. Vous disposez d’un contrôle complet du modèle ajusté.
- Inscrire automatiquement le modèle dans le catalogue Unity, ce qui permet un déploiement facile avec le service de modèle.
- Ajustez davantage un modèle propriétaire complet en chargeant les poids d’un modèle précédemment ajusté.
Consultez Mosaic AI Model Training pour les modèles de base.
Hugging Face Transformers
Avec Hugging Face Transformers sur Databricks, vous pouvez effectuer un scale-out de vos applications par lots du traitement du langage naturel par et ajuster des modèles pour des applications de grands modèles de langage.
La bibliothèque Hugging Face transformers
est préinstallée sur Databricks Runtime 10.4 LTS ML et versions ultérieures. La plupart des modèles de traitement du langage naturel populaires fonctionnent mieux sur le matériel GPU. Vous pouvez donc obtenir les meilleures performances à l’aide du matériel GPU récent, sauf si vous utilisez un modèle spécifiquement optimisé pour une utilisation sur les processeurs.
DSPy
DSPy automatise le réglage des invites en convertissant les signatures en langage naturel défini par l’utilisateur en instructions complètes et en exemples à quelques coups.
Consultez Créer des applications genAI à l’aide de DSPy sur Azure Databricks pour obtenir des exemples sur l’utilisation de DSPy.
LangChain
LangChain est disponible en tant que version expérimentale de MLflow qui permet aux clients de LangChain de tirer parti des outils robustes et des capacités de suivi des expériences de MLflow directement à partir de l'environnement Azure Databricks.
LangChain est un cadre logiciel conçu pour aider à créer des applications qui utilisent de grands modèles de langage (LLM) et les combiner avec des données externes pour apporter plus de contexte de formation pour vos LLM.
Databricks Runtime ML inclut langchain
dans Databricks Runtime 13.1 ML et versions ultérieures.
Découvrez les intégrations LangChain spécifiques à Databricks.
Fonctions IA
Important
Cette fonctionnalité est disponible en préversion publique.
Les fonctions IA sont des fonctions SQL intégrées qui permettent aux utilisateurs SQL de :
- Utilisez les API Databricks Foundation Model pour effectuer différentes tâches sur les données de votre entreprise.
- Accédez à des modèles externes tels que GPT-4 à partir d’OpenAI et expérimentez-les.
- Interroger les modèles hébergés par les points de terminaison Service de modèles Mosaic AI à partir de requêtes SQL.