Partager via


IA et apprentissage automatique sur Databricks

Cet article décrit les outils fournis par Mosaic AI (anciennement Databricks Machine Learning) pour vous aider à créer des systèmes IA et ML. Le diagramme montre comment différents produits sur la plateforme Databricks vous aident à implémenter vos flux de travail de bout en bout pour créer et déployer des systèmes d’IA et ML

Diagramme de Machine Learning : Développement de modèle et déploiement sur Databricks

IA générative sur Databricks

Mosaic AI unifie le cycle de vie de l'IA, depuis la collecte et la préparation des données, jusqu'au développement de modèles et aux LLMOps, en passant par le service et la surveillance. Les fonctionnalités suivantes sont spécifiquement optimisées pour faciliter le développement d'applications d'IA générative :

  • Unity Catalog pour la gouvernance, la découverte, le contrôle de version et le contrôle d’accès pour les données, les fonctionnalités, les modèles et les fonctions.
  • MLflow pour le suivi du développement de modèles.
  • Service de modèles Mosaic AI pour le déploiement des modèles LLM. Vous pouvez configurer un point de terminaison de service de modèles spécifiquement pour accéder aux modèles d’IA générative :
  • Mosaic AI Vector Search fournit une base de données vectorielle interrogeable qui stocke les vecteurs d’incorporation. Vous pouvez la configurer de manière à ce qu’elle se synchronise automatiquement avec votre base de connaissances.
  • Lakehouse Monitoring pour le monitoring des données et le suivi de la qualité et de la dérive des prévisions d’un modèle à l’aide de la journalisation automatique de la charge utile avec des tables d’inférence.
  • AI Playground pour tester des modèles d’IA générative à partir de votre espace de travail Databricks. Vous pouvez demander, comparer et ajuster des paramètres tels que l’invite système et les paramètres d’inférence.
  • Réglage précis du modèle Foundation (désormais partie intégrante de l’entraînement de modèle d’IA de Mosaïque) pour personnaliser un modèle de base à l’aide de vos propres données afin d’optimiser ses performances pour votre application spécifique.
  • Mosaic AI Agent Framework pour la création et le déploiement d’agents de qualité de production, comme les applications Retrieval Augmented Generation (RAG).
  • Mosaic AI Agent Evaluation pour évaluer la qualité, le coût et la latence des applications d’IA générative, y compris les applications et es chaînes RAG.

Qu’est-ce que l’IA générative ?

L'IA générative est un type d'intelligence artificielle axé sur la capacité des ordinateurs à utiliser des modèles pour créer du contenu tel que des images, du texte, du code et des données synthétiques.

Les applications d'IA générative s'appuient sur des modèles d’IA générative : des grands de modèles langage (LLM) et des modèles de fondation.

  • Les LLM sont des modèles d'apprentissage en profondeur qui consomment et s'entraînent sur des ensembles de données massifs pour exceller dans les tâches de traitement linguistique. Ils créent de nouvelles combinaisons de texte qui imitent le langage naturel sur la base de leurs données de formation.
  • Les modèles ia génératives ou les modèles de base sont des modèles ML volumineux préentraînés avec l’intention qu’ils soient affinés pour des tâches de compréhension et de génération de langage plus spécifiques. Ces modèles servent à discerner des modèles dans les données d'entrée.

Une fois que ces modèles ont terminé leurs processus d'apprentissage, ils génèrent ensemble des résultats statistiquement probables lorsque vous y êtes invité et peuvent être utilisés pour accomplir diverses tâches, notamment :

  • Génération d'images basées sur des images existantes ou utilisant le style d'une image pour en modifier ou en créer une nouvelle.
  • Tâches Azure Cognitive Service for Speech telles que la transcription, la traduction, la génération de questions/réponses et l'interprétation de l'intention ou du sens du texte.

Important

Bien que de nombreux modèles LLM ou d’autres modèles d’IA générative aient des protections, ils peuvent toujours générer des informations dangereuses ou inexactes.

L’IA générative dispose des modèles de conception suivants :

  • Ingénierie d’invite : création d’invites spécialisées pour orienter le comportement du LLM
  • Génération augmentée de récupération (RAG) : combinaison d’un LLM avec une récupération de connaissances externes
  • Réglage précis : Adaptation d’un LLM préentraîné à des jeux de données spécifiques aux domaines
  • Pré-entraînement : Entraînement d’un LLM à partir de zéro

Apprentissage automatique sur Databricks

Avec Mosaic AI, une plateforme unique sert chaque étape du développement et du déploiement ML, des données brutes aux tables d’inférence qui enregistrent chaque demande et réponse pour un modèle servi. Les scientifiques des données, les ingénieurs des données, les ingénieurs ML et DevOps peuvent effectuer leurs tâches à l’aide du même ensemble d’outils et d’une source unique de vérité pour les données.

Mosaic AI unifie la couche de données et la plateforme ML. Toutes les ressources et artefacts de données, tels que les modèles et les fonctions, sont détectables et régis dans un seul catalogue. Utiliser une plateforme unique pour les données et les modèles permet de suivre la traçabilité des données brutes vers le modèle de production. La surveillance intégrée des données et des modèles enregistre les métriques de qualité dans les tables également stockées dans la plateforme, ce qui facilite l’identification de la cause racine des problèmes de performances du modèle. Pour plus d’informations sur la façon dont Databricks prend en charge le cycle de vie de Machine Learning complet et MLOps, consultez Flux de travail MLOps sur Azure Databricks et Piles MLOps : processus de développement de modèle en tant que code.

Voici quelques-uns des composants clés de la plateforme Data Intelligence :

Tâches Composant
Gouverner et gérer des données, des fonctionnalités, des modèles et des fonctions. Également la découverte, le contrôle de version et la traçabilité. Unity Catalog
Suivre les modifications apportées aux données, à la qualité des données et à la qualité des prédictions de modèle Surveillance de lakehouse, Tables d’inférence
Développement et gestion des caractéristiques Ingénierie et mise en service des caractéristiques.
Entraîner des modèles Notebooks AutoML, Databricks
Suivre le développement d’un modèle Suivi MLflow
Servir des modèles personnalisés Service de modèles Mosaic AI.
Créer des flux de travail automatisés et des pipelines ETL prêts pour la production Travaux Databricks
Intégration Git Dossiers Databricks Git

Deep Learning sur Databricks

La configuration d’une infrastructure pour les applications de Deep Learning peut être difficile. Databricks Runtime pour Machine Learning s’en charge pour vous et propose des clusters avec des versions compatibles intégrées des bibliothèques de Deep Learning les plus courantes, telles que TensorFlow, PyTorch et Keras.

Les clusters Databricks Runtime ML incluent également la prise en charge GPU préconfigurée avec des pilotes et des bibliothèques de prise en charge. Il prend également en charge les bibliothèques telles que Ray pour paralléliser le traitement de calcul pour la mise à l’échelle des flux de travail ML et des applications ML.

Les clusters Databricks Runtime ML incluent également la prise en charge GPU préconfigurée avec des pilotes et des bibliothèques de prise en charge. Le service de modèles Mosaic AI permet la création de points de terminaison GPU évolutifs pour les modèles Deep Learning sans configuration supplémentaire.

Pour les applications de machine learning, Databricks recommande l’utilisation d’un cluster exécutant Databricks Runtime pour le machine learning. Consultez Créer un cluster à l’aide de Databricks Runtime ML.

Pour commencer à utiliser le Deep Learning sur Databricks, consultez :

Étapes suivantes

Pour commencer, consultez :

Pour obtenir un flux de travail MLOps recommandé sur Databricks Mosaic AI, consultez :

Pour en savoir plus sur les principales fonctionnalités de Databricks Mosaic AI, consultez :