Machine Learning dans Azure Databricks

Effectué

Azure Databricks fournit un environnement cloud complet pour le développement de modèles Machine Learning. Le Machine Learning est une discipline qui implique la collaboration entre les scientifiques des données, qui analysent et modélisent les données et les ingénieurs Machine Learning qui déploient et gèrent des modèles. Azure Databricks permet aux spécialistes des données d'effectuer des tâches d'ingestion, d'exploration et de préparation des données, ainsi que des tâches d'entraînement, d'évaluation et de gestion des modèles.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Runtimes Databricks de Machine Learning

Lorsque vous créez un cluster dans un espace de travail Azure Databricks, vous pouvez spécifier le runtime Databricks à installer dans le cluster. Azure Databricks inclut des runtimes Databricks optimisés pour le Machine Learning. Ces derniers incluent la prise en charge des bibliothèques couramment utilisées dans les charges de travail Machine Learning, notamment les infrastructures et les utilitaires de Machine Learning pour la gestion des opérations d’apprentissage automatique.

Si vous envisagez d’implémenter des solutions d’apprentissage automatique, créez un cluster avec l’un des runtimes ML. Vous pouvez choisir un runtime basé sur l’UC pour les scénarios de Machine Learning classiques ou un runtime basé sur GPU si vous avez besoin de créer des réseaux neuronaux complexes avec des infrastructures Deep Learning pouvant tirer parti d’une capacité de GPU pour traiter efficacement des données basées sur des matrices et des vecteurs.

Infrastructures de Machine Learning dans Azure Databricks

Azure Databricks repose sur Apache Spark, une plateforme hautement évolutive pour le traitement des données distribuées. Sur Spark, les scientifiques des données et les ingénieurs Machine Learning travaillent généralement sur des notebooks interactifs dans lesquels le code pour préparer et utiliser les données pour effectuer l'apprentissage des modèles Machine Learning est écrit dans PySpark (une variante de Python optimisée pour Spark). Dans l’écosystème Python, il existe de nombreuses infrastructures de Machine Learning couramment utilisés, notamment :

  • Scikit-Learn : infrastructure populaire pour le Machine Learning qui fournit un large éventail d’algorithmes et d’autres bibliothèques pour vous aider à effectuer l'apprentissage et à évaluer des modèles prédictifs.
  • Spark MLlib : bibliothèque Machine Learning conçue spécifiquement pour Spark. MLlib offre deux façons d’effectuer l'apprentissage et d’évaluer des modèles Machine Learning :
    • Classes basées sur la structure du jeu de données distribué résilient (RDD) Spark.
    • Classes basées sur la structure du dataframe Spark. Cette infrastructure (communément appelée Spark ML) est la meilleure pour l’utilisation de MLlib.
  • PyTorch : infrastructure de Deep Learning utilisée pour générer des modèles de réseau neuronal pour les charges de travail complexes de prévision, de vision par ordinateur et de traitement du langage naturel.
  • TensorFlow : autre infrastructure Deep Learning couramment utilisée.

Vous pouvez utiliser l’une de ces infrastructures (et bien plus) dans Azure Databricks pour effectuer l'apprentissage et évaluer des modèles Machine Learning.