Automatiser vos transformations de données

Effectué

La préparation des données pour le Machine Learning est une étape nécessaire lorsque vous souhaitez créer des modèles efficaces. Azure Databricks peut traiter et préparer efficacement des jeux de données volumineux en raison de la puissance de calcul de Spark.

Examinons comment chaque étape du flux de travail Machine Learning lié aux données peut être effectuée dans Azure Databricks.

Stocker les données collectées dans le stockage Azure

Lorsque vous collectez des données à partir de différentes sources, il est préférable de stocker vos données dans une solution de stockage telle que Stockage Blob Azure ou Azure Data Lake.

Le stockage de données dans une solution de stockage Azure plutôt que directement dans Azure Databricks offre une meilleure scalabilité, une sécurité améliorée et une intégration avec d’autres services Azure.

Les solutions de stockage Azure fournissent un environnement robuste et flexible pour la gestion de jeux de données volumineux, ce qui garantit que vos données sont facilement disponibles pour le traitement et l’analyse.

Pour gérer l’accès à toutes les données stockées dans le stockage cloud, utilisez Unity Catalog. Unity Catalog fournit une solution de gouvernance unifiée pour tous les actifs de données, vous permettant de gérer les autorisations et les contrôles d'accès dans l'ensemble de votre patrimoine de données.

Explorer et préparer vos données

Après vous être connecté à vos données, vous souhaitez explorer les données via l’Analyse de données exploratoire (EDA). Sur la base de vos conclusions, vous préparez vos données pour traiter les données manquantes, vous effectuez une ingénierie des caractéristiques et vous procédez à toute autre transformation des données qui, selon vous, améliore les performances du modèle.

Pour une analyse initiale, utilisez les notebooks Databricks pour explorer et comprendre les données. Vous pouvez utiliser Spark SQL ou PySpark pour travailler avec de grands ensembles de données, résumer les données, vérifier les valeurs nulles et comprendre les distributions de données.

Automatiser l’ingénierie de caractéristiques dans Azure Databricks

Les outils et bibliothèques d’ingénierie de caractéristiques automatisés, tels que Featuretools et AutoFeat, gagnent en popularité, car ils simplifient le processus de génération et de sélection des caractéristiques. Ces outils utilisent des algorithmes pour créer automatiquement des caractéristiques à partir de données brutes, évaluer leur importance et sélectionner les caractéristiques les plus pertinentes pour la modélisation. Cette approche permet de gagner du temps et de réduire la dépendance à l’ingénierie manuelle des caractéristiques.

Automatiser vos transformations de données dans Azure Databricks

Après l’exploration, vous pouvez choisir d’automatiser les transformations de données en configurant des pipelines. L’une des façons d’effectuer l’automatisation consiste à configurer des travaux dans Azure Databricks pour automatiser les notebooks et les scripts. Les travaux Azure Databricks vous permettent de planifier et d’exécuter vos notebooks ou fichiers JAR en tant que travaux, ce qui vous permet d’automatiser vos flux de travail de traitement des données.

Pour configurer un travail dans Azure Databricks, procédez comme suit :

  1. Créer un travail : Dans l’espace de travail Databricks, accédez à l’onglet Travaux et sélectionnez Create job. Indiquez un nom pour votre travail et spécifiez le notebook ou le fichier JAR que vous souhaitez exécuter.
  2. Configurez le travail : Définissez les paramètres de votre travail, tels que la configuration du cluster, la planification de l’exécution du travail et toutes les dépendances. Vous pouvez également spécifier des notifications par e-mail pour les mises à jour de l'état d'avancement du travail.
  3. Exécutez et surveillez le travail: Une fois le travail configuré, vous pouvez l’exécuter manuellement ou le laisser s’exécuter selon le planning que vous définissez. Vous pouvez surveiller la progression du travail et afficher les journaux pour résoudre les problèmes.

Vous pouvez également utiliser les services Azure pour créer des pipelines de données automatisés.

Automatiser l'intégration des données avec Azure Data Factory

Azure Data Factory est un outil permettant de créer et de gérer des pipelines de données. Il vous permet de créer des flux de travail pilotés par les données pour orchestrer le déplacement et la transformation des données.

Pour créer un pipeline de données dans Azure Data Factory, procédez comme suit :

  1. Créer une fabrique de données : Dans le portail Azure, créez une instance Data Factory.
  2. Créer un pipeline : Dans l’interface utilisateur de Data Factory, créez un pipeline et ajoutez-y des activités. Les activités peuvent inclure le déplacement des données, la transformation de données et les opérations de flux de contrôle.
  3. Configurer les activités : Définissez les paramètres de chaque activité, tels que les magasins de données source et de destination, la logique de transformation et toutes les dépendances.
  4. Planifier et surveiller : Planifiez l’exécution du pipeline à intervalles spécifiés et surveillez son exécution. Vous pouvez afficher les journaux et configurer des alertes pour tous les problèmes.

Conseil

En savoir plus sur Azure Data Factory.

En automatisant les transformations de données et les flux de travail avec Azure Databricks Jobs ou Azure Data Factory, vous garantissez un traitement cohérent des données, ce qui rend vos modèles Machine Learning plus efficaces et plus fiables.