Scénario de science des données de bout en bout : introduction et architecture
Cet ensemble de didacticiels illustre un exemple de scénario de bout en bout dans l’expérience de science des données Fabric. Vous implémentez chaque étape de l’ingestion, du nettoyage et de la préparation des données, à l’apprentissage des modèles Machine Learning et à la génération d’insights, puis utilisez ces insights à l’aide d’outils de visualisation tels que Power BI.
Si vous débutez avec Microsoft Fabric, consultez Qu’est-ce que Microsoft Fabric ?.
Introduction
Le cycle de vie d’un projet de science des données comprend généralement (souvent, itérativement) les étapes suivantes :
- Compréhension de l’entreprise
- Acquisition de données
- Exploration, nettoyage, préparation et visualisation des données
- Entraînement des modèles et suivi des expériences
- Évaluation des modèles et génération d'informations.
Les objectifs et les critères de réussite de chaque étape dépendent de la collaboration, du partage de données et de la documentation. L’expérience de science des données Fabric se compose de plusieurs fonctionnalités intégrées natives qui permettent la collaboration, l’acquisition de données, le partage et la consommation de manière transparente.
Dans ces tutoriels, vous prenez le rôle d’un scientifique des données qui a reçu la tâche d’explorer, nettoyer et transformer un jeu de données contenant l’état d’activité de 10 000 clients d’une banque. Vous créez ensuite un modèle Machine Learning pour prédire les clients bancaires susceptibles de partir.
Vous allez apprendre à effectuer les activités suivantes :
- Utilisez les notebooks Fabric pour les scénarios de science des données.
- Ingérer des données dans un lakehouse Fabric à l’aide d’Apache Spark.
- Chargez les données existantes depuis les tables Delta du système lakehouse.
- Nettoyez et transformez des données à l’aide d’outils Basés sur Apache Spark et Python.
- Créez des expériences et des exécutions pour entraîner différents modèles Machine Learning.
- Inscrivez et suivez les modèles entraînés à l’aide de MLflow et de l’interface utilisateur Fabric.
- Exécuter la notation à grande échelle et enregistrer les prédictions et les résultats d’inférence dans lakehouse.
- Visualisez les prédictions dans Power BI à l’aide de DirectLake.
Architecture
Dans cette série de tutoriels, nous présentons un scénario de science des données de bout en bout simplifié qui implique :
- Importer des données à partir d’une source de données externe.
- Explorer et nettoyer les données.
- entraîner et enregistrer des modèles d'apprentissage automatique.
- Réaliser le traitement par lots et enregistrer les prévisions.
- Visualiser les résultats de prédiction dans Power BI.
Différents composants du scénario de science des données
Sources de données : Fabric permet de se connecter facilement et rapidement à Azure Data Services, à d’autres plateformes cloud et à des sources de données locales pour ingérer des données. À l’aide de Notebooks Fabric, vous pouvez ingérer des données à partir des sources de données personnalisées intégrées de Lakehouse, de Data Warehouse, de modèles sémantiques et de diverses sources de données personnalisées prises en charge par Apache Spark et Python. Cette série de tutoriels se concentre sur l’ingestion et le chargement de données à partir d’un lakehouse.
Explorer, nettoyer et préparer : l’expérience de science des données sur Fabric prend en charge le nettoyage, l’exploration et la caractérisation des données à l’aide d’expériences intégrées sur Spark, ainsi que des outils Python tels que Data Wrangler et SemPy Library. Ce tutoriel présente l’exploration des données à l’aide de la bibliothèque Python seaborn
et du nettoyage et de la préparation des données à l’aide d’Apache Spark.
Modèles et expériences - Fabric vous permet d’entraîner, d’évaluer et de noter des modèles Machine Learning à l’aide d’éléments d’expérience et de modèles intégrés avec une intégration transparente avec MLflow pour le suivi des expériences et l’inscription/le déploiement de modèles. Fabric propose également des fonctionnalités de prédiction de modèle à grande échelle (PREDICT) pour obtenir et partager des insights métier.
Stockage : Fabric est standardisé sur Delta Lake, ce qui signifie que tous les moteurs de Fabric peuvent interagir avec le même jeu de données stocké dans un lakehouse. Cette couche de stockage vous permet de stocker des données structurées et non structurées qui prennent en charge le stockage basé sur les fichiers et le format tabulaire. Les jeux de données et les fichiers stockés sont facilement accessibles via tous les composants de l'interface Fabric, tels que les notebooks et les pipelines.
Exposer l’analyse et les insights : les données d’un lakehouse peuvent être consommées par Power BI, outil décisionnel leader du secteur, pour la création de rapports et la visualisation. Les données conservées dans le lakehouse peuvent également être visualisées dans des notebooks à l’aide de bibliothèques de visualisation natives Spark ou Python telles que matplotlib
, seaborn
, plotly
et bien plus encore. Les données peuvent également être visualisées à l’aide de la bibliothèque SemPy qui prend en charge les visualisations intégrées spécifiques aux tâches pour le modèle de données sémantique, pour les dépendances et leurs violations, et pour les cas d’usage de classification et de régression.