Qu’est-ce que la science des données dans Microsoft Fabric ?
Microsoft Fabric offre des expériences de science des données pour permettre aux utilisateurs d’effectuer des workflows de science des données de bout en bout à des fins d’enrichissement des données et d’insights métier. Vous pouvez effectuer un large éventail d’activités dans l’ensemble du processus de science des données, de l’exploration des données, de la préparation et du nettoyage à l’expérimentation, à la modélisation, au scoring des modèles et au service d’insights prédictifs aux rapports BI.
Les utilisateurs de Microsoft Fabric peuvent accéder à une page d’accueil de science des données. À partir de là, ils peuvent découvrir et accéder à diverses ressources pertinentes. Par exemple, ils peuvent créer des expériences, des modèles et des notebooks de machine learning. Ils peuvent également importer des Notebooks existants sur la Page d'accueil Science des données.
Vous savez peut-être comment fonctionne un processus de science des données classique. En tant que processus bien connu, la plupart des projets Machine Learning le suivent.
À un niveau élevé, le processus implique les étapes suivantes :
- Formulation et idée de problème
- Découverte et prétraitement des données
- Expérimentation et modélisation
- Enrichir et opérationnaliser
- Obtenir des informations
Cet article décrit les fonctionnalités de science des données Microsoft Fabric du point de vue d’un processus de science des données. Pour chaque étape du processus de science des données, cet article récapitule les fonctionnalités de Microsoft Fabric qui peuvent vous aider.
Formulation et idée de problème
Les utilisateurs de science des données dans Microsoft Fabric travaillent sur la même plateforme que les utilisateurs professionnels et les analystes. Le partage et la collaboration des données deviennent ainsi plus transparents entre différents rôles. Les analystes peuvent facilement partager des rapports et des jeux de données Power BI avec des praticiens de la science des données. La facilité de collaboration entre les rôles dans Microsoft Fabric simplifie grandement les transitions pendant la phase de formulation des problèmes.
Découverte et prétraitement des données
Les utilisateurs de Microsoft Fabric peuvent interagir avec des données dans OneLake à l’aide de l’élément Lakehouse. Lakehouse s’attache facilement à un bloc-notes pour parcourir et interagir avec les données.
Les utilisateurs peuvent facilement lire des données à partir d’un Lakehouse directement dans un dataframe Pandas. Pour l’exploration, cela permet de lire des données transparentes à partir de OneLake.
Un ensemble puissant d’outils est disponible pour l’ingestion des données et les pipelines d’orchestration des données avec des pipelines d’intégration de données , une partie intégrée en mode natif de Microsoft Fabric. Les pipelines de données faciles à créer peuvent accéder aux données et les transformer dans un format que le Machine Learning peut consommer.
Exploration des données
Une partie importante du processus d’apprentissage automatique consiste à comprendre les données par le biais de l’exploration et de la visualisation.
En fonction de l’emplacement de stockage des données, Microsoft Fabric propose un ensemble d’outils différents pour explorer et préparer les données pour l’analytique et le Machine Learning. Les blocs-notes deviennent l’une des méthodes les plus rapides pour commencer à explorer les données.
Apache Spark et Python pour la préparation des données
Microsoft Fabric offre des fonctionnalités pour transformer, préparer et explorer vos données à grande échelle. Avec Spark, les utilisateurs peuvent tirer parti des outils PySpark/Python, Scala et SparkR/SparklyR pour le prétraitement des données à grande échelle. De puissantes bibliothèques de visualisation open source peuvent améliorer l’expérience d’exploration des données pour mieux comprendre les données.
Data Wrangler pour le nettoyage transparent des données
L’expérience Notebook de Microsoft Fabric a ajouté une fonctionnalité permettant d’utiliser Data Wrangler, un outil de codage pour préparer les données et générer du code Python. Cette expérience facilite l’accélération des tâches fastidieuses et banales , par exemple le nettoyage des données et la répétabilité et l’automatisation par le biais du code généré. En savoir plus sur Data Wrangler dans la section Data Wrangler de ce document.
Expérimentation et modélisation ML
Avec des outils tels que PySpark/Python, SparklyR/R, les notebooks peuvent gérer l’apprentissage du modèle Machine Learning.
Les algorithmes et bibliothèques ML peuvent aider à entraîner des modèles Machine Learning. Les outils de gestion des bibliothèques peuvent installer ces bibliothèques et algorithmes. Les utilisateurs ont donc la possibilité de tirer parti d’une grande variété de bibliothèques de Machine Learning populaires pour terminer leur formation de modèle ML dans Microsoft Fabric.
En outre, les bibliothèques populaires comme Scikit Learn peuvent également développer des modèles.
Les expériences et les exécutions MLflow peuvent suivre l'apprentissage du modèle ML. Microsoft Fabric offre une expérience MLflow intégrée avec laquelle les utilisateurs peuvent interagir, pour consigner des expériences et des modèles. Apprenez-en davantage sur l’utilisation de MLflow pour suivre les expériences et gérer des modèles dans Microsoft Fabric.
SynapseML
La bibliothèque open source SynapseML (anciennement MMLSpark), que Microsoft possède et gère, simplifie la création de pipelines d'apprentissage automatique à l'échelle massive. En tant qu’écosystème d’outils, il développe l’infrastructure Apache Spark dans plusieurs nouvelles directions. SynapseML unifie plusieurs frameworks Machine Learning existants et de nouveaux algorithmes Microsoft en une API unique et évolutive. La bibliothèque SynapseML open source comprend un écosystème riche d’outils ML pour le développement de modèles prédictifs, ainsi que l’utilisation de modèles IA préentraînés à partir de services Azure AI. En savoir plus sur synapseML.
Enrichir et opérationnaliser
Les notebooks peuvent gérer le scoring par lots de modèles Machine Learning avec des bibliothèques open source pour la prédiction, ou la fonction de prédiction Spark universelle évolutive de Microsoft Fabric, qui prend en charge les modèles empaquetés MLflow dans le registre de modèles Microsoft Fabric.
Obtenir des aperçus
Dans Microsoft Fabric, les valeurs prédites peuvent facilement être écrites dans OneLake et consommées en toute transparence à partir de rapports Power BI, avec le mode Power BI Direct Lake. Cela permet aux professionnels de la science des données de partager facilement les résultats de leur travail avec les parties prenantes et simplifie également l’opérationnalisation.
Les notebooks qui contiennent le scoring par lots peuvent être planifiés pour s’exécuter à l’aide des fonctionnalités de planification des notebooks. Le scoring par lots peut également être planifié dans le cadre d’activités de pipeline de données ou de travaux Spark. Power BI obtient automatiquement les dernières prédictions sans avoir besoin de charger ou d’actualiser les données, grâce au mode Direct Lake dans Microsoft Fabric.
Exploration des données avec lien sémantique
Les scientifiques des données et les analystes métier passent beaucoup de temps à essayer de comprendre, nettoyer et transformer des données avant de commencer une analyse significative. Les analystes métier travaillent généralement avec des modèles sémantiques et encodent leur connaissance du domaine et leur logique métier dans les mesures Power BI. En revanche, les scientifiques des données peuvent travailler avec les mêmes données, mais généralement dans un autre environnement de code ou langage.
Le lien sémantique permet aux scientifiques des données d’établir une connexion entre les modèles sémantiques Power BI et l’expérience Synapse Data Science dans Microsoft Fabric via la bibliothèque Python semPy . SemPy simplifie l’analytique des données en capturant et en tirant parti de la sémantique des données lorsque les utilisateurs effectuent différentes transformations sur les modèles sémantiques. En tirant parti du lien sémantique, les scientifiques des données peuvent :
- éviter la nécessité de réinscrire la logique métier et les connaissances de domaine dans leur code
- accéder et utiliser facilement des mesures Power BI dans leur code
- utiliser la sémantique pour alimenter de nouvelles expériences, telles que des fonctions sémantiques
- explorer et valider les dépendances fonctionnelles et les relations entre les données
Grâce à l’utilisation de SemPy, les organisations peuvent s’attendre à voir :
- productivité accrue et collaboration plus rapide entre les équipes qui opèrent sur les mêmes jeux de données
- collaboration croisée accrue entre les équipes d'intelligence d'affaires et d'intelligence artificielle
- réduction de l’ambiguïté et d’une courbe d’apprentissage plus facile lors de l’intégration à un nouveau modèle ou à un nouveau jeu de données
Pour plus d’informations sur le lien sémantique, consultez Qu’est-ce que le lien sémantique ?.
Contenu connexe
- Commencez avec des exemples complets de science des données, consultez les tutoriels de science des données
- En savoir plus sur la préparation et le nettoyage des données avec Data Wrangler, consultez data Wrangler
- En savoir plus sur le suivi des expériences, consultez expérience Machine Learning
- En savoir plus sur la gestion des modèles, consultez modèle Machine Learning
- En savoir plus sur le scoring par lots avec Predict, consultez Noter des modèles avec PREDICT
- Fournir des prédictions de Lakehouse à Power BI avec le mode Direct Lake