Comprendre le processus de science des données

Effectué

Une façon courante d’extraire des insights à partir de données consiste à visualiser les données. Chaque fois que vous avez des jeux de données complexes, vous pouvez approfondir et essayer de trouver des modèles complexes dans les données.

En tant que scientifique des données, vous pouvez entraîner des modèles de Machine Learning pour trouver des modèles dans vos données. Vous pouvez utiliser ces modèles pour générer de nouveaux insights ou de nouvelles prédictions. Par exemple, vous pouvez prédire le nombre attendu de produits que vous prévoyez de vendre au cours de la prochaine semaine.

Bien que l’apprentissage du modèle soit important, ce n’est pas la seule tâche d’un projet de science des données. Avant d’explorer le processus de science des données classique, nous allons explorer les modèles de Machine Learning courants que vous pouvez entraîner.

Explorer les modèles Machine Learning courants

L’objectif du Machine Learning est d’entraîner des modèles capables d’identifier des modèles dans de grandes quantités de données. Vous pouvez ensuite utiliser les modèles pour effectuer des prédictions qui vous fournissent de nouveaux insights pour lesquels vous pouvez prendre des mesures.

Les possibilités du Machine Learning peuvent sembler infinies. Commençons donc par comprendre les quatre types courants de modèles Machine Learning :

Diagram of the four common types of machine learning models.

  1. Classification : prédire une valeur catégorielle, indiquant, par exemple, s’il a un risque de perdre un client.
  2. Régression : prédire une valeur numérique comme le prix d’un produit.
  3. Clustering : regroupez des points de données similaires dans des clusters ou des groupes.
  4. Prévision : prédire des valeurs numériques futures basées sur des données de séries chronologiques, comme les ventes attendues pour le mois à venir.

Pour déterminer le type de modèle Machine Learning que vous devez entraîner, vous devez d’abord comprendre le problème métier et les données disponibles.

Comprendre le processus de science des données

Pour entraîner un modèle Machine Learning, le processus implique généralement les étapes suivantes :

Diagram of sequential steps in the data science process.

  1. Définir le problème : avec les utilisateurs métier et les analystes, déterminez ce que le modèle doit prédire et quand il réussit.
  2. Obtenir les données : recherchez des sources de données et obtenez l’accès en stockant vos données dans un lakehouse.
  3. Préparer les données : explorez les données en les lisant à partir d’un lakehouse dans un notebook. Nettoyez et transformez les données en fonction des exigences du modèle.
  4. Entraîner le modèle : choisissez un algorithme et des valeurs d’hyperparamètres par tâtonnements en suivant vos expériences avec MLflow.
  5. Générer des insights : utilisez le scoring par lots du modèle pour générer les prédictions demandées.

En tant que scientifique des données, vous consacrez la plupart de votre temps à la préparation des données et à l’entraînement du modèle. La façon dont vous préparez les données et l’algorithme que vous choisissez pour entraîner un modèle peuvent influencer la réussite de votre modèle.

Vous pouvez préparer et entraîner un modèle à l’aide de bibliothèques open source disponibles pour le langage de votre choix. Par exemple, si vous utilisez Python, vous pouvez préparer les données avec Pandas et Numpy, et entraîner un modèle avec des bibliothèques telles que Scikit-Learn, PyTorch ou SynapseML.

Lors de l’expérimentation, vous souhaitez conserver une vue d’ensemble de tous les différents modèles que vous avez entraînés. Vous souhaitez comprendre comment vos choix influencent la réussite du modèle. En suivant vos expériences avec MLflow dans Microsoft Fabric, vous pouvez facilement gérer et déployer les modèles que vous avez entraînés.