Contrôle des connaissances
Remarque
Pour effectuer cet exercice, lisez l’étude de cas suivante. À la fin, vous êtes invité à donner des conseils en répondant aux questions de contrôle des connaissances.
Bienvenue dans Proseware ! Vous êtes embauché en tant que scientifique des données en chef pour nous aider à concevoir une solution d’entraînement de Machine Learning.
Comprendre le problème
Chez Proseware, nous développons une application mobile pour aider les médecins à diagnostiquer plus rapidement les maladies chez les patients. Le médecin peut entrer les données médicales du patient dans l’application pour obtenir un diagnostic sur le patient.
La première fonctionnalité que nous avons prévue permet à l’application d’indiquer au médecin s’il faut rechercher des signes de diabète chez le patient ou lui donner un traitement contre le diabète.
Nous avons déjà collecté des données corrélées au diabète, comme le nombre de grossesses, l’âge et l’indice de masse corporelle (IMC). Nous avons également une équipe de scientifiques des données qui travaillent à l’entraînement d’un modèle capable de déterminer si un patient est susceptible d’avoir du diabète.
Nous avons besoin de votre aide pour décider de la manière d’entraîner et de déployer le modèle pour l’intégrer à notre application mobile.
Tenez compte des exigences
Lors des conversations avec votre équipe de scientifiques des données, vous avez découvert les éléments suivants à prendre en compte :
- Tenez compte de l’équipe : Vous disposez d’une équipe de scientifiques des données qui sont familiers du processus d’entraînement d’un modèle de classification. Ils sont habitués à travailler avec Python, mais n’ont aucune expérience de SQL ou Spark.
- Tenez compte des outils de prédilection : Votre équipe préfère ne pas utiliser d’interface utilisateur. Vous voulez que vos scientifiques des données entraînent le modèle avec des notebooks et des scripts. En cas d’audit, nous devons pouvoir montrer exactement comment un modèle est entraîné. Vous souhaitez également que vos scientifiques des données aient un contrôle total sur la façon dont un modèle est entraîné.
- Tenez compte de la capacité de calcul : Vous voulez que vos scientifiques des données commencent à utiliser des notebooks Jupyter, auxquels ils sont déjà habitués.
Vous avez également parlé aux utilisateurs finaux, à savoir les médecins :
- Tenez compte de la fréquence. Le plan est qu’un médecin entre les informations d’un patient dans l’application, comme son âge et son IMC. Une fois qu’un médecin entre les informations, il peut sélectionner le bouton
Analyze
, qui permet au modèle de prédire si un patient est susceptible d’avoir ou non du diabète. - Tenez compte du calcul. Une consultation chez le médecin prend généralement moins de 10 minutes. Si nous voulons que les médecins utilisent cette application, les réponses doivent être envoyées le plus rapidement possible. Le modèle déployé doit toujours être disponible, car nous ne savons pas quand le médecin va l’utiliser.
- Tenez compte de la taille. Un médecin utilise uniquement l’application pour obtenir une prédiction sur la situation d’un individu. Nous n’avons pas besoin que les prédictions soient générées pour plusieurs patients à la fois.