Exercice - Charger les données et créer un nuage de points

Effectué

Les notebooks Jupyter sont composés de cellules. Chaque cellule se voit attribuer l’un des trois types :

  • Markdown pour entrer du texte au format markdown
  • Code pour entrer du code qui s’exécute de manière interactive
  • Raw NBConvert pour entrer des données inline

Le code entré dans des cellules de code est exécuté par un noyau, qui fournit un environnement isolé pour le notebook à exécuter. Le noyau IPython prend en charge le code écrit en Python, mais des douzaines d’autres noyaux sont disponibles pour prendre en charge d’autres langages. Les notebooks Azure prennent en charge Python, R et F#. Ils prennent aussi en charge l’installation d’un grand nombre de packages et de bibliothèques qui sont couramment utilisés dans la recherche.

Actuellement, l’éditeur de notebooks montre une cellule vide. Dans cet exercice, vous allez ajouter du contenu à cette cellule et ajouter d’autres cellules pour importer des packages Python comme NumPy, charger deux fichiers de données de la NASA contenant des données climatiques et créer un nuage de points à partir de ces données.

  1. Dans la première cellule, définissez le type de cellule sur Markdown et entrez « Analyse des changements climatiques Azure Notebooks » dans la cellule elle-même :

    Définition d'une cellule Markdown.

    Définition d’une cellule Markdown

  2. Cliquez sur le bouton + dans la barre d’outils pour ajouter une nouvelle cellule. Assurez-vous que le type de cellule est Code, puis entrez le code Python suivant dans la cellule :

    import matplotlib.pyplot as plt
    import numpy as np
    from sklearn.linear_model import LinearRegression
    import seaborn as sns; sns.set()
    

    Ajout d'une cellule de code.

    Ajout d’une cellule de code

  3. Cliquez maintenant sur le bouton Exécuter pour exécuter la cellule de code et importer les packages spécifiés dans les instructions import. Ignorez les avertissements qui s’affichent au fur et à mesure que vous préparez l’environnement pour la première fois.

    Vous pouvez supprimer les avertissements en sélectionnant la cellule de code et en la réexécutant.

    Exécution d'une cellule de code.

    Exécution d’une cellule de code

  4. Cliquez sur Fichier dans le menu en haut de la page et sélectionnez Charger dans le menu déroulant. Ensuite, chargez les fichiers nommés 5-year-mean-1951-1980.csv et 5-year-mean-1882-2014.csv.

    Chargement des données dans le notebook.

    Chargement des données dans le notebook

  5. Sélectionnez /projet comme Dossier de destination pour être sûr de conserver vos fichiers. Cliquez sur Démarrer le chargement pour charger les fichiers, puis sur OK une fois qu’ils ont été chargés.

    Sélection du dossier de destination pour les données.

    Sélection du dossier de destination pour les données

  6. Placez le curseur dans la cellule vide en bas du notebook. Entrez « Importer les données » comme texte et remplacez le type de cellule par Markdown.

  7. À présent, ajoutez une cellule Code et ajoutez-la dans le code suivant.

    yearsBase, meanBase = np.loadtxt('5-year-mean-1951-1980.csv', delimiter=',', usecols=(0, 1), unpack=True)
    years, mean = np.loadtxt('5-year-mean-1882-2014.csv', delimiter=',', usecols=(0, 1), unpack=True)
    
  8. Cliquez sur le bouton Exécuter pour exécuter la cellule et utilisez la fonction loadtxt de NumPy pour charger les données que vous avez chargées. Les données sont maintenant en mémoire et peuvent être utilisées par l’application.

    Chargement des données.

    Chargement des données

  9. Placez le curseur dans la cellule vide en bas du notebook. Remplacez le type de cellule par Markdown et entrez « Créer un nuage de points » comme texte.

  10. Ajoutez une cellule Code et collez-la dans le code suivant, qui utilise Matplotlib pour créer un nuage de points.

    plt.scatter(yearsBase, meanBase)
    plt.title('scatter plot of mean temp difference vs year')
    plt.xlabel('years', fontsize=12)
    plt.ylabel('mean temp difference', fontsize=12)
    plt.show()
    
  11. Cliquez sur Exécuter pour exécuter la cellule et créez un nuage de points.

    Nuage de points produit par Matplotlib.

    Nuage de points produit par Matplotlib

Le jeu de données que vous avez chargé utilise une moyenne sur 30 ans entre 1951 et 1980 pour calculer une température de base pour cette période, puis utilise des températures moyennes sur 5 ans pour calculer la différence entre la moyenne sur 5 ans et la moyenne sur 30 ans pour chaque année. Le nuage de points montre les différences des températures annuelles.