Partage via


Utiliser le modèle de formation approfondie Microsoft Cognitive Toolkit avec un cluster Azure HDInsight Spark

Dans cet article, vous suivez les étapes ci-dessous.

  1. Exécuter un script personnalisé pour installer Microsoft Cognitive Toolkit sur un cluster Azure HDInsight Spark.

  2. Charger un bloc-notes Jupyter Notebook sur le cluster Apache Spark pour voir comment appliquer un modèle entraîné d’apprentissage profond Microsoft Cognitive Toolkit aux fichiers d’un compte de Stockage Blob Azure avec l’API Spark Python (PySpark).

Conditions préalables requises

Comment fonctionne cette solution ?

Cette solution est divisée entre cet article et un bloc-notes Jupyter que vous chargez dans le cadre de cet article. Dans cet article, vous suivrez les étapes ci-dessous :

  • Exécuter une action de script sur un cluster HDInsight Spark pour installer Microsoft Cognitive Toolkit et les packages Python.
  • Chargez le bloc-notes Jupyter qui exécute la solution sur le cluster HDInsight Spark.

Les étapes restantes suivantes sont traitées dans le bloc-notes Jupyter.

  • Charger des exemples d’images dans un RDD (Spark Resilient Distributed Dataset).
    • Charger des modules et prédéfinir des paramètres
    • Télécharger le jeu de données localement sur le cluster Spark
    • Convertir le jeu de données en RDD
  • Attribuer un score aux images à l’aide d’un modèle Cognitive Toolkit entraîné
    • Télécharger le modèle Cognitive Toolkit entraîné vers le cluster Spark
    • Définir les fonctions utilisées par les nœuds de travail
    • Attribuer un score aux images sur les nœuds de travail
    • Évaluer la précision du modèle

Installer Microsoft Cognitive Toolkit

Vous pouvez installer Microsoft Cognitive Toolkit sur un cluster Spark avec une action de script. L’action de script utilise des scripts personnalisés pour installer sur le cluster des composants qui ne sont pas disponibles par défaut. Vous pouvez utiliser le script personnalisé sur le portail Azure, avec le Kit de développement logiciel (SDK) .NET HDInsight ou Azure PowerShell. Vous pouvez également utiliser le script pour installer la boîte à outils lors de la création du cluster ou lorsque le cluster est prêt à fonctionner.

Dans cet article, nous utilisons le portail pour installer la boîte à outils une fois le cluster créé. Pour connaître d’autres façons d’exécuter le script personnalisé, consultez la page Personnaliser des clusters HDInsight avec une action de script.

Utilisation du portail Azure

Pour connaître les instructions liées à l’utilisation du portail Azure afin d'exécuter une action de script, consultez la page Personnaliser des clusters HDInsight avec une action de script. Veillez à fournir les entrées suivantes pour installer Microsoft Cognitive Toolkit. Utilisez les valeurs suivantes pour votre action de script :

Propriété Valeur
Type de script - Personnalisé
Name Installer MCT
URI de script bash https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh
Types de nœud : Head, Worker
Paramètres None

Charger le bloc-notes Jupyter sur le cluster Azure HDInsight Spark

Pour utiliser le Microsoft Cognitive Toolkit avec le cluster Azure HDInsight Spark, vous devez charger le bloc-notes Jupyter CNTK_model_scoring_on_Spark_walkthrough.ipynb sur le cluster Azure HDInsight Spark. Ce bloc-notes est disponible sur GitHub à l’adresse https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  1. Téléchargez et décompressez https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  2. Dans un navigateur web, accédez à https://CLUSTERNAME.azurehdinsight.net/jupyter, où CLUSTERNAME est le nom de votre cluster.

  3. Dans le bloc-notes Jupyter, sélectionnez Charger dans l’angle supérieur droit, puis accédez au téléchargement et sélectionnez le fichier CNTK_model_scoring_on_Spark_walkthrough.ipynb.

    Upload Jupyter Notebook to Azure HDInsight Spark cluster.

  4. Sélectionnez Charger à nouveau.

  5. Une fois le bloc-notes chargé, cliquez sur son nom, puis suivez les instructions qui se trouvent dans le bloc-notes même pour charger le jeu de données et suivre les instructions de l’article.

Voir aussi

Scénarios

Création et exécution d’applications

Outils et extensions

Gestion des ressources