Comment utiliser Azure Machine Learning Notebook sur Spark
Remarque
Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.
Seul le support de base est disponible jusqu’à la date de mise hors service.
Important
Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.
L'apprentissage automatique est une technologie en pleine croissance qui permet aux ordinateurs d'apprendre automatiquement à partir de données passées. L'apprentissage automatique utilise divers algorithmes pour créer des modèles mathématiques et effectuer des prédictions à l'aide de données ou d'informations historiques. Nous avons un modèle défini jusqu'à certains paramètres, et l'apprentissage est l'exécution d'un programme informatique pour optimiser les paramètres du modèle en utilisant les données d'entraînement ou l'expérience. Le modèle peut être prédictif pour faire des prédictions dans le futur, ou descriptif pour acquérir des connaissances à partir des données.
Le bloc-notes du didacticiel suivant montre un exemple de formation de modèles d’apprentissage automatique sur des données tabulaires. Vous pouvez importer ce notebook et l'exécuter vous-même.
Téléchargez le CSV dans votre stockage
Recherchez votre stockage et le nom de votre conteneur dans la vue JSON du portail
Accédez au dossier de base de votre>conteneur>de stockage>HDI principal et téléchargez le CSV
Connectez-vous à votre cluster et ouvrez le Jupyter Notebook
Importez les bibliothèques Spark MLlib pour créer le pipeline
import pyspark from pyspark.ml import Pipeline, PipelineModel from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
Lire le CSV dans une trame de données Spark
df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Divisez les données pour la formation et les tests
iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)
Créer le pipeline et entraîner le modèle
assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip") indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip") classifier = LogisticRegression(featuresCol="features", labelCol="classIndex", maxIter=10, regParam=0.01) pipeline = Pipeline(stages=[assembler,indexer,classifier]) model = pipeline.fit(iris_train) # Create a test `dataframe` with predictions from the trained model test_model = model.transform(iris_test) # Taking an output from the test dataframe with predictions test_model.take(1)
Évaluer la précision du modèle
import pyspark.ml.evaluation as ev evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex') print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))