Utilisation d’Azure Machine Learning Notebook sur Spark

Article
09/20/2024

Important

Azure HDInsight sur AKS a été mis hors service le 31 janvier 2025. Découvrez-en plus avec cette annonce.

Vous devez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent pour éviter l’arrêt brusque de vos charges de travail.

Important

Cette fonctionnalité est actuellement en préversion. Les Conditions d’utilisation supplémentaires pour les préversions Microsoft Azure incluent des termes juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou qui ne sont pas encore publiées en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez informations sur Azure HDInsight sur AKS en préversion. Pour des questions ou des suggestions de fonctionnalités, envoyez une demande sur AskHDInsight avec les détails et suivez-nous pour plus de mises à jour sur Communauté Azure HDInsight.

Le Machine Learning est une technologie croissante, qui permet aux ordinateurs d’apprendre automatiquement à partir de données passées. Le Machine Learning utilise différents algorithmes pour créer des modèles mathématiques et effectuer des prédictions à l’aide de données ou d’informations historiques. Nous avons un modèle défini jusqu’à certains paramètres et l’apprentissage est l’exécution d’un programme informatique pour optimiser les paramètres du modèle à l’aide des données d’entraînement ou de l’expérience. Le modèle peut être prédictif pour effectuer des prédictions à l’avenir, ou descriptif pour acquérir des connaissances à partir de données.

Le carnet du tutoriel suivant montre un exemple d'entraînement de modèles d'apprentissage automatique sur des données tabulaires. Vous pouvez importer ce notebook et l’exécuter vous-même.

Charger le fichier CSV dans votre stockage

Rechercher votre nom de stockage et de conteneur dans la vue JSON du portail
Accédez à votre dossier de base>de stockage HDI principal>dossier de base> charger le CSV
Connectez-vous à votre cluster et ouvrez le bloc-notes Jupyter

Importer des bibliothèques MLlib Spark pour créer le pipeline

import pyspark
from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString

Capture d’écran montrant comment démarrer l’application Spark.

Lire le fichier CSV dans un dataframe Spark

df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Fractionner les données pour l’entraînement et les tests

iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

Créer le pipeline et entraîner le modèle

assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
classifier = LogisticRegression(featuresCol="features",
                                labelCol="classIndex",
                                maxIter=10,
                                regParam=0.01)

pipeline = Pipeline(stages=[assembler,indexer,classifier])
model = pipeline.fit(iris_train)

# Create a test `dataframe` with predictions from the trained model

test_model = model.transform(iris_test)

# Taking an output from the test dataframe with predictions

test_model.take(1)

Capture d’écran montrant comment exécuter le modèle de test.

Évaluer la précision du modèle

import pyspark.ml.evaluation as ev
evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')

print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))

Capture d’écran montrant comment imprimer la sortie.

Partage via

Utilisation d’Azure Machine Learning Notebook sur Spark

Charger le fichier CSV dans votre stockage

Ressources supplémentaires