Utiliser les outils Spark et Hive pour Visual Studio Code

Article
06/13/2024

Découvrez comment utiliser les outils Spark et Hive Apache pour Visual Studio Code. Utilisez les outils pour créer et envoyer des travaux Apache Hive de traitement par lots, des requêtes Hive interactives et des scripts PySpark pour Apache Spark. Tout d’abord, nous décrirons comment installer les outils Spark et Hive dans Visual Studio Code. Ensuite, nous verrons comment envoyer des travaux aux outils Spark et Hive.

Les outils Spark et Hive peuvent être installée sur les plateformes prises en charge par Visual Studio Code. Les différentes plateformes ont les prérequis suivants.

Prérequis

Les éléments suivants sont requis pour effectuer les étapes décrites dans cet article :

Un cluster Azure HDInsight. Pour créer un cluster, consultez Prise en main de HDInsight. Vous pouvez également utiliser un cluster Spark et Hive qui prend en charge un point de terminaison Apache Livy.
Visual Studio Code.
Mono. Mono est nécessaire uniquement pour les plateformes Linux et MacOS.
Un environnement interactif PySpark pour Visual Studio Code.
Un répertoire local. Cet article utilise C:\HD\HDexample.

Installer l’extension Spark & Hive Tools

Une fois que vous disposez de tous les éléments prérequis, vous pouvez installer les outils Spark et Hive pour Visual Studio Code en procédant comme suit :

Ouvrez Visual Studio Code.
Dans la barre de menus, accédez à Afficher>Extensions.
Dans la zone de recherche, entrez Spark & Hive.
Sélectionnez Outils Spark et Hive dans les résultats de la recherche, puis sélectionnez Installer :
Sélectionnez Recharger si nécessaire.

Ouvrir un dossier de travail

Pour ouvrir un dossier de travail et créer un fichier dans Visual Studio Code, procédez comme suit :

Dans la barre de menus, accédez à Fichier>Ouvrir le dossier...>C:\HD\HDexample, puis sélectionnez le bouton Sélectionner un dossier. Le dossier s’affiche dans l’affichage Explorateur sur la gauche.
Dans Explorateur, sélectionnez le dossier HDexample, puis sélectionnez l’icône Nouveau fichier en regard du dossier de travail :
Nommez le nouveau fichier avec l’extension de fichier .hql (requêtes Hive) ou .py (script Spark). Cet exemple utilise HelloWorld.hql.

Configurer l’environnement Azure

Pour un utilisateur de cloud national, suivez ces étapes pour configurer l’environnement Azure, puis utilisez la commande Azure: Sign In pour vous connecter à Azure :

Accédez à Fichier>Préférences>Paramètres.
Recherchez la chaîne suivante : Azure : Cloud.
Sélectionnez le cloud national dans la liste :

Se connecter à un compte Azure

Pour que vous puissiez envoyer des scripts à vos clusters à partir de Visual Studio Code, l’utilisateur a la possibilité de se connecter à un abonnement Azure ou de lier un cluster HDInsight. Utilisez le nom d’utilisateur/mot de passe Ambari ou les informations d’identification jointes au domaine de votre cluster ESP pour vous connecter à votre cluster HDInsight. Suivez ces étapes pour vous connecter à Azure :

À partir de la barre de menus, accédez à Afficher>Palette de commandes... , puis entrez Azure : Sign In :
Suivez les instructions de connexion pour vous connecter à Azure. Une fois que vous êtes connecté, le nom de votre compte Azure apparaît dans la barre d’état, en bas de la fenêtre Visual Studio Code.

Lier un cluster

Lien : Azure HDInsight

Vous pouvez lier un cluster normal à l’aide d’un nom d’utilisateur Apache Ambari managé ou lier un cluster de sécurité Hadoop de Pack Sécurité Entreprise à l’aide d’un nom d’utilisateur de domaine (par exemple : user1@contoso.com).

À partir de la barre de menus, accédez à Afficher>Palette de commandes... , puis entrez Spark/Hive : Link a Cluster (Spark / Hive : lier un cluster).
Sélectionnez le type de cluster lié Azure HDInsight.
Entrez l’URL du cluster HDInsight.
Entrez votre nom d’utilisateur Ambari (admin par défaut).
Entrez votre mot de passe Ambari.
Sélectionnez le type de cluster.
Définissez le nom d’affichage du cluster (facultatif).
Examinez l’affichage OUTPUT (SORTIE).

Notes

Le nom d’utilisateur lié et le mot de passe sont utilisés si le cluster est à la fois connecté à l’abonnement Azure et lié à un cluster.

Lien : point de terminaison Livy générique

À partir de la barre de menus, accédez à Afficher>Palette de commandes... , puis entrez Spark/Hive : Link a Cluster (Spark / Hive : lier un cluster).
Sélectionnez le type de cluster lié Generic Livy Endpoint.
Entrez le point de terminaison Livy générique. Par exemple : http://10.172.41.42:18080.
Sélectionnez le type d’autorisation De base ou Aucune. Si vous sélectionnez De base :
1. Entrez votre nom d’utilisateur Ambari (admin par défaut).
2. Entrez votre mot de passe Ambari.
Examinez l’affichage OUTPUT (SORTIE).

Lister les clusters

À partir de la barre de menus, accédez à Afficher>Palette de commandes... , puis entrez Spark/Hive : List Cluster.
Sélectionnez l’abonnement souhaité.
Examinez l’affichage OUTPUT (SORTIE). Cet affichage montre le ou les clusters liés et tous les clusters de votre abonnement Azure :

Définir le cluster par défaut

Rouvrez le dossier HDexample qui a été abordé antérieurement, s’il est fermé.
Sélectionnez le fichier HelloWorld.hql créé précédemment. Il s’ouvre dans l’éditeur de script.
Cliquez avec le bouton droit sur l’éditeur de script, puis sélectionnez Spark / Hive: Set Default Cluster (Spark / Hive : définir le cluster par défaut).
Connectez-vous à votre compte Azure ou liez un cluster si ce n’est déjà fait.
Sélectionnez un cluster comme cluster par défaut pour le fichier de script actuel. Les outils mettent automatiquement à jour le fichier de configuration .VSCode\settings.json :

Envoyer des requêtes Hive interactives et des scripts de commandes par lot Hive

Avec les outils Spark et Hive pour Visual Studio Code, vous pouvez envoyer des requêtes Hive interactives et des scripts de commandes par lot Hive à vos clusters.

Rouvrez le dossier HDexample qui a été abordé antérieurement, s’il est fermé.
Sélectionnez le fichier HelloWorld.hql créé précédemment. Il s’ouvre dans l’éditeur de script.
Copiez le code suivant et collez-le dans votre fichier Hive, puis enregistrez-le :
```
SELECT * FROM hivesampletable;
```
Connectez-vous à votre compte Azure ou liez un cluster si ce n’est déjà fait.
Cliquez avec le bouton droit sur l’éditeur de script et sélectionnez Hive: Interactive pour envoyer la requête, ou utilisez le raccourci clavier Ctrl+Alt+I. Sélectionnez Hive : Batch pour envoyer le script, ou utilisez le raccourci clavier Ctrl+Alt+H.
Si vous n’avez pas spécifié de cluster par défaut, sélectionnez un cluster. Les outils vous permettent également d’envoyer un bloc de code au lieu du fichier de script entier à partir du menu contextuel. Peu après, les résultats de la requête s’affichent dans un nouvel onglet :
- Volet RÉSULTATS : Vous pouvez enregistrer le résultat complet dans un fichier CSV, JSON ou Excel dans un chemin local ou enregistrer seulement certaines lignes du résultat.
- Volet MESSAGES : Cliquez sur un numéro de ligne pour accéder à la première ligne du script en cours d’exécution.

Envoyer des requêtes PySpark interactives

Prérequis pour Pyspark interactive

Notez ici que la version de l’extension Jupyter (ms-jupyter) : v2022.1.1001614873 et la version de l’extension Python (ms-python) ! v2021.12.1559732655, python 3.6.x et 3.7.x sont requis pour les requêtes PySpark interactives HDInsight.

Les utilisateurs peuvent exécuter PySpark de manière interactive de plusieurs façons.

Commande interactive PySpark dans le fichier PY

En utilisant la commande interactive PySpark pour envoyer les requêtes, suivez la procédure ci-dessous :

Rouvrez le dossier HDexample qui a été abordé antérieurement, s’il est fermé.
Créez un fichier HelloWorld.py en suivant les étapes précédentes.

Copiez le code suivant et collez-le dans le fichier de script :

from operator import add
from pyspark.sql import SparkSession 
spark = SparkSession.builder \ 
      .appName('hdisample') \ 
      .getOrCreate() 
lines = spark.read.text("/HdiSamples/HdiSamples/FoodInspectionData/README").rdd.map(lambda r: r[0])
counters = lines.flatMap(lambda x: x.split(' ')) \
             .map(lambda x: (x, 1)) \
             .reduceByKey(add)

coll = counters.collect()
sortedCollection = sorted(coll, key = lambda r: r[1], reverse = True)

for i in range(0, 5):
     print(sortedCollection[i])

L’invite d’installation du noyau PySpark/Synapse Pyspark s’affiche en bas à droite de la fenêtre. Vous pouvez cliquer sur le bouton Installer pour continuer l’installation de PySpark/Synapse Pyspark, ou sur le bouton Ignorer pour ignorer cette étape.
Si vous avez besoin de l’installer ultérieurement, vous pouvez accéder à Fichier>Préférence>Paramètres, puis décocher HDInsight : Activer Ignorer l’installation de PySpark dans les paramètres.
Si l’installation réussit à l’étape 4, la zone de message « PySpark a été installé » s’affiche en bas à droite de la fenêtre. Cliquez sur le bouton Recharger pour recharger la fenêtre.
Dans la barre de menus, accédez à Afficher>Palette de commandes... ou utilisez le raccourci Maj + Ctrl + P, puis entrez Python : Sélectionnez Interpréteur pour démarrer le serveur Jupyter.
Sélectionnez l’option Python ci-dessous.
Dans la barre de menus, accédez à Afficher>Palette de commandes... ou utilisez le raccourci Maj + Ctrl + P, puis entrez Développeur : Recharger la fenêtre.
Connectez-vous à votre compte Azure ou liez un cluster si ce n’est déjà fait.
Sélectionnez l’ensemble du code, cliquez avec le bouton droit sur l’éditeur de script, puis sélectionnez Spark: PySpark Interactive/Synapse : PySpark Interactive pour envoyer la requête.
Si vous n’avez pas spécifié de cluster par défaut, sélectionnez le cluster. Après quelques instants, les résultats Python Interactive s’affichent sous un nouvel onglet. Cliquez sur PySpark pour choisir le noyau PySpark/Synapse Pyspark. Le code s’exécute sans erreur. Si vous souhaitez basculer vers le noyau Synapse Pyspark, il est recommandé de désactiver la configuration automatique dans le portail Azure. Dans le cas contraire, la relance du cluster et la définition du noyau de Synapse peuvent prendre un certain temps lors de la première utilisation. Les outils vous permettent également d’envoyer un bloc de code au lieu du fichier de script entier à partir du menu contextuel :
Entrez %%info, puis appuyez sur Maj+Entrée pour afficher les informations sur le travail (facultatif) :

L’outil prend également en charge la requête Spark SQL :

affichage des résultats interactifs pyspark.

Requête interactive dans le fichier PY à l’aide d’un commentaire #%%

Ajoutez #%% avant le code Py pour bénéficier de l’expérience de notebook.
Cliquer sur Exécuter la cellule. Au bout de quelques instants, les résultats Python Interactive s’affichent dans un nouvel onglet. Cliquez sur PySpark pour faire basculer le noyau vers PySpark/Synapse PySpark, puis cliquez à nouveau sur Exécuter la cellule pour que le code s’exécute correctement.

Prise en charge IPYNB de l’extension Python

Vous pouvez créer un notebook Jupyter par commande à partir de la palette de commandes ou en créant un.ipynb fichier dans votre espace de travail. Pour plus d’informations, consultez Utilisation de Jupyter Notebook dans Visual Studio Code.
Cliquez sur le bouton Exécuter la cellule, suivez les invites pour Définir le pool Spark par défaut (nous suggérons de définir un cluster/pool par défaut à chaque ouverture d’un notebook), puis Recharger la fenêtre.
Cliquez sur PySpark pour choisir le noyau PySpark/Synapse PySpark, puis cliquez sur Exécuter la cellule. Au bout d’un certain temps, le résultat s’affiche.

Remarque

Dans le cas d’une erreur d’installation de Synapse PySpark, puisque sa dépendance n’est plus assurée par une autre équipe, cette opération ne le sera plus non plus. Si vous essayez d’utiliser Synapse Pyspark interactive, préférez l’utilisation d’Azure Synapse Analytics. De plus, c’est un changement à long terme.

Envoyer le travail de traitement par lots PySpark

Rouvrez le dossier HDexample que vous avez abordé antérieurement, s’il est fermé.
Créez un fichier BatchFile.py en suivant les étapes précédentes.

Copiez le code suivant et collez-le dans le fichier de script :

from __future__ import print_function
import sys
from operator import add
from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession\
        .builder\
        .appName("PythonWordCount")\
        .getOrCreate()

    lines = spark.read.text('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv').rdd.map(lambda r: r[0])
    counts = lines.flatMap(lambda x: x.split(' '))\
               .map(lambda x: (x, 1))\
                .reduceByKey(add)
    output = counts.collect()
    for (word, count) in output:
        print("%s: %i" % (word, count))
    spark.stop()

Connectez-vous à votre compte Azure ou liez un cluster si ce n’est déjà fait.
Cliquez avec le bouton droit sur l’éditeur de script, puis sélectionnez Spark: PySpark Batch ou Synapse: PySpark Batch*.
Sélectionnez un cluster ou un pool Spark auquel envoyer le travail PySpark :

Une fois que vous avez envoyé un travail Python, les journaux d’envoi s’affichent dans la fenêtre OUTPUT (SORTIE) de Visual Studio Code. Les URL des interfaces utilisateur Spark et Yarn s’affichent également. Si vous soumettez le programme de traitement par lots à un pool Apache Spark, l’URL de l’interface utilisateur de l’historique Spark et l’URL de l’interface utilisateur de l’application de travail Spark sont également affichées. Vous pouvez ouvrir l’URL dans un navigateur web pour suivre l’état du travail.

Effectuer l’intégration au broker d’ID HDInsight

Se connecter à votre cluster HDInsight ESP avec le broker d’ID

Vous pouvez suivre les étapes habituelles pour vous connecter à l’abonnement Azure afin de vous connecter à votre cluster HDInsight ESP avec le broker d’ID. Après vous être connecté, vous verrez la liste des clusters dans Azure Explorer. Pour plus d’instructions, consultez Se connecter à votre cluster HDInsight.

Exécution d’un travail Hive/PySpark sur un cluster HDInsight ESP avec broker d’ID (HIB)

Pour exécuter un travail Hive, vous pouvez suivre la procédure habituelle d’envoi d’un travail à un cluster HDInsight ESP avec le broker d’ID (HIB). Pour plus d’instructions, consultez Envoi de requêtes Hive interactives et de scripts de commandes par lot Hive.

Pour exécuter un travail PySpark interactif, vous pouvez suivre la procédure habituelle d’envoi d’un travail à un cluster HDInsight ESP avec le Broker d’ID (HIB). Consultez Envoyer des requêtes PySpark interactives.

Pour exécuter un programme de traitement par lots PySpark, vous pouvez suivre la procédure habituelle d’envoi d’un travail à un cluster HDInsight ESP avec le broker d’ID (HIB). Pour plus d’instructions, consultez Envoi d’un programme de traitement par lots PySpark.

Configuration d’Apache Livy

La configuration Apache Livy est prise en charge. Vous pouvez effectuer la configuration dans le fichier .VSCode\settings.json situé dans le dossier de l’espace de travail. Actuellement, la configuration Livy prend uniquement en charge le script Python. Pour plus d’informations, consultez LISEZ-MOI Livy.

Comment déclencher une configuration Livy

Méthode 1

Dans la barre de menus, accédez à Fichier>Préférences>Paramètres.
Dans la zone Paramètres de recherche, entrez Envoi de travail HDInsight : Livy Conf (Envoi de travail HDInsight : configuration de Livy).
Sélectionnez Modifier dans settings.json pour le résultat de recherche approprié.

Méthode 2

Envoyez un fichier. Vous constatez que le dossier .vscode est ajouté automatiquement au dossier de travail. Vous pouvez voir la configuration Livy en sélectionnant .vscode\settings.json.

Paramètres du projet :

Remarque

Pour les paramètres driverMemory et executorMemory, définissez la valeur et l’unité. Par exemple : 1 g ou 1 024 m.

Configurations Livy prises en charge :

POST /batches

Corps de la demande

name	description	type
fichier	Fichier contenant l’application à exécuter	Chemin (obligatoire)
proxyUser	Utilisateur dont l’identité doit être empruntée lors de l’exécution du travail	String
ClassName	Classe principale Java/Spark de l’application	String
args	Arguments de ligne de commande pour l’application	Liste de chaînes
jars	Fichiers JAR à utiliser dans cette session	Liste de chaînes
pyFiles	Fichiers Python à utiliser dans cette session	Liste de chaînes
files	Fichiers à utiliser dans cette session	Liste de chaînes
driverMemory	Quantité de mémoire à utiliser pour le processus du pilote	String
driverCores	Nombre de cœurs à utiliser pour le processus du pilote	Int
executorMemory	Quantité de mémoire à utiliser par processus d’exécuteur	String
executorCores	Nombre de cœurs à utiliser pour chaque exécuteur	Int
numExecutors	Nombre d’exécuteurs à lancer pour cette session	Int
archives	Archives à utiliser dans cette session	Liste de chaînes
queue	Nom de la file d’attente YARN vers laquelle effectuer l’envoi	String
name	Nom de cette session	String
conf	Propriétés de configuration de Spark	Mappage clé=valeur

Corps de la réponse : l’objet Batch créé

name	description	type
id	ID de la session	Int
appId	ID d’application de cette session	String
appInfo	Informations détaillées sur l’application	Mappage clé=valeur
log	Lignes du journal	Liste de chaînes
state	État du lot	String

Notes

La configuration Livy attribuée s’affiche dans le volet de sortie quand vous envoyez le script.

Intégrer avec Azure HDInsight à partir de l’Explorateur

Vous pouvez voir un aperçu de la table Hive directement dans vos clusters à l’aide de l’explorateur Azure HDInsight :

Connectez-vous à votre compte Azure, si ce n’est déjà fait.
Cliquez sur l’icône Azure dans la colonne la plus à gauche.
Dans le volet gauche, développez AZURE : HDINSIGHT. Les clusters et les abonnements disponibles y sont listés.
Développez le cluster pour afficher le schéma de table et la base de données de métadonnées Hive.
Cliquez avec le bouton droit sur la table Hive. Par exemple : hivesampletable. Sélectionnez Aperçu.
La fenêtre Aperçu des résultats s’ouvre :

Volet RÉSULTATS

Vous pouvez enregistrer le résultat complet dans un fichier CSV, JSON ou Excel dans un chemin local ou enregistrer seulement certaines lignes du résultat.
Volet MESSAGES
1. Quand le nombre de lignes dans la table est supérieur à 100, le message suivant s’affiche : « Les 100 premières lignes sont affichées dans la table Hive ».
2. Quand le nombre de lignes dans la table est inférieur ou égal à 100, le message suivant s’affiche : « 60 lignes sont affichées dans la table Hive ».
3. Quand la table est vide, le message suivant s’affiche : « 0 rows are displayed for Hive table. »
  
  Notes
  
  Sous Linux, installez xclip pour autoriser la copie des données de table.

Fonctionnalités supplémentaires

Les fonctionnalités suivantes sont également prises en charge par Spark et Hive pour Visual Studio Code :

Saisie semi-automatique IntelliSense. Des suggestions de mots clés, de méthodes, de variables et d’autres éléments de programmation s’affichent. Les différentes icônes représentent les différents types d’objets :
Marqueur d’erreur IntelliSense. Le service de langage souligne les erreurs de saisie dans le script Hive.
Coloration syntaxique. Le service de langage utilise plusieurs couleurs pour différencier les variables, les mots clés, le type des données, les fonctions et les autres éléments de programmation :

Rôle Lecteur seul

Les utilisateurs auxquels le rôle de lecteur uniquement a été attribué pour le cluster ne peuvent pas envoyer de travaux au cluster HDInsight, ni visualiser la base de données Hive. Vous devez contacter l’administrateur du cluster afin de mettre à niveau votre rôle pour être opérateur de cluster HDInsight dans le portail Azure. Si vous disposez d’informations d’identification Ambari valides, vous pouvez lier manuellement le cluster en suivant les instructions ci-après.

Parcourir le cluster HDInsight

Quand vous sélectionnez l’explorateur Azure HDInsight pour développer un cluster HDInsight, vous êtes invité à lier le cluster si vous disposez du rôle de lecteur uniquement sur le cluster. Utilisez la méthode suivante pour établir une liaison au cluster à l’aide de vos informations d’identification Ambari.

Envoyer le travail au cluster HDInsight

Quand vous envoyez un travail à un cluster HDInsight, vous êtes invité à lier le cluster si vous disposez du rôle de lecteur uniquement sur le cluster. Utilisez la procédure suivante pour établir une liaison au cluster à l’aide d’informations d’identification Ambari.

Établir une liaison au cluster

Entrez un nom d’utilisateur Ambari valide.
Entrez un mot de passe valide.

Remarque

Vous pouvez utiliser Spark / Hive: List Cluster pour vérifier le cluster lié :

Azure Data Lake Storage Gen2

Parcourir un compte Data Lake Storage Gen2

Sélectionnez l’explorateur Azure HDInsight pour développer un compte Data Lake Storage Gen2. Vous êtes invité à entrer la clé d’accès de stockage si votre compte Azure n’a pas accès au stockage Gen2. Une fois la clé d’accès validée, le compte Data Lake Storage Gen2 est développé automatiquement.

Envoyer des travaux à un cluster HDInsight avec Data Lake Storage Gen2

Envoyez un travail à un cluster HDInsight à l’aide de Data Lake Storage Gen2. Vous êtes invité à entrer la clé d’accès de stockage si votre compte Azure n’a pas accès en écriture au stockage Gen2. Le travail est envoyé avec succès une fois que la clé d’accès est validée.

Outils Spark et Hive pour clé d’accès Visual Studio Code.

Remarque

Vous pouvez obtenir la clé d’accès du compte de stockage sur le portail Azure. Pour plus d’informations, consultez Gérer les clés d’accès au compte de stockage.

Dissocier le cluster

À partir de la barre de menus, accédez à Afficher>Palette de commandes, puis entrez Spark / Hive: Unlink a Cluster (Dissocier un cluster).
Sélectionnez le cluster pour lequel supprimer le lien.
Passez en revue la vue SORTIE à des fins de vérification.

Se déconnecter

À partir de la barre de menus, accédez à Afficher>Palette de commandes, puis entrez Azure: Se déconnecter.

Problèmes connus

Erreur d’installation de Synapse PySpark.

Pour l’erreur d’installation de Synapse PySpark, puisque sa dépendance n’est plus assurée par une autre équipe, elle ne sera plus assurée du tout. Si vous essayez d’utiliser Synapse Pyspark interactive, préférez l’utilisation d’Azure Synapse Analytics. De plus, c’est un changement à long terme.

erreur d’installation de synapse pyspark.

Étapes suivantes

Pour voir une vidéo de démonstration sur l’utilisation de Spark et Hive pour Visual Studio Code, consultez Spark et Hive pour Visual Studio Code.

Partager via

Utiliser les outils Spark et Hive pour Visual Studio Code

Prérequis

Installer l’extension Spark & Hive Tools

Ouvrir un dossier de travail

Configurer l’environnement Azure

Se connecter à un compte Azure

Lier un cluster

Lien : Azure HDInsight

Lien : point de terminaison Livy générique

Lister les clusters

Définir le cluster par défaut

Envoyer des requêtes Hive interactives et des scripts de commandes par lot Hive

Envoyer des requêtes PySpark interactives

Prérequis pour Pyspark interactive

Commande interactive PySpark dans le fichier PY

Requête interactive dans le fichier PY à l’aide d’un commentaire #%%

Prise en charge IPYNB de l’extension Python

Envoyer le travail de traitement par lots PySpark

Effectuer l’intégration au broker d’ID HDInsight

Se connecter à votre cluster HDInsight ESP avec le broker d’ID

Exécution d’un travail Hive/PySpark sur un cluster HDInsight ESP avec broker d’ID (HIB)

Configuration d’Apache Livy

Méthode 1

Méthode 2

Intégrer avec Azure HDInsight à partir de l’Explorateur

Fonctionnalités supplémentaires

Rôle Lecteur seul

Parcourir le cluster HDInsight

Envoyer le travail au cluster HDInsight

Établir une liaison au cluster

Azure Data Lake Storage Gen2

Parcourir un compte Data Lake Storage Gen2

Envoyer des travaux à un cluster HDInsight avec Data Lake Storage Gen2

Dissocier le cluster

Se déconnecter

Problèmes connus

Erreur d’installation de Synapse PySpark.

Étapes suivantes

Commentaires

Ressources supplémentaires