Utiliser Eclipse avec PyDev et Databricks Connect pour Python
Remarque
Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures.
Cet article explique comment utiliser Databricks Connect pour Scala et Eclipse avec PyDev. Databricks Connect vous permet de connecter des environnements de développement intégré (IDE) populaires, des serveurs notebook et autres applications personnalisées aux clusters Azure Databricks. Consultez Qu’est-ce que Databricks Connect ?.
Remarque
Avant de commencer à utiliser Databricks Connect, vous devez configurer le client Databricks Connect.
Pour utiliser Databricks Connect et Eclipse avec PyDev, suivez ces instructions.
- Démarrez Eclipse.
- Créez un projet : cliquez sur Fichier > Nouveau > Projet > PyDev > Projet PyDev, puis cliquez sur Suivant.
- Spécifiez un nom de projet.
- Pour Contenu du projet, spécifiez le chemin d’accès à votre environnement virtuel Python.
- Cliquez sur Veuillez configurer un interpréteur avant de procéder.
- Cliquez sur Configuration manuelle.
- Cliquez sur Nouveau > Rechercher python/pypy exe.
- Recherchez et sélectionnez le chemin d’accès complet de l’Interpréteur Python qui est référencé dans l’environnement virtuel, puis cliquez sur Ouvrir.
- Dans la boîte de dialogue Sélectionner un interpréteur, cliquez sur OK.
- Dans la boîte de dialogue Sélection nécessaire, cliquez sur OK.
- Dans la boîte de dialogue Préférences, cliquez sur Appliquer et Fermer.
- Dans la boîte de dialogue Projet PyDev, cliquez sur Terminer.
- Cliquez sur Ouvrir la perspective.
- Ajoutez au projet un fichier de code Python (
.py
) qui contient l’exemple de code ou votre propre code. Si vous utilisez votre propre code, vous devez au moins initialiserDatabricksSession
, comme indiqué dans l’exemple de code. - Une fois le fichier de code Python ouvert, définissez tous les points d’arrêt où vous voulez que votre code fasse une pause pendant l’exécution.
- Pour exécuter le code, cliquez sur Exécuter > Exécuter. Tout le code Python s'exécute localement, tandis que tout le code PySpark impliquant des opérations DataFrame s'exécute sur le cluster dans l'espace de travail Azure Databricks distant et les réponses d'exécution sont renvoyées à l'appelant local.
- Pour déboguer le code, cliquez sur Exécuter le > débogage. Tout le code Python est débogué localement, alors que l’ensemble du code PySpark continue de s’exécuter sur le cluster dans l’espace de travail Azure Databricks distant. Le code principal du moteur Spark ne peut pas être débogué directement à partir du client.
Pour obtenir des instructions d’exécution et de débogage plus spécifiques, consultez la section Exécution d’un programme.