Installer Databricks Connect pour Python
Remarque
Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures.
Cet article explique comment installer Databricks Connect pour Python. Consultez Qu’est-ce que Databricks Connect ?. Pour la version Scala de cet article, consultez Installer Databricks Connect pour Scala.
Spécifications
Pour installer Databricks Connect pour Python, les exigences suivantes doivent être satisfaites :
Si vous vous connectez au calcul serverless, votre espace de travail doit répondre aux exigences du calcul serverless.
Remarque
Le calcul serverless est pris en charge dans Databricks Connect version 15.1 et ultérieure. En outre, les versions de Databricks Connect au niveau ou inférieures à la version databricks Runtime sur serverless sont entièrement compatibles. Consulter les Notes de publication. Pour vérifier si la version de Databricks Connect est compatible avec le calcul serverless, consultez Valider la connexion à Databricks.
Si vous vous connectez à un cluster, votre cluster cible doit répondre aux exigences de configuration de cluster, ce qui inclut les exigences de version de Databricks Runtime.
Python 3 doit être installé sur votre machine de développement, et la version mineure de Python installée sur votre machine de développement doit répondre aux exigences de version du tableau ci-dessous.
Type de capacité de calcul Version de Databricks Connect Version Python compatible Sans serveur 15.1 et versions ultérieures 3.11 Cluster 15.1 et versions ultérieures 3.11 Cluster 13.3 LTS à 14.3 LTS 3.10 Si vous utilisez des fonctions définies par l’utilisateur (UDF), la version mineure locale de Python doit correspondre à la version mineure de Python de la version Databricks Runtime du cluster ou du calcul serverless. Pour rechercher la version mineure de Python de la version Databricks Runtime de votre cluster, reportez-vous à la section environnement système des notes de publication databricks Runtime pour cette version. Consultez Versions des notes de publication Databricks Runtime et compatibilité et Notes de publication du calcul serverless.
Activer un environnement virtuel Python
Databricks recommande vivement d’avoir un environnement virtuel Python activé pour chaque projet de code Python que vous utilisez avec Databricks Connect. Les environnements virtuels Python garantissent que vous utilisez les bonnes versions de Python et Databricks Connect ensemble. Pour plus d’informations sur ces outils et sur la façon de les activer, consultez venv ou Poetry.
Installer le client Databricks Connect
Cette section explique comment installer le client Databricks Connect avec venv ou Poetry.
Remarque
Si vous avez déjà installé l’extension Databricks pour Visual Studio Code, vous n’avez pas besoin de suivre ces instructions d’installation, car l’extension Databricks pour Visual Studio Code a déjà une prise en charge intégrée de Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures. Passez à Déboguer du code en utilisant Databricks Connect pour l’extension Databricks pour Visual Studio Code.
Installer le client Databricks Connect avec venv
Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande
uninstall
. Cela est nécessaire car le packagedatabricks-connect
est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commandeshow
.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande
install
. Utilisez l’option--upgrade
pour mettre à niveau toute installation de client existante vers la version spécifiée.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Remarque
Databricks vous recommande d’ajouter la notation « point-astérisque » pour spécifier
databricks-connect==X.Y.*
au lieu dedatabricks-connect=X.Y
et vous assurer que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.
Installer le client Databricks Connect avec Poetry
Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande
remove
. Cela est nécessaire car le packagedatabricks-connect
est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commandeshow
.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande
add
.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Remarque
Databricks vous recommande d’utiliser la notation « arobase-tilde » pour spécifier
databricks-connect@~15.4
à la place dedatabricks-connect==15.4
, afin de vérifier que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.
Étapes suivantes
Après avoir installé Databricks Connect, vous devez configurer une connexion à Databricks. Consultez la configuration de calcul pour Databricks Connect.