Partager via


Installer Databricks Connect pour Python

Remarque

Cet article présente Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures.

Cet article explique comment installer Databricks Connect pour Python. Consultez Qu’est-ce que Databricks Connect ?. Pour la version Scala de cet article, consultez Installer Databricks Connect pour Scala.

Spécifications

Pour installer Databricks Connect pour Python, les exigences suivantes doivent être satisfaites :

  • Si vous vous connectez au calcul serverless, votre espace de travail doit répondre aux exigences du calcul serverless.

    Remarque

    Le calcul serverless est pris en charge dans Databricks Connect version 15.1 et ultérieure. En outre, les versions de Databricks Connect au niveau ou inférieures à la version databricks Runtime sur serverless sont entièrement compatibles. Consulter les Notes de publication. Pour vérifier si la version de Databricks Connect est compatible avec le calcul serverless, consultez Valider la connexion à Databricks.

  • Si vous vous connectez à un cluster, votre cluster cible doit répondre aux exigences de configuration de cluster, ce qui inclut les exigences de version de Databricks Runtime.

  • Python 3 doit être installé sur votre machine de développement, et la version mineure de Python installée sur votre machine de développement doit répondre aux exigences de version du tableau ci-dessous.

    Type de capacité de calcul Version de Databricks Connect Version Python compatible
    Sans serveur 15.1 et versions ultérieures 3.11
    Cluster 15.1 et versions ultérieures 3.11
    Cluster 13.3 LTS à 14.3 LTS 3.10
  • Si vous utilisez des fonctions définies par l’utilisateur (UDF), la version mineure locale de Python doit correspondre à la version mineure de Python de la version Databricks Runtime du cluster ou du calcul serverless. Pour rechercher la version mineure de Python de la version Databricks Runtime de votre cluster, reportez-vous à la section environnement système des notes de publication databricks Runtime pour cette version. Consultez Versions des notes de publication Databricks Runtime et compatibilité et Notes de publication du calcul serverless.

Activer un environnement virtuel Python

Databricks recommande vivement d’avoir un environnement virtuel Python activé pour chaque projet de code Python que vous utilisez avec Databricks Connect. Les environnements virtuels Python garantissent que vous utilisez les bonnes versions de Python et Databricks Connect ensemble. Pour plus d’informations sur ces outils et sur la façon de les activer, consultez venv ou Poetry.

Installer le client Databricks Connect

Cette section explique comment installer le client Databricks Connect avec venv ou Poetry.

Remarque

Si vous avez déjà installé l’extension Databricks pour Visual Studio Code, vous n’avez pas besoin de suivre ces instructions d’installation, car l’extension Databricks pour Visual Studio Code a déjà une prise en charge intégrée de Databricks Connect pour Databricks Runtime 13.3 LTS et les versions ultérieures. Passez à Déboguer du code en utilisant Databricks Connect pour l’extension Databricks pour Visual Studio Code.

Installer le client Databricks Connect avec venv

  1. Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande uninstall. Cela est nécessaire car le package databricks-connect est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commande show.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande install. Utilisez l’option --upgrade pour mettre à niveau toute installation de client existante vers la version spécifiée.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Remarque

    Databricks vous recommande d’ajouter la notation « point-astérisque » pour spécifier databricks-connect==X.Y.* au lieu de databricks-connect=X.Y et vous assurer que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.

Installer le client Databricks Connect avec Poetry

  1. Une fois votre environnement virtuel activé, désinstallez PySpark, s’il est déjà installé, en exécutant la commande remove. Cela est nécessaire car le package databricks-connect est en conflit avec PySpark. Pour plus d’informations, consultez Installations PySpark en conflit. Pour vérifier si PySpark est déjà installé, exécutez la commande show.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Votre environnement virtuel étant toujours activé, installez le client Databricks Connect en exécutant la commande add.

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Remarque

    Databricks vous recommande d’utiliser la notation « arobase-tilde » pour spécifier databricks-connect@~15.4 à la place de databricks-connect==15.4, afin de vérifier que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.

Étapes suivantes

Après avoir installé Databricks Connect, vous devez configurer une connexion à Databricks. Consultez la configuration de calcul pour Databricks Connect.