Partager via


Se connecter à Azure Databricks à partir de Python ou R

Dans cet article, vous allez apprendre à utiliser le pilote ODBC Databricks pour connecter Azure Databricks au langage Python ou R. Une fois la connexion établie, vous pouvez accéder aux données dans Azure Databricks à partir des clients Python ou R. Vous pouvez également utiliser les clients pour analyser davantage les données.

Conditions préalables

  • Vous devez disposer d’un espace de travail Azure Databricks, d’un cluster Spark et d’exemples de données associés à votre cluster. Si vous ne disposez pas déjà de ces prérequis, suivez le guide de démarrage rapide dans Démarrage.

  • Téléchargez le pilote ODBC Databricks à partir de la page de téléchargement du pilote Databricks. Installez la version 64 bits du pilote.

  • Configurez un jeton d’accès personnel dans Databricks. Pour obtenir des instructions, consultez Gestion des jetons.

Configurer un DSN

Un nom de source de données (DSN) contient les informations relatives à une source de données spécifique. Un pilote ODBC a besoin de ce DSN pour se connecter à une source de données. Dans cette section, vous allez configurer un DSN qui peut être utilisé avec le pilote ODBC Databricks pour vous connecter à Azure Databricks à partir de clients tels que Python ou R.

  1. À partir de l’espace de travail Azure Databricks, accédez au cluster Databricks.

    Ouvrir un cluster Databricks

  2. Sous l’onglet configuration de , cliquez sur l’onglet JDBC/ODBC et copiez les valeurs du nom d’hôte serveur et chemin HTTP. Vous avez besoin de ces valeurs pour effectuer les étapes décrites dans cet article.

    Obtenir la configuration Databricks

  3. Sur votre ordinateur, démarrez l’application Sources de données ODBC 64 bits.

    Lancer l’application Sources de données ODBC

  4. Sous l’onglet DSN utilisateur, cliquez sur Ajouter. Dans la boîte de dialogue Créer une nouvelle source de données, sélectionnez le Pilote ODBC Spark Simba, puis cliquez sur Terminer.

    Ajouter une source de données ODBC

  5. Dans la boîte de dialogue Simba Spark ODBC Driver, fournissez les valeurs suivantes :

    Configurer le nom de source de données DSN

    Le tableau suivant fournit des informations sur les valeurs à fournir dans la boîte de dialogue.

    Champ Valeur
    nom de source de données Fournissez un nom pour la source de données.
    Host(s) (Hôte(s)) Indiquez la valeur que vous avez copiée à partir de l’espace de travail Databricks pour nom d’hôte du serveur.
    Port Entrez 443.
    mécanisme d’authentification> Sélectionnez nom d’utilisateur et mot de passe.
    nom d’utilisateur Entrez un jeton.
    mot de passe Entrez la valeur du jeton que vous avez copiée à partir de l’espace de travail Databricks.

    Effectuez les étapes supplémentaires suivantes dans la boîte de dialogue d’installation de DSN.

    • Cliquez sur HTTP Options (Options HHTP). Dans la boîte de dialogue qui s'ouvre, collez la valeur du HTTP Path que vous avez copiée depuis l'espace de travail Databricks. Cliquez sur OK.
    • Cliquez sur SSL Options (Options SSL). Dans la boîte de dialogue qui s’ouvre, cochez la case Activer SSL. Cliquez sur OK.
    • Cliquez sur Test pour tester la connexion à Azure Databricks. Cliquez sur OK pour enregistrer la configuration.
    • Dans la boîte de dialogue Administrateur de source de données ODBC , cliquez sur OK.

Vous avez maintenant configuré votre DSN. Dans les sections suivantes, vous utilisez ce DSN pour vous connecter à Azure Databricks à partir de Python ou R.

Se connecter à partir de R

Remarque

Cette section fournit des informations sur l’intégration d’un client R Studio s’exécutant sur votre bureau avec Azure Databricks. Pour obtenir des instructions sur l’utilisation de R Studio sur le cluster Azure Databricks lui-même, consultez R Studio sur Azure Databricks.

Dans cette section, vous utilisez un IDE de langage R pour référencer les données disponibles dans Azure Databricks. Avant de commencer, vous devez avoir installé ce qui suit sur l’ordinateur.

  • Un IDE pour le langage R. Cet article utilise RStudio for Desktop. Vous pouvez l’installer à partir du téléchargement RStudio.
  • Si vous utilisez RStudio for Desktop comme IDE, installez également Microsoft R Client à partir de https://aka.ms/rclient/.

Ouvrez RStudio et procédez comme suit :

  • Référencez le package RODBC. Cela vous permet de vous connecter à Azure Databricks à l’aide du DSN que vous avez créé précédemment.
  • Établissez une connexion à l’aide du DSN.
  • Exécutez une requête SQL sur les données dans Azure Databricks. Dans l’extrait de code suivant, radio_sample_data est une table qui existe déjà dans Azure Databricks.
  • Effectuez certaines opérations sur la requête pour vérifier la sortie.

L’extrait de code suivant effectue ces tâches :

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Se connecter à partir de Python

Dans cette section, vous utilisez un IDE Python (par exemple, IDLE) pour référencer les données disponibles dans Azure Databricks. Avant de commencer, remplissez les conditions préalables suivantes :

  • Installez Python à partir de ici. L’installation de Python à partir de ce lien installe également IDLE.

  • Depuis une invite de commande sur l'ordinateur, installez le paquet pyodbc. Exécutez la commande suivante :

    pip install pyodbc
    

Ouvrez IDLE et effectuez les étapes suivantes :

  • Importez le package pyodbc. Cela vous permet de vous connecter à Azure Databricks à l’aide du DSN que vous avez créé précédemment.
  • Établissez une connexion à l’aide du DSN que vous avez créé précédemment.
  • Exécutez une requête SQL à l’aide de la connexion que vous avez créée. Dans l’extrait de code suivant, radio_sample_data est une table qui existe déjà dans Azure Databricks.
  • Effectuez des opérations sur la requête pour vérifier la sortie.

L’extrait de code suivant effectue ces tâches :

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Étapes suivantes