Freigeben über


Herstellen einer Verbindung mit Azure Databricks über Python oder R

In diesem Artikel erfahren Sie, wie Sie den DATAbricks ODBC-Treiber verwenden, um Azure Databricks mit Python oder R-Sprache zu verbinden. Nachdem Sie die Verbindung hergestellt haben, können Sie über die Python- oder R-Clients auf die Daten in Azure Databricks zugreifen. Sie können auch die Clients verwenden, um die Daten weiter zu analysieren.

Voraussetzungen

  • Sie müssen über einen Azure Databricks-Arbeitsbereich, einen Spark-Cluster und Beispieldaten verfügen, die Ihrem Cluster zugeordnet sind. Wenn diese Voraussetzungen noch nicht erfüllt sind, führen Sie den Schnellstart unter Erste Schritte durch.

  • Laden Sie den ODBC-Treiber von Databricks von der Downloadseite für Databricks-Treiber herunter. Installieren Sie die 64-Bit-Version des Treibers.

  • Richten Sie ein persönliches Zugriffstoken in Databricks ein. Anweisungen finden Sie unter Tokenverwaltung.

Einrichten eines DSN

Ein Datenquellenname (Data Source Name, DSN) enthält die Informationen zu einer bestimmten Datenquelle. Ein ODBC-Treiber benötigt diesen DSN, um eine Verbindung mit einer Datenquelle herzustellen. In diesem Abschnitt richten Sie einen DSN ein, der mit dem Databricks ODBC-Treiber zum Herstellen einer Verbindung mit Azure Databricks von Clients wie Python oder R verwendet werden kann.

  1. Navigieren Sie im Azure Databricks-Arbeitsbereich zum Databricks-Cluster.

    Öffnen eines Databricks-Clusters

  2. Klicken Sie auf der Registerkarte Konfiguration auf die Registerkarte ODBC/ODBC, und kopieren Sie die Werte für Server hostname und HTTP Path. Sie benötigen diese Werte, um die Schritte in diesem Artikel auszuführen.

    Abrufen der Databricks-Konfiguration

  3. Starten Sie auf Ihrem Computer die Anwendung ODBC-Datenquellen 64-Bit.

    ODBC-Datenquellen-App starten

  4. Klicken Sie auf der Registerkarte Benutzer-DSN auf Hinzufügen. Wählen Sie im Dialogfeld Neue Datenquelle erstellen den Simba Spark ODBC-Treiberaus, und klicken Sie dann auf Fertig stellen.

    ODBC-Datenquelle hinzufügen starten

  5. Geben Sie im Dialogfeld Simba Spark ODBC-Treiber die folgenden Werte an:

    DSN-Konfiguration

    Die folgende Tabelle enthält Informationen zu den Werten, die im Dialogfeld bereitgestellt werden sollen.

    Feld Wert
    Datenquellenname Geben Sie einen Namen für die Datenquelle an.
    Host(s) Geben Sie den Wert an, den Sie aus dem Databricks-Arbeitsbereich für Server hostnamekopiert haben.
    Port Geben Sie 443ein.
    Authentifizierungsmechanismus> Wählen Sie Benutzernamen und Kennwortaus.
    Benutzername Geben Sie Token ein.
    Kennwort Geben Sie den Tokenwert ein, den Sie aus dem Databricks-Arbeitsbereich kopiert haben.

    Führen Sie die folgenden zusätzlichen Schritte im Dialogfeld "DSN-Setup" aus.

    • Klicken Sie auf HTTP-Optionen. Fügen Sie im daraufhin geöffneten Dialogfeld den Wert für HTTP Path ein, den Sie aus dem Databricks-Arbeitsbereich kopiert haben. Klicken Sie auf OK.
    • Klicken Sie auf SSL-Optionen. Wählen Sie im daraufhin geöffneten Dialogfeld das Kontrollkästchen SSL aktivieren. Klicken Sie auf OK.
    • Klicken Sie auf Test, um die Verbindung mit Azure Databricks zu testen. Klicken Sie auf OK, um die Konfiguration zu speichern.
    • Klicken Sie im Dialogfeld ODBC-Datenquellenadministrator auf OK.

Sie haben jetzt Ihre DSN eingerichtet. In den nächsten Abschnitten verwenden Sie diesen DSN, um eine Verbindung mit Azure Databricks aus Python oder R herzustellen.

Herstellen einer Verbindung über R

Anmerkung

Dieser Abschnitt enthält Informationen zum Integrieren eines R Studio-Clients, der auf Ihrem Desktop mit Azure Databricks ausgeführt wird. Anweisungen zur Verwendung von R Studio im Azure Databricks-Cluster selbst finden Sie unter R Studio auf Azure Databricks.

In diesem Abschnitt verwenden Sie eine R-Sprach-IDE, um auf daten zu verweisen, die in Azure Databricks verfügbar sind. Bevor Sie beginnen, müssen Sie folgendes auf dem Computer installiert haben.

  • Eine IDE für R-Sprache. In diesem Artikel wird RStudio für Desktop verwendet. Sie können die Version von der Downloadseite von R Studio herunterladen.
  • Wenn Sie RStudio für Desktop als IDE verwenden, installieren Sie auch Microsoft R Client aus https://aka.ms/rclient/.

Öffnen Sie RStudio, und führen Sie die folgenden Schritte aus:

  • Verweisen Sie auf das RODBC-Paket. Auf diese Weise können Sie mithilfe des zuvor erstellten DSN eine Verbindung mit Azure Databricks herstellen.
  • Herstellen einer Verbindung mit dem DSN.
  • Führen Sie eine SQL-Abfrage für die Daten in Azure Databricks aus. Im folgenden Codeausschnitt ist radio_sample_data eine Tabelle, die bereits in Azure Databricks vorhanden ist.
  • Führen Sie einige Vorgänge für die Abfrage aus, um die Ausgabe zu überprüfen.

Der folgende Codeausschnitt führt diese Aufgaben aus:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Verbinden von Python

In diesem Abschnitt verwenden Sie eine Python-IDE (z. B. IDLE), um auf daten zu verweisen, die in Azure Databricks verfügbar sind. Bevor Sie beginnen, erfüllen Sie die folgenden Voraussetzungen:

  • Installieren Sie Python über diesen Link. Die Installation von Python über diesen Link installiert auch IDLE.

  • Installieren Sie über eine Eingabeaufforderung auf dem Computer das pyodbc-Paket. Führen Sie den folgenden Befehl aus:

    pip install pyodbc
    

Öffnen Sie IDLE, und führen Sie die folgenden Schritte aus:

  • Importieren Sie das pyodbc Paket. Auf diese Weise können Sie mithilfe des zuvor erstellten DSN eine Verbindung mit Azure Databricks herstellen.
  • Richten Sie eine Verbindung mit dem zuvor erstellten DSN ein.
  • Führen Sie eine SQL-Abfrage mit der von Ihnen erstellten Verbindung aus. Im folgenden Codeausschnitt ist radio_sample_data eine Tabelle, die bereits in Azure Databricks vorhanden ist.
  • Führen Sie Vorgänge für die Abfrage aus, um die Ausgabe zu überprüfen.

Der folgende Codeausschnitt führt diese Aufgaben aus:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Nächste Schritte