Dela via


Anslut till Azure Databricks från Python eller R

I den här artikeln får du lära dig hur du använder Databricks ODBC-drivrutinen för att ansluta Azure Databricks till Python- eller R-språk. När du har upprättat anslutningen kan du komma åt data i Azure Databricks från Python- eller R-klienterna. Du kan också använda klienterna för att analysera data ytterligare.

Förutsättningar

  • Du måste ha en Azure Databricks-arbetsyta, ett Spark-kluster och exempeldata som är associerade med klustret. Om du inte redan har dessa förutsättningar slutför du snabbstarten på Kom igång.

  • Ladda ned Databricks ODBC-drivrutinen från nedladdningssidan för Databricks-drivrutinen. Installera 64-bitarsversionen av drivrutinen.

  • Konfigurera en personlig åtkomsttoken i Databricks. Anvisningar finns i Tokenhantering.

Konfigurera ett DSN

Ett namn på datakällan (DSN) innehåller information om en specifik datakälla. En ODBC-drivrutin behöver detta DSN för att ansluta till en datakälla. I det här avsnittet konfigurerar du ett DSN som kan användas med Databricks ODBC-drivrutinen för att ansluta till Azure Databricks från klienter som Python eller R.

  1. Från Azure Databricks-arbetsytan går du till Databricks-klustret.

    Open Databricks cluster

  2. Under fliken Konfiguration klickar du på fliken JDBC/ODBC och kopierar värdena för Servervärdnamn och HTTP-sökväg. Du behöver dessa värden för att slutföra stegen i den här artikeln.

    Get Databricks configuration

  3. Starta ODBC Data Sources-programmet 64-bitars på datorn.

    Launch ODBC Data Sources app

  4. Under fliken Användar-DSN klickar du på Lägg till. I dialogrutan Skapa ny datakälla väljer du Odbc-drivrutinen För Simba Spark och klickar sedan på Slutför.

    Add ODBC data source

  5. I dialogrutan Simba Spark ODBC-drivrutin anger du följande värden:

    Configure DSN

    Följande tabell innehåller information om de värden som ska anges i dialogrutan.

    Fält Värde
    Namn på datakälla Ange ett namn för datakällan.
    Värdar Ange det värde som du kopierade från Databricks-arbetsytan för servervärdnamnet.
    Port Ange 443.
    Autentiseringsmekanism> Välj Användarnamn och lösenord.
    Användarnamn Ange token.
    Lösenord Ange det tokenvärde som du kopierade från Databricks-arbetsytan.

    Utför följande ytterligare steg i dialogrutan för DSN-konfiguration.

    • Klicka på HTTP-alternativ. I dialogrutan som öppnas klistrar du in värdet för HTTP-sökvägen som du kopierade från Databricks-arbetsytan. Klicka på OK.
    • Klicka på SSL-alternativ. I dialogrutan som öppnas markerar du kryssrutan Aktivera SSL . Klicka på OK.
    • Klicka på Testa för att testa anslutningen till Azure Databricks. Spara ändringarna genom att klicka på OK.
    • I dialogrutan ODBC-administratör för datakälla klickar du på OK.

Nu har du konfigurerat ditt DSN. I nästa avsnitt använder du detta DSN för att ansluta till Azure Databricks från Python eller R.

Anslut från R

Kommentar

Det här avsnittet innehåller information om hur du integrerar en R Studio-klient som körs på skrivbordet med Azure Databricks. Anvisningar om hur du använder R Studio i själva Azure Databricks-klustret finns i R Studio på Azure Databricks.

I det här avsnittet använder du en R-språk-IDE för att referera till data som är tillgängliga i Azure Databricks. Innan du börjar måste du ha följande installerat på datorn.

  • Ett IDE för R-språk. Den här artikeln använder RStudio for Desktop. Du kan installera den från R Studio-nedladdningen.
  • Om du använder RStudio för Desktop som din IDE installerar du även Microsoft R Client från https://aka.ms/rclient/.

Öppna RStudio och gör följande:

  • Referera till RODBC paketet. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare.
  • Upprätta en anslutning med hjälp av DSN.
  • Kör en SQL-fråga på data i Azure Databricks. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
  • Utför vissa åtgärder på frågan för att verifiera utdata.

Följande kodfragment utför följande uppgifter:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Anslut från Python

I det här avsnittet använder du en Python IDE (till exempel IDLE) för att referera till data som är tillgängliga i Azure Databricks. Slutför följande förutsättningar innan du börjar:

  • Installera Python härifrån. Om du installerar Python från den här länken installeras även IDLE.

  • Installera paketet från en kommandotolk på datorn pyodbc . Kör följande kommando:

    pip install pyodbc
    

Öppna IDLE och gör följande:

  • Importera paketet pyodbc . På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare.
  • Upprätta en anslutning med hjälp av det DSN som du skapade tidigare.
  • Kör en SQL-fråga med den anslutning som du skapade. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
  • Utför åtgärder på frågan för att verifiera utdata.

Följande kodfragment utför följande uppgifter:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Nästa steg