Anslut till Azure Databricks från Python eller R
I den här artikeln får du lära dig hur du använder Databricks ODBC-drivrutinen för att ansluta Azure Databricks till Python- eller R-språk. När du har upprättat anslutningen kan du komma åt data i Azure Databricks från Python- eller R-klienterna. Du kan också använda klienterna för att analysera data ytterligare.
Förutsättningar
Du måste ha en Azure Databricks-arbetsyta, ett Spark-kluster och exempeldata som är associerade med klustret. Om du inte redan har dessa förutsättningar slutför du snabbstarten på Kom igång.
Ladda ned Databricks ODBC-drivrutinen från nedladdningssidan för Databricks-drivrutinen. Installera 64-bitarsversionen av drivrutinen.
Konfigurera en personlig åtkomsttoken i Databricks. Anvisningar finns i Tokenhantering.
Konfigurera ett DSN
Ett namn på datakällan (DSN) innehåller information om en specifik datakälla. En ODBC-drivrutin behöver detta DSN för att ansluta till en datakälla. I det här avsnittet konfigurerar du ett DSN som kan användas med Databricks ODBC-drivrutinen för att ansluta till Azure Databricks från klienter som Python eller R.
Från Azure Databricks-arbetsytan går du till Databricks-klustret.
Under fliken Konfiguration klickar du på fliken JDBC/ODBC och kopierar värdena för Servervärdnamn och HTTP-sökväg. Du behöver dessa värden för att slutföra stegen i den här artikeln.
Starta ODBC Data Sources-programmet 64-bitars på datorn.
Under fliken Användar-DSN klickar du på Lägg till. I dialogrutan Skapa ny datakälla väljer du Odbc-drivrutinen För Simba Spark och klickar sedan på Slutför.
I dialogrutan Simba Spark ODBC-drivrutin anger du följande värden:
Följande tabell innehåller information om de värden som ska anges i dialogrutan.
Fält Värde Namn på datakälla Ange ett namn för datakällan. Värdar Ange det värde som du kopierade från Databricks-arbetsytan för servervärdnamnet. Port Ange 443. Autentiseringsmekanism> Välj Användarnamn och lösenord. Användarnamn Ange token. Lösenord Ange det tokenvärde som du kopierade från Databricks-arbetsytan. Utför följande ytterligare steg i dialogrutan för DSN-konfiguration.
- Klicka på HTTP-alternativ. I dialogrutan som öppnas klistrar du in värdet för HTTP-sökvägen som du kopierade från Databricks-arbetsytan. Klicka på OK.
- Klicka på SSL-alternativ. I dialogrutan som öppnas markerar du kryssrutan Aktivera SSL . Klicka på OK.
- Klicka på Testa för att testa anslutningen till Azure Databricks. Spara ändringarna genom att klicka på OK.
- I dialogrutan ODBC-administratör för datakälla klickar du på OK.
Nu har du konfigurerat ditt DSN. I nästa avsnitt använder du detta DSN för att ansluta till Azure Databricks från Python eller R.
Anslut från R
Kommentar
Det här avsnittet innehåller information om hur du integrerar en R Studio-klient som körs på skrivbordet med Azure Databricks. Anvisningar om hur du använder R Studio i själva Azure Databricks-klustret finns i R Studio på Azure Databricks.
I det här avsnittet använder du en R-språk-IDE för att referera till data som är tillgängliga i Azure Databricks. Innan du börjar måste du ha följande installerat på datorn.
- Ett IDE för R-språk. Den här artikeln använder RStudio for Desktop. Du kan installera den från R Studio-nedladdningen.
- Om du använder RStudio för Desktop som din IDE installerar du även Microsoft R Client från https://aka.ms/rclient/.
Öppna RStudio och gör följande:
- Referera till
RODBC
paketet. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare. - Upprätta en anslutning med hjälp av DSN.
- Kör en SQL-fråga på data i Azure Databricks. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
- Utför vissa åtgärder på frågan för att verifiera utdata.
Följande kodfragment utför följande uppgifter:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Anslut från Python
I det här avsnittet använder du en Python IDE (till exempel IDLE) för att referera till data som är tillgängliga i Azure Databricks. Slutför följande förutsättningar innan du börjar:
Installera Python härifrån. Om du installerar Python från den här länken installeras även IDLE.
Installera paketet från en kommandotolk på datorn
pyodbc
. Kör följande kommando:pip install pyodbc
Öppna IDLE och gör följande:
- Importera paketet
pyodbc
. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare. - Upprätta en anslutning med hjälp av det DSN som du skapade tidigare.
- Kör en SQL-fråga med den anslutning som du skapade. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
- Utför åtgärder på frågan för att verifiera utdata.
Följande kodfragment utför följande uppgifter:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Nästa steg
- Information om källor där du kan importera data till Azure Databricks finns i Datakällor för Azure Databricks