Připojení k Azure Databricks z Pythonu nebo R
V tomto článku se dozvíte, jak pomocí ovladače ODBC Databricks připojit Azure Databricks s jazykem Python nebo R. Po navázání připojení můžete přistupovat k datům v Azure Databricks z klientů Pythonu nebo R. Klienty můžete také použít k další analýze dat.
Požadavky
Musíte mít pracovní prostor Azure Databricks, cluster Spark a ukázková data přidružená k vašemu clusteru. Pokud tyto požadavky ještě nemáte, dokončete rychlý start v Get spuštěn.
Stáhněte ovladač ODBC Databricks z stránky pro stažení ovladače Databricks. Nainstalujte 64bitovou verzi ovladače.
Set nastavení osobního přístupového tokenu v Databricks. Pokyny najdete v tématu správa tokenů.
Set up a DSN
Název zdroje dat (DSN) obsahuje informace o konkrétním zdroji dat. Ovladač ODBC potřebuje tento dsN pro připojení ke zdroji dat. V této části set název DSN, který můžete použít s ovladačem ODBC Databricks pro připojení k Azure Databricks z klientů, jako je Python nebo R.
V pracovním prostoru Azure Databricks přejděte do clusteru Databricks.
Na kartě Konfigurace klikněte na kartu JDBC/ODBC a zkopírujte values pro Server Hostname a cestu HTTP. K dokončení kroků v tomto článku potřebujete následující values.
Na počítači spusťte aplikaci ODBC Data Sources ve verzi 64 bitů.
Na kartě DSN uživatele klikněte na Přidat. V dialogovém okně Vytvořit nový zdroj datselect ovladač Simba Spark ODBCa potom klepněte na tlačítko Dokončit.
V dialogovém okně Simba Spark ODBC Driver zadejte následující values:
Následující table poskytuje informace o values, které je třeba zadat v dialogovém okně.
Pole Hodnota název zdroje dat Zadejte název zdroje dat. hostitel(é) Zadejte hodnotu, kterou jste zkopírovali z pracovního prostoru Databricks pro název hostitele serveru . port Zadejte 443. mechanismu ověřování> Select uživatelské jméno a heslo. uživatelské jméno Zadejte token . heslo Zadejte hodnotu tokenu, kterou jste zkopírovali z pracovního prostoru Databricks. V dialogovém okně nastavení DSN proveďte následující další kroky.
- Klepněte na tlačítko možnosti HTTP. V dialogovém okně, které se otevře, vložte hodnotu pro cestu HTTP, kterou jste zkopírovali z pracovního prostoru Databricks. Klepněte na tlačítko OK.
- Klepněte na tlačítko možnosti protokolu SSL. V dialogovém okně, které se otevře, select zaškrtávací políčko Povolit ssl. Klepněte na tlačítko OK.
- Kliknutím na Test otestujte připojení k Azure Databricks. Kliknutím na OK konfiguraci uložte.
- V dialogovém okně správce zdroje dat ODBC klepněte na tlačítko OK.
Teď je váš DSN set funkční. V následujících částech použijete tento DSN k připojení k Azure Databricks v jazyce Python nebo R.
Připojení z R
Poznámka
Tato část obsahuje informace o tom, jak integrovat klienta R Studia běžícího na počítači s Azure Databricks. Pokyny k použití R Studia v samotném clusteru Azure Databricks najdete v tématu R Studio v Azure Databricks.
V této části použijete integrované vývojové prostředí jazyka R k odkazování na data dostupná v Azure Databricks. Než začnete, musíte mít v počítači nainstalované následující součásti.
- Integrované vývojové prostředí (IDE) pro jazyk R Tento článek používá RStudio pro Desktop. Můžete ho nainstalovat z R Studio stáhnout.
- Pokud jako integrované vývojové prostředí (IDE) používáte RStudio pro Desktop, nainstalujte také klienta Microsoft R z https://aka.ms/rclient/.
Otevřete RStudio a proveďte následující kroky:
- Odkaz na balíček
RODBC
Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve. - Vytvořte připojení pomocí dsN.
- Spusťte dotaz SQL na data v Azure Databricks. V následujícím fragmentu kódu je radio_sample_datatable, která už v Azure Databricks existuje.
- Provedením některých operací s dotazem ověřte výstup.
Následující fragment kódu provádí tyto úlohy:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Připojení z Pythonu
V této části použijete integrované vývojové prostředí Pythonu (například IDLE) k odkazování na data dostupná v Azure Databricks. Než začnete, splňte následující předpoklady:
Nainstalujte Python z sem. Instalace Pythonu z tohoto odkazu také nainstaluje IDLE.
Z příkazového řádku v počítači nainstalujte balíček
pyodbc
. Spusťte následující příkaz:pip install pyodbc
Spusťte IDLE a proveďte následující kroky:
- Importujte balíček
pyodbc
. Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve. - Vytvořte připojení pomocí DSN, který jste vytvořili dříve.
- Spusťte dotaz SQL pomocí připojení, které jste vytvořili. V následujícím fragmentu kódu je radio_sample_datatable, která už v Azure Databricks existuje.
- Provedením operací s dotazem ověřte výstup.
Následující fragment kódu provádí tyto úlohy:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Další kroky
- Další informace o zdrojích z where, které můžete importovat do Azure Databricks, najdete v tématu Zdroje dat pro azure Databricks