Připojení k Azure Databricks z Pythonu nebo R

Článek
01/22/2025

V tomto článku se dozvíte, jak pomocí ovladače ODBC Databricks připojit Azure Databricks s jazykem Python nebo R. Po navázání připojení můžete přistupovat k datům v Azure Databricks z klientů Pythonu nebo R. Klienty můžete také použít k další analýze dat.

Požadavky

Musíte mít pracovní prostor Azure Databricks, cluster Spark a ukázková data přidružená k vašemu clusteru. Pokud tyto požadavky ještě nemáte, dokončete rychlý start na Začínáme.
Stáhněte ovladač ODBC Databricks z stránky pro stažení ovladače Databricks. Nainstalujte 64bitovou verzi ovladače.
Nastavte osobní přístupový token v Databricks. Pokyny najdete v tématu správa tokenů.

Nastavení DSN

Název zdroje dat (DSN) obsahuje informace o konkrétním zdroji dat. Ovladač ODBC potřebuje tento dsN pro připojení ke zdroji dat. V této části nastavíte dsN, který se dá použít s ovladačem ODBC Databricks pro připojení k Azure Databricks z klientů, jako je Python nebo R.

V pracovním prostoru Azure Databricks přejděte do clusteru Databricks.
Na kartě Konfigurace klikněte na kartu JDBC/ODBC a zkopírujte hodnoty pro Název hostitele serveru a cestu HTTP. Tyto hodnoty potřebujete k dokončení kroků v tomto článku.
Na počítači spusťte aplikaci ODBC Data Sources ve verzi 64 bitů.
Na kartě DSN uživatele klikněte na Přidat. V dialogovém okně Vytvořit nový zdroj dat vyberte Ovladač Simba Spark ODBCa klikněte na Dokončit.

V dialogovém okně Simba Spark ODBC ovladači zadejte následující hodnoty:

konfigurovat DSN

Následující tabulka obsahuje informace o hodnotách, které chcete zadat v dialogovém okně.

Pole	Hodnota
název zdroje dat	Zadejte název zdroje dat.
hostitel(é)	Zadejte hodnotu, kterou jste zkopírovali z pracovního prostoru Databricks pro název hostitele serveru .
port	Zadejte 443.
mechanismu ověřování>	Vyberte uživatelské jméno a heslo.
uživatelské jméno	Zadejte token .
heslo	Zadejte hodnotu tokenu, kterou jste zkopírovali z pracovního prostoru Databricks.

V dialogovém okně nastavení DSN proveďte následující další kroky.

Klepněte na tlačítko možnosti HTTP. V dialogovém okně, které se otevře, vložte hodnotu pro cestu HTTP, kterou jste zkopírovali z pracovního prostoru Databricks. Klepněte na tlačítko OK.
Klepněte na tlačítko možnosti protokolu SSL. V dialogovém okně, které se otevře, zaškrtněte políčko Povolit ssl. Klepněte na tlačítko OK.
Kliknutím na Test otestujte připojení k Azure Databricks. Kliknutím na OK konfiguraci uložte.
V dialogovém okně správce zdroje dat ODBC klepněte na tlačítko OK.

Teď máte nastavený dsN. V následujících částech použijete tento DSN k připojení k Azure Databricks v jazyce Python nebo R.

Připojení z R

Poznámka

Tato část obsahuje informace o tom, jak integrovat klienta R Studia běžícího na počítači s Azure Databricks. Pokyny k použití R Studia v samotném clusteru Azure Databricks najdete v tématu R Studio v Azure Databricks.

V této části použijete integrované vývojové prostředí jazyka R k odkazování na data dostupná v Azure Databricks. Než začnete, musíte mít v počítači nainstalované následující součásti.

Integrované vývojové prostředí (IDE) pro jazyk R Tento článek používá RStudio pro Desktop. Můžete ho nainstalovat z R Studio stáhnout.
Pokud jako integrované vývojové prostředí (IDE) používáte RStudio pro Desktop, nainstalujte také klienta Microsoft R z https://aka.ms/rclient/.

Otevřete RStudio a proveďte následující kroky:

Odkaz na balíček RODBC Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
Vytvořte připojení pomocí dsN.
Spusťte dotaz SQL na data v Azure Databricks. V následujícím fragmentu kódu radio_sample_data je tabulka, která už v Azure Databricks existuje.
Provedením některých operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Připojení z Pythonu

V této části použijete integrované vývojové prostředí Pythonu (například IDLE) k odkazování na data dostupná v Azure Databricks. Než začnete, splňte následující předpoklady:

Nainstalujte Python z sem. Instalace Pythonu z tohoto odkazu také nainstaluje IDLE.
Z příkazového řádku v počítači nainstalujte balíček pyodbc. Spusťte následující příkaz:
```
pip install pyodbc
```

Spusťte IDLE a proveďte následující kroky:

Importujte balíček pyodbc. Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
Vytvořte připojení pomocí DSN, který jste vytvořili dříve.
Spusťte dotaz SQL pomocí připojení, které jste vytvořili. V následujícím fragmentu kódu radio_sample_data je tabulka, která už v Azure Databricks existuje.
Provedením operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Další kroky

Informace o zdrojích, ze kterých můžete importovat data do Azure Databricks, najdete v tématu Zdroje dat pro azure Databricks

Sdílet prostřednictvím