Sdílet prostřednictvím


Připojení k Azure Databricks z Pythonu nebo R

V tomto článku se dozvíte, jak pomocí ovladače ODBC Databricks připojit Azure Databricks s jazykem Python nebo R. Po navázání připojení můžete přistupovat k datům v Azure Databricks z klientů Pythonu nebo R. Klienty můžete také použít k další analýze dat.

Požadavky

  • Musíte mít pracovní prostor Azure Databricks, cluster Spark a ukázková data přidružená k vašemu clusteru. Pokud tyto požadavky ještě nemáte, dokončete rychlý start v Get spuštěn.

  • Stáhněte ovladač ODBC Databricks z stránky pro stažení ovladače Databricks. Nainstalujte 64bitovou verzi ovladače.

  • Set nastavení osobního přístupového tokenu v Databricks. Pokyny najdete v tématu správa tokenů.

Set up a DSN

Název zdroje dat (DSN) obsahuje informace o konkrétním zdroji dat. Ovladač ODBC potřebuje tento dsN pro připojení ke zdroji dat. V této části set název DSN, který můžete použít s ovladačem ODBC Databricks pro připojení k Azure Databricks z klientů, jako je Python nebo R.

  1. V pracovním prostoru Azure Databricks přejděte do clusteru Databricks.

    otevřít cluster Databricks

  2. Na kartě Konfigurace klikněte na kartu JDBC/ODBC a zkopírujte values pro Server Hostname a cestu HTTP. K dokončení kroků v tomto článku potřebujete následující values.

    Get konfigurace Databricks

  3. Na počítači spusťte aplikaci ODBC Data Sources ve verzi 64 bitů.

    Spuštění aplikace zdroje dat ODBC

  4. Na kartě DSN uživatele klikněte na Přidat. V dialogovém okně Vytvořit nový zdroj datselect ovladač Simba Spark ODBCa potom klepněte na tlačítko Dokončit.

    Přidání zdroje dat ODBC

  5. V dialogovém okně Simba Spark ODBC Driver zadejte následující values:

    konfigurovat DSN

    Následující table poskytuje informace o values, které je třeba zadat v dialogovém okně.

    Pole Hodnota
    název zdroje dat Zadejte název zdroje dat.
    hostitel(é) Zadejte hodnotu, kterou jste zkopírovali z pracovního prostoru Databricks pro název hostitele serveru .
    port Zadejte 443.
    mechanismu ověřování> Select uživatelské jméno a heslo.
    uživatelské jméno Zadejte token .
    heslo Zadejte hodnotu tokenu, kterou jste zkopírovali z pracovního prostoru Databricks.

    V dialogovém okně nastavení DSN proveďte následující další kroky.

    • Klepněte na tlačítko možnosti HTTP. V dialogovém okně, které se otevře, vložte hodnotu pro cestu HTTP, kterou jste zkopírovali z pracovního prostoru Databricks. Klepněte na tlačítko OK.
    • Klepněte na tlačítko možnosti protokolu SSL. V dialogovém okně, které se otevře, select zaškrtávací políčko Povolit ssl. Klepněte na tlačítko OK.
    • Kliknutím na Test otestujte připojení k Azure Databricks. Kliknutím na OK konfiguraci uložte.
    • V dialogovém okně správce zdroje dat ODBC klepněte na tlačítko OK.

Teď je váš DSN set funkční. V následujících částech použijete tento DSN k připojení k Azure Databricks v jazyce Python nebo R.

Připojení z R

Poznámka

Tato část obsahuje informace o tom, jak integrovat klienta R Studia běžícího na počítači s Azure Databricks. Pokyny k použití R Studia v samotném clusteru Azure Databricks najdete v tématu R Studio v Azure Databricks.

V této části použijete integrované vývojové prostředí jazyka R k odkazování na data dostupná v Azure Databricks. Než začnete, musíte mít v počítači nainstalované následující součásti.

  • Integrované vývojové prostředí (IDE) pro jazyk R Tento článek používá RStudio pro Desktop. Můžete ho nainstalovat z R Studio stáhnout.
  • Pokud jako integrované vývojové prostředí (IDE) používáte RStudio pro Desktop, nainstalujte také klienta Microsoft R z https://aka.ms/rclient/.

Otevřete RStudio a proveďte následující kroky:

  • Odkaz na balíček RODBC Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
  • Vytvořte připojení pomocí dsN.
  • Spusťte dotaz SQL na data v Azure Databricks. V následujícím fragmentu kódu je radio_sample_datatable, která už v Azure Databricks existuje.
  • Provedením některých operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Připojení z Pythonu

V této části použijete integrované vývojové prostředí Pythonu (například IDLE) k odkazování na data dostupná v Azure Databricks. Než začnete, splňte následující předpoklady:

  • Nainstalujte Python z sem. Instalace Pythonu z tohoto odkazu také nainstaluje IDLE.

  • Z příkazového řádku v počítači nainstalujte balíček pyodbc. Spusťte následující příkaz:

    pip install pyodbc
    

Spusťte IDLE a proveďte následující kroky:

  • Importujte balíček pyodbc. Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
  • Vytvořte připojení pomocí DSN, který jste vytvořili dříve.
  • Spusťte dotaz SQL pomocí připojení, které jste vytvořili. V následujícím fragmentu kódu je radio_sample_datatable, která už v Azure Databricks existuje.
  • Provedením operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Další kroky