Sdílet prostřednictvím


Připojení k Azure Databricks z Pythonu nebo R

V tomto článku se dozvíte, jak pomocí ovladače ODBC Databricks připojit Azure Databricks s jazykem Python nebo R. Po navázání připojení můžete přistupovat k datům v Azure Databricks z klientů Pythonu nebo R. Klienty můžete také použít k další analýze dat.

Požadavky

  • Musíte mít pracovní prostor Azure Databricks, cluster Spark a ukázková data přidružená k vašemu clusteru. Pokud tyto požadavky ještě nemáte, dokončete rychlý start na Začínáme.

  • Stáhněte ovladač ODBC Databricks z stránky pro stažení ovladače Databricks. Nainstalujte 64bitovou verzi ovladače.

  • Nastavte osobní přístupový token v Databricks. Pokyny najdete v tématu správa tokenů.

Nastavení DSN

Název zdroje dat (DSN) obsahuje informace o konkrétním zdroji dat. Ovladač ODBC potřebuje tento dsN pro připojení ke zdroji dat. V této části nastavíte dsN, který se dá použít s ovladačem ODBC Databricks pro připojení k Azure Databricks z klientů, jako je Python nebo R.

  1. V pracovním prostoru Azure Databricks přejděte do clusteru Databricks.

    otevřít cluster Databricks

  2. Na kartě Konfigurace klikněte na kartu JDBC/ODBC a zkopírujte hodnoty pro Název hostitele serveru a cestu HTTP. Tyto hodnoty potřebujete k dokončení kroků v tomto článku.

    získání konfigurace Databricks

  3. Na počítači spusťte aplikaci ODBC Data Sources ve verzi 64 bitů.

    Spuštění aplikace zdroje dat ODBC

  4. Na kartě DSN uživatele klikněte na Přidat. V dialogovém okně Vytvořit nový zdroj dat vyberte Ovladač Simba Spark ODBCa klikněte na Dokončit.

    Přidání zdroje dat ODBC

  5. V dialogovém okně Simba Spark ODBC ovladači zadejte následující hodnoty:

    konfigurovat DSN

    Následující tabulka obsahuje informace o hodnotách, které chcete zadat v dialogovém okně.

    Pole Hodnota
    název zdroje dat Zadejte název zdroje dat.
    hostitel(é) Zadejte hodnotu, kterou jste zkopírovali z pracovního prostoru Databricks pro název hostitele serveru .
    port Zadejte 443.
    mechanismu ověřování> Vyberte uživatelské jméno a heslo.
    uživatelské jméno Zadejte token .
    heslo Zadejte hodnotu tokenu, kterou jste zkopírovali z pracovního prostoru Databricks.

    V dialogovém okně nastavení DSN proveďte následující další kroky.

    • Klepněte na tlačítko možnosti HTTP. V dialogovém okně, které se otevře, vložte hodnotu pro cestu HTTP, kterou jste zkopírovali z pracovního prostoru Databricks. Klepněte na tlačítko OK.
    • Klepněte na tlačítko možnosti protokolu SSL. V dialogovém okně, které se otevře, zaškrtněte políčko Povolit ssl. Klepněte na tlačítko OK.
    • Kliknutím na Test otestujte připojení k Azure Databricks. Kliknutím na OK konfiguraci uložte.
    • V dialogovém okně správce zdroje dat ODBC klepněte na tlačítko OK.

Teď máte nastavený dsN. V následujících částech použijete tento DSN k připojení k Azure Databricks v jazyce Python nebo R.

Připojení z R

Poznámka

Tato část obsahuje informace o tom, jak integrovat klienta R Studia běžícího na počítači s Azure Databricks. Pokyny k použití R Studia v samotném clusteru Azure Databricks najdete v tématu R Studio v Azure Databricks.

V této části použijete integrované vývojové prostředí jazyka R k odkazování na data dostupná v Azure Databricks. Než začnete, musíte mít v počítači nainstalované následující součásti.

  • Integrované vývojové prostředí (IDE) pro jazyk R Tento článek používá RStudio pro Desktop. Můžete ho nainstalovat z R Studio stáhnout.
  • Pokud jako integrované vývojové prostředí (IDE) používáte RStudio pro Desktop, nainstalujte také klienta Microsoft R z https://aka.ms/rclient/.

Otevřete RStudio a proveďte následující kroky:

  • Odkaz na balíček RODBC Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
  • Vytvořte připojení pomocí dsN.
  • Spusťte dotaz SQL na data v Azure Databricks. V následujícím fragmentu kódu radio_sample_data je tabulka, která už v Azure Databricks existuje.
  • Provedením některých operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Připojení z Pythonu

V této části použijete integrované vývojové prostředí Pythonu (například IDLE) k odkazování na data dostupná v Azure Databricks. Než začnete, splňte následující předpoklady:

  • Nainstalujte Python z sem. Instalace Pythonu z tohoto odkazu také nainstaluje IDLE.

  • Z příkazového řádku v počítači nainstalujte balíček pyodbc. Spusťte následující příkaz:

    pip install pyodbc
    

Spusťte IDLE a proveďte následující kroky:

  • Importujte balíček pyodbc. Díky tomu se můžete připojit k Azure Databricks pomocí názvu DSN, který jste vytvořili dříve.
  • Vytvořte připojení pomocí DSN, který jste vytvořili dříve.
  • Spusťte dotaz SQL pomocí připojení, které jste vytvořili. V následujícím fragmentu kódu radio_sample_data je tabulka, která už v Azure Databricks existuje.
  • Provedením operací s dotazem ověřte výstup.

Následující fragment kódu provádí tyto úlohy:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Další kroky