Sdílet prostřednictvím


Nástroje Databricks s použitím Databricks Connect pro Python

Poznámka

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat nástroje Databricks s Databricks Connect pro Python. Databricks Connect umožňuje připojení oblíbených integrovaných vývojových prostředí, serverů poznámkových bloků a vlastních aplikací k clusterům Azure Databricks. Podívejte se na článek Co je Databricks Connect?. Pro verzi článku určenou pro Scala nahlédněte do Databricks Utilities s Databricks Connect pro Scala.

Poznámka

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Databricks Connect používáte pro přístup k nástrojům Databricks následujícím způsobem:

  • Pro přístup k nástrojům Databricks použijte proměnnou WorkspaceClient třídy dbutils. Třída WorkspaceClient patří do sady Databricks SDK pro Python a je součástí databricks Connect.
  • Použijte dbutils.fs pro přístup k nástroji Databricks Utilities fs.
  • K přístupu k utility dbutils.secrets v Databricks Utilities použijte nástroj secrets.
  • Žádné funkce nástrojů Databricks jiné než předchozí nástroje jsou k dispozici prostřednictvím dbutils.

Spropitné

Zahrnutou sadu Databricks SDK pro Python můžete použít také pro přístup k libovolnému dostupnému rozhraní DATAbricks REST API, nejen k předchozím rozhraním API nástrojů Databricks. Viz databricks-sdk na PyPI.

Pokud chcete inicializovat WorkspaceClient, musíte zadat dostatek informací k ověření sady SDK Databricks v pracovním prostoru. Můžete například:

  • Pevně zakódujte adresu URL pracovního prostoru a přístupový token přímo v kódu a pak inicializujete WorkspaceClient následujícím způsobem. I když je tato možnost podporovaná, databricks nedoporučuje tuto možnost, protože může zveřejnit citlivé informace, jako jsou přístupové tokeny, pokud je váš kód vrácený do správy verzí nebo jinak sdílený:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(host  = f"https://{retrieve_workspace_instance_name()}",
                        token = retrieve_token())
    
  • Vytvořte nebo zadejte konfigurační profil , který obsahuje pole host a token, a poté inicializujte WorkspaceClient následujícím způsobem:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(profile = "<profile-name>")
    
  • Nastavte proměnné prostředí DATABRICKS_HOST a DATABRICKS_TOKEN stejným způsobem, jakým je nastavíte pro Databricks Connect, a pak inicializujete WorkspaceClient následujícím způsobem:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient()
    

Sada Databricks SDK pro Python nerozpozná proměnnou prostředí SPARK_REMOTE pro Databricks Connect.

Další možnosti ověřování Azure Databricks pro sadu Databricks SDK pro Python a informace o inicializaci AccountClient v sadách SDK Databricks pro přístup k dostupným rozhraním DATAbricks REST API na úrovni účtu místo na úrovni pracovního prostoru najdete v tématu databricks-sdk na PyPI.

Následující příklad ukazuje, jak pomocí sady Databricks SDK pro Python automatizovat nástroje Databricks. Tento příklad vytvoří soubor s názvem zzz_hello.txt v cestě ke svazku katalogu Unity v pracovním prostoru, přečte data ze souboru a pak soubor odstraní. Tento příklad předpokládá, že proměnné prostředí DATABRICKS_HOST a DATABRICKS_TOKEN již byly nastaveny:

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs

fs.put(
  file      = file_path,
  contents  = file_data,
  overwrite = True
)

print(fs.head(file_path))

fs.rm(file_path)

Viz také část Interakce s nástroji dbutils v dokumentaci k Databricks SDK pro Python.