Nástroje Databricks s použitím Databricks Connect pro Python
Poznámka
Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak používat nástroje Databricks s Databricks Connect pro Python. Databricks Connect umožňuje připojení oblíbených integrovaných vývojových prostředí, serverů poznámkových bloků a vlastních aplikací k clusterům Azure Databricks. Podívejte se na článek Co je Databricks Connect?. Pro verzi článku určenou pro Scala nahlédněte do Databricks Utilities s Databricks Connect pro Scala.
Poznámka
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Databricks Connect používáte pro přístup k nástrojům Databricks následujícím způsobem:
- Pro přístup k nástrojům Databricks použijte proměnnou
WorkspaceClient
třídydbutils
. TřídaWorkspaceClient
patří do sady Databricks SDK pro Python a je součástí databricks Connect. - Použijte
dbutils.fs
pro přístup k nástroji Databricks Utilities fs. - K přístupu k utility
dbutils.secrets
v Databricks Utilities použijte nástroj secrets. - Žádné funkce nástrojů Databricks jiné než předchozí nástroje jsou k dispozici prostřednictvím
dbutils
.
Spropitné
Zahrnutou sadu Databricks SDK pro Python můžete použít také pro přístup k libovolnému dostupnému rozhraní DATAbricks REST API, nejen k předchozím rozhraním API nástrojů Databricks. Viz databricks-sdk na PyPI.
Pokud chcete inicializovat WorkspaceClient
, musíte zadat dostatek informací k ověření sady SDK Databricks v pracovním prostoru. Můžete například:
Pevně zakódujte adresu URL pracovního prostoru a přístupový token přímo v kódu a pak inicializujete
WorkspaceClient
následujícím způsobem. I když je tato možnost podporovaná, databricks nedoporučuje tuto možnost, protože může zveřejnit citlivé informace, jako jsou přístupové tokeny, pokud je váš kód vrácený do správy verzí nebo jinak sdílený:from databricks.sdk import WorkspaceClient w = WorkspaceClient(host = f"https://{retrieve_workspace_instance_name()}", token = retrieve_token())
Vytvořte nebo zadejte konfigurační profil , který obsahuje pole
host
atoken
, a poté inicializujteWorkspaceClient
následujícím způsobem:from databricks.sdk import WorkspaceClient w = WorkspaceClient(profile = "<profile-name>")
Nastavte proměnné prostředí
DATABRICKS_HOST
aDATABRICKS_TOKEN
stejným způsobem, jakým je nastavíte pro Databricks Connect, a pak inicializujeteWorkspaceClient
následujícím způsobem:from databricks.sdk import WorkspaceClient w = WorkspaceClient()
Sada Databricks SDK pro Python nerozpozná proměnnou prostředí SPARK_REMOTE
pro Databricks Connect.
Další možnosti ověřování Azure Databricks pro sadu Databricks SDK pro Python a informace o inicializaci AccountClient
v sadách SDK Databricks pro přístup k dostupným rozhraním DATAbricks REST API na úrovni účtu místo na úrovni pracovního prostoru najdete v tématu databricks-sdk na PyPI.
Následující příklad ukazuje, jak pomocí sady Databricks SDK pro Python automatizovat nástroje Databricks. Tento příklad vytvoří soubor s názvem zzz_hello.txt
v cestě ke svazku katalogu Unity v pracovním prostoru, přečte data ze souboru a pak soubor odstraní. Tento příklad předpokládá, že proměnné prostředí DATABRICKS_HOST
a DATABRICKS_TOKEN
již byly nastaveny:
from databricks.sdk import WorkspaceClient
w = WorkspaceClient()
file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs
fs.put(
file = file_path,
contents = file_data,
overwrite = True
)
print(fs.head(file_path))
fs.rm(file_path)
Viz také část Interakce s nástroji dbutils v dokumentaci k Databricks SDK pro Python.