Instalar o Databricks Connect para Python

Artigo
02/20/2025

Nota

Este artigo aborda o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

Este artigo descreve como instalar o Databricks Connect for Python. Consulte O que é Databricks Connect?. Para a versão Scala deste artigo, consulte Instalar o Databricks Connect for Scala.

Requisitos

Para instalar o Databricks Connect for Python, os seguintes requisitos devem ser atendidos:

Se você estiver se conectando à computação sem servidor, seu espaço de trabalho deverá atender aos requisitos de computação sem servidor.

Nota

A computação sem servidor é suportada no Databricks Connect versão 15.1 e superior. Além disso, as versões do Databricks Connect iguais ou inferiores à versão Databricks Runtime no serverless são totalmente compatíveis. Consulte Notas de versão. Para verificar se a versão do Databricks Connect é compatível com computação sem servidor, consulte Validar a conexão com o Databricks.
Se você estiver se conectando a um cluster, o cluster de destino deverá atender aos requisitos de configuração do cluster, que incluem os requisitos de versão do Databricks Runtime.
Você deve ter o Python 3 instalado em sua máquina de desenvolvimento, e a versão secundária do Python instalada em sua máquina de desenvolvimento deve atender aos requisitos de versão na tabela abaixo.
Se você estiver usando funções definidas pelo usuário (UDFs), a versão secundária local do Python deverá corresponder à versão secundária do Python da versão do Databricks Runtime do cluster ou computação sem servidor. Para encontrar a versão menor do Python da versão do Databricks Runtime do seu cluster, consulte a secção System environment das notas de versão do Databricks Runtime para essa versão. Consulte Notas de versão, versões e compatibilidade do Databricks Runtime e Notas de versão de computação sem servidor.

Matriz de suporte da versão

A tabela a seguir mostra as versões compatíveis do Databricks Connect e do Python. Os números de versão do Databricks Connect correspondem aos números de versão do Databricks Runtime.

Tipo de computação	Versão do Databricks Connect	Versão Python compatível
Sem servidor	15.1 e superior	3.12
Cluster	16.0 e superior	3.12
Cluster	15,0 a 15,4 LTS	3.11
Cluster	13,3 LTS a 14,3 LTS	3,10

Ativar um ambiente virtual Python

O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que você esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.

Instalar o cliente Databricks Connect

Esta seção descreve como instalar o cliente Databricks Connect com venv ou Poetry.

Nota

Se você já tiver a extensão Databricks para Visual Studio Code instalada, não precisará seguir estas instruções de instalação, porque a extensão Databricks para Visual Studio Code já tem suporte interno para Databricks Connect for Databricks Runtime 13.3 LTS e superior. Pule para Depurar código usando Databricks Connect para a extensão Databricks para Visual Studio Code.

Instale o cliente Databricks Connect com venv

Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o uninstall comando. Isso é necessário porque o pacote entra em conflito com o databricks-connect PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o show comando.
```
# Is PySpark already installed?
pip3 show pyspark

# Uninstall PySpark
pip3 uninstall pyspark
```
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o install comando. Use a --upgrade opção para atualizar qualquer instalação de cliente existente para a versão especificada.
```
pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
```
Nota

O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

Instale o cliente Databricks Connect com o Poetry

Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o remove comando. Isso é necessário porque o pacote entra em conflito com o databricks-connect PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o show comando.
```
# Is PySpark already installed?
poetry show pyspark

# Uninstall PySpark
poetry remove pyspark
```
Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o add comando.
```
poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
```
Nota

O Databricks recomenda que você use a notação "at-tilde" para especificar databricks-connect@~15.4 em vez de databricks-connect==15.4, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

Próximos passos

Depois de instalar o Databricks Connect, você precisa configurar uma conexão com o Databricks. Consulte Configuração de computação para Databricks Connect.

Partilhar via