Instalar o Databricks Connect para Python
Observação
Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.
Esse artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?. Para obter a versão para Scala deste artigo, consulte Instalar o Databricks Connect para Scala.
Requisitos
Para instalar o Databricks Connect para Python, os seguintes requisitos devem ser atendidos:
Se você estiver se conectando à computação sem servidor, seu workspace deverá atender aos requisitos para computação sem servidor.
Observação
A versão 15.1 e as versões posteriores do Databricks Connect oferecem suporte para a computação sem servidor. Além disso, as versões do Databricks Connect semelhantes ou anteriores à versão do Databricks Runtime sem servidor são totalmente compatíveis. Confira as notas sobre a versão. Para verificar se a versão do Databricks Connect é compatível com a computação sem servidor, confira a seção Validar a conexão com o Databricks.
Se você estiver se conectando a um cluster, seu cluster de destino deverá atender aos requisitos de configuração do cluster, que inclui os requisitos de versão do Databricks Runtime.
Você deve ter o Python 3 instalado em seu computador de desenvolvimento e a versão secundária do Python instalada em seu computador deve atender aos requisitos de versão na tabela abaixo.
Se você estiver usando UDFs (funções definidas pelo usuário), a versão secundária local do Python precisará corresponder à versão secundária do Python da versão do Databricks Runtime do cluster ou da computação sem servidor. Para encontrar a versão secundária do Python da versão do Databricks Runtime do cluster, confira a seção Ambiente de Sistema das notas sobre a versão do Databricks Runtime dessa versão. Consulte Versões e compatibilidade das notas sobre a versão do Databricks Runtime e Notas sobre a versão da computação sem servidor.
Matriz de Suporte de Versão
A tabela a seguir mostra versões compatíveis do Databricks Connect e do Python. Os números de versão do Databricks Connect correspondem aos números de versão do Databricks Runtime.
Tipo de computação | Versão do Databricks Connect | Versão compatível do Python |
---|---|---|
Sem servidor | 15.1 e versões posteriores | 3.12 |
Cluster | 16.0 e superior | 3.12 |
Cluster | 15.0 a 15.4 LTS | 3.11 |
Cluster | 13.3 LTS a 14.3 LTS | 3.10 |
Ativar um ambiente virtual do Python
O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir o uso das versões corretas do Python e do Databricks Connect em conjunto. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.
Instalar o cliente do Databricks Connect
Esta seção descreve como instalar o cliente do Databricks Connect com venv ou Poetry.
Observação
Se você já tiver a extensão do Databricks para o Visual Studio Code instalada, não precisará seguir essas instruções de instalação, pois a extensão do Databricks para Visual Studio Code já tem suporte interno para Databricks Connect para Databricks Runtime 13.3 LTS e superior. Pular para Depurar código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.
Instale o cliente do Databricks Connect com venv
Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando
uninstall
. Isso é necessário porque o pacotedatabricks-connect
está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comandoshow
.# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark
Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando
install
. Use a opção--upgrade
para atualizar qualquer instalação do cliente existente para a versão especificada.pip3 install --upgrade "databricks-connect==15.4.*" # Or X.Y.* to match your cluster version.
Observação
O Databricks recomenda que você acrescente a notação "dot-asterisk" a ser especificada
databricks-connect==X.Y.*
em vez dedatabricks-connect=X.Y
, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.
Instale o cliente do Databricks Connect com Poesia
Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando
remove
. Isso é necessário porque o pacotedatabricks-connect
está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comandoshow
.# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark
Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando
add
.poetry add databricks-connect@~15.4 # Or X.Y to match your cluster version.
Observação
O Databricks recomenda que você use a notação "at-tilde" a ser especificada
databricks-connect@~15.4
em vez dedatabricks-connect==15.4
, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.
Próximas etapas
Depois de instalar o Databricks Connect, você precisará configurar uma conexão com o Databricks. Consulte Configuração de computação para o Databricks Connect.