Compartilhar via


Instalar o Databricks Connect para Python

Observação

Esse artigo aborda o Databricks Connect para Databricks Runtime 13.3 LTS e superior.

Esse artigo descreve como instalar o Databricks Connect para Python. Consulte O que é o Databricks Connect?. Para obter a versão para Scala deste artigo, consulte Instalar o Databricks Connect para Scala.

Requisitos

Para instalar o Databricks Connect para Python, os seguintes requisitos devem ser atendidos:

  • Se você estiver se conectando à computação sem servidor, seu workspace deverá atender aos requisitos para computação sem servidor.

    Observação

    A versão 15.1 e as versões posteriores do Databricks Connect oferecem suporte para a computação sem servidor. Além disso, as versões do Databricks Connect semelhantes ou anteriores à versão do Databricks Runtime sem servidor são totalmente compatíveis. Confira as notas sobre a versão. Para verificar se a versão do Databricks Connect é compatível com a computação sem servidor, confira a seção Validar a conexão com o Databricks.

  • Se você estiver se conectando a um cluster, seu cluster de destino deverá atender aos requisitos de configuração do cluster, que inclui os requisitos de versão do Databricks Runtime.

  • Você deve ter o Python 3 instalado em seu computador de desenvolvimento e a versão secundária do Python instalada em seu computador deve atender aos requisitos de versão na tabela abaixo.

  • Se você estiver usando UDFs (funções definidas pelo usuário), a versão secundária local do Python precisará corresponder à versão secundária do Python da versão do Databricks Runtime do cluster ou da computação sem servidor. Para encontrar a versão secundária do Python da versão do Databricks Runtime do cluster, confira a seção Ambiente de Sistema das notas sobre a versão do Databricks Runtime dessa versão. Consulte Versões e compatibilidade das notas sobre a versão do Databricks Runtime e Notas sobre a versão da computação sem servidor.

Matriz de Suporte de Versão

A tabela a seguir mostra versões compatíveis do Databricks Connect e do Python. Os números de versão do Databricks Connect correspondem aos números de versão do Databricks Runtime.

Tipo de computação Versão do Databricks Connect Versão compatível do Python
Sem servidor 15.1 e versões posteriores 3.12
Cluster 16.0 e superior 3.12
Cluster 15.0 a 15.4 LTS 3.11
Cluster 13.3 LTS a 14.3 LTS 3.10

Ativar um ambiente virtual do Python

O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir o uso das versões corretas do Python e do Databricks Connect em conjunto. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.

Instalar o cliente do Databricks Connect

Esta seção descreve como instalar o cliente do Databricks Connect com venv ou Poetry.

Observação

Se você já tiver a extensão do Databricks para o Visual Studio Code instalada, não precisará seguir essas instruções de instalação, pois a extensão do Databricks para Visual Studio Code já tem suporte interno para Databricks Connect para Databricks Runtime 13.3 LTS e superior. Pular para Depurar código usando o Databricks Connect para a extensão Databricks para Visual Studio Code.

Instale o cliente do Databricks Connect com venv

  1. Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando uninstall. Isso é necessário porque o pacote databricks-connect está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando install. Use a opção --upgrade para atualizar qualquer instalação do cliente existente para a versão especificada.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    O Databricks recomenda que você acrescente a notação "dot-asterisk" a ser especificada databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

Instale o cliente do Databricks Connect com Poesia

  1. Com o ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o comando remove. Isso é necessário porque o pacote databricks-connect está em conflito com o PySpark. Para obter detalhes, confira Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o comando show.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Com o ambiente virtual ainda ativado, instale o cliente do Databricks Connect executando o comando add.

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Observação

    O Databricks recomenda que você use a notação "at-tilde" a ser especificada databricks-connect@~15.4 em vez de databricks-connect==15.4, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

Próximas etapas

Depois de instalar o Databricks Connect, você precisará configurar uma conexão com o Databricks. Consulte Configuração de computação para o Databricks Connect.