Partilhar via


Instalar o Databricks Connect para Python

Nota

Este artigo aborda o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

Este artigo descreve como instalar o Databricks Connect for Python. Consulte O que é Databricks Connect?. Para a versão Scala deste artigo, consulte Instalar o Databricks Connect for Scala.

Requisitos

Para instalar o Databricks Connect for Python, os seguintes requisitos devem ser atendidos:

  • Se você estiver se conectando à computação sem servidor, seu espaço de trabalho deverá atender aos requisitos de computação sem servidor.

    Nota

    A computação sem servidor é suportada no Databricks Connect versão 15.1 e superior. Além disso, as versões do Databricks Connect iguais ou inferiores à versão Databricks Runtime no serverless são totalmente compatíveis. Consulte Notas de versão. Para verificar se a versão do Databricks Connect é compatível com computação sem servidor, consulte Validar a conexão com o Databricks.

  • Se você estiver se conectando a um cluster, o cluster de destino deverá atender aos requisitos de configuração do cluster, que incluem os requisitos de versão do Databricks Runtime.

  • Você deve ter o Python 3 instalado em sua máquina de desenvolvimento, e a versão secundária do Python instalada em sua máquina de desenvolvimento deve atender aos requisitos de versão na tabela abaixo.

    Tipo de computação Versão do Databricks Connect Versão Python compatível
    Sem servidor 15.1 e superior 3.11
    Cluster 15.1 e superior 3.11
    Cluster 13,3 LTS a 14,3 LTS 3,10
  • Se você estiver usando funções definidas pelo usuário (UDFs), a versão secundária local do Python deverá corresponder à versão secundária do Python da versão do Databricks Runtime do cluster ou computação sem servidor. Para encontrar a versão menor do Python da versão do Databricks Runtime do seu cluster, consulte a secção System environment das notas de versão do Databricks Runtime para essa versão. Consulte Notas de versão, versões e compatibilidade do Databricks Runtime e Notas de versão de computação sem servidor.

Ativar um ambiente virtual Python

O Databricks recomenda que você tenha um ambiente virtual Python ativado para cada versão do Python que você usa com o Databricks Connect. Os ambientes virtuais Python ajudam a garantir que você esteja usando as versões corretas do Python e do Databricks Connect juntos. Para obter mais informações sobre essas ferramentas e como ativá-las, consulte venv ou Poetry.

Instalar o cliente Databricks Connect

Esta seção descreve como instalar o cliente Databricks Connect com venv ou Poetry.

Nota

Se você já tiver a extensão Databricks para Visual Studio Code instalada, não precisará seguir estas instruções de instalação, porque a extensão Databricks para Visual Studio Code já tem suporte interno para Databricks Connect for Databricks Runtime 13.3 LTS e superior. Pule para Depurar código usando Databricks Connect para a extensão Databricks para Visual Studio Code.

Instale o cliente Databricks Connect com venv

  1. Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o uninstall comando. Isso é necessário porque o pacote entra em conflito com o databricks-connect PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o show comando.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o install comando. Use a --upgrade opção para atualizar qualquer instalação de cliente existente para a versão especificada.

    pip3 install --upgrade "databricks-connect==15.4.*"  # Or X.Y.* to match your cluster version.
    

    Nota

    O Databricks recomenda que você anexe a notação "ponto-asterisco" para especificar databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

Instale o cliente Databricks Connect com o Poetry

  1. Com seu ambiente virtual ativado, desinstale o PySpark, se ele já estiver instalado, executando o remove comando. Isso é necessário porque o pacote entra em conflito com o databricks-connect PySpark. Para obter detalhes, consulte Instalações conflitantes do PySpark. Para verificar se o PySpark já está instalado, execute o show comando.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. Com seu ambiente virtual ainda ativado, instale o cliente Databricks Connect executando o add comando.

    poetry add databricks-connect@~15.4  # Or X.Y to match your cluster version.
    

    Nota

    O Databricks recomenda que você use a notação "at-tilde" para especificar databricks-connect@~15.4 em vez de databricks-connect==15.4, para garantir que o pacote mais recente esteja instalado. Embora isso não seja um requisito, ele ajuda a garantir que você possa usar os recursos suportados mais recentes para esse cluster.

Próximos passos

Depois de instalar o Databricks Connect, você precisa configurar uma conexão com o Databricks. Consulte Configuração de computação para Databricks Connect.