Compartilhar via


Databricks Connect para Python

Este artigo descreve como migrar do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite que você conecte IDEs, servidores de notebook populares e aplicativos personalizados aos clusters do Azure Databricks. Consulte O que é o Databricks Connect?. Para obter a versão para Scala deste artigo, consulte Migrar para o Databricks Connect para Scala.

Observação

Antes de começar a utilizar o Databricks Connect, você precisa configurar o cliente do Databricks Connect.

Siga estas diretrizes para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior.

  1. Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao cluster do Azure Databricks, se ele ainda não estiver instalado localmente.

  2. Atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao cluster, se necessário. Para obter instruções, confira a documentação do provedor de ambiente virtual.

  3. Com o ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:

    pip3 uninstall pyspark
    
  4. Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e inferior:

    pip3 uninstall databricks-connect
    
  5. Com seu ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Observação

    O Databricks recomenda que você acrescente a notação "dot-asterisk" a ser especificada databricks-connect==X.Y.* em vez de databricks-connect=X.Y, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.

  6. Atualize o código Python para inicializar a variável spark (que representa uma instanciação da classe DatabricksSession, semelhante a SparkSession no PySpark). Consulte Configuração de computação para o Databricks Connect.

  7. Migre suas APIs RDD para usar APIs de DataFrame e migre seu SparkContext para usar alternativas.

Definir configurações do Hadoop

No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set, que se aplica às operações de SQL e do DataFrame. As configurações do Hadoop definidas no sparkContext precisam ser feitas na configuração do cluster ou por meio de um notebook. Isso porque as configurações definidas em sparkContext não estão vinculadas às sessões de usuário, mas se aplicam a todo o cluster.