Databricks Connect para Python
Este artigo descreve como migrar do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior para Python. O Databricks Connect permite que você conecte IDEs, servidores de notebook populares e aplicativos personalizados aos clusters do Azure Databricks. Consulte O que é o Databricks Connect?. Para obter a versão para Scala deste artigo, consulte Migrar para o Databricks Connect para Scala.
Observação
Antes de começar a utilizar o Databricks Connect, você precisa configurar o cliente do Databricks Connect.
Siga estas diretrizes para migrar seu projeto de código Python existente ou ambiente de codificação do Databricks Connect para Databricks Runtime 12.2 LTS e abaixo para o Databricks Connect for Databricks Runtime 13.3 LTS e superior.
Instale a versão correta do Python conforme listado nos requisitos de instalação para corresponder ao cluster do Azure Databricks, se ele ainda não estiver instalado localmente.
Atualize o ambiente virtual Python para usar a versão correta do Python para corresponder ao cluster, se necessário. Para obter instruções, confira a documentação do provedor de ambiente virtual.
Com o ambiente virtual ativado, desinstale o PySpark do seu ambiente virtual:
pip3 uninstall pyspark
Com seu ambiente virtual ainda ativado, desinstale o Databricks Connect para o Databricks Runtime 12.2 LTS e inferior:
pip3 uninstall databricks-connect
Com seu ambiente virtual ainda ativado, instale o Databricks Connect para Databricks Runtime 13.3 LTS e acima:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Observação
O Databricks recomenda que você acrescente a notação "dot-asterisk" a ser especificada
databricks-connect==X.Y.*
em vez dedatabricks-connect=X.Y
, para garantir que o pacote mais recente esteja instalado. Embora não seja um requisito, isso ajudará a garantir que você possa usar os recursos mais recentes com suporte para esse cluster.Atualize o código Python para inicializar a variável
spark
(que representa uma instanciação da classeDatabricksSession
, semelhante aSparkSession
no PySpark). Para obter exemplos de código, consulte Instalar o Databricks Connect para Python.Migre suas APIs RDD para usar APIs de DataFrame e migre seu
SparkContext
para usar alternativas.
Definir configurações do Hadoop
No cliente, você pode definir configurações do Hadoop usando a API spark.conf.set
, que se aplica às operações de SQL e do DataFrame. As configurações do Hadoop definidas no sparkContext
precisam ser feitas na configuração do cluster ou por meio de um notebook. Isso porque as configurações definidas em sparkContext
não estão vinculadas às sessões de usuário, mas se aplicam a todo o cluster.