Delen via


Migreren naar Databricks Connect voor Python

In dit artikel wordt beschreven hoe u migreert van Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder naar Databricks Connect voor Databricks Runtime 13.3 LTS en hoger voor Python. Met Databricks Connect kunt u populaire IDE's, notebookservers en aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect? Zie Migreren naar Databricks Connect voor Scala voor de Scala-versie van dit artikel.

Notitie

Voordat u Databricks Connect gaat gebruiken, moet u de Databricks Connect-client set.

Volg deze richtlijnen om uw bestaande Python-codeproject of codeomgeving te migreren vanuit Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder naar Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

  1. Installeer de juiste versie van Python zoals vermeld in de installatievereisten die overeenkomen met uw Azure Databricks-cluster, als deze nog niet lokaal is geïnstalleerd.

  2. Werk uw virtuele Python-omgeving bij om zo nodig de juiste versie van Python te gebruiken die overeenkomt met uw cluster. Zie de documentatie van uw virtuele omgevingsprovider voor instructies.

  3. Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark uit uw virtuele omgeving:

    pip3 uninstall pyspark
    
  4. Als uw virtuele omgeving nog steeds is geactiveerd, verwijdert u Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder:

    pip3 uninstall databricks-connect
    
  5. Als uw virtuele omgeving nog steeds is geactiveerd, installeert u Databricks Connect voor Databricks Runtime 13.3 LTS en hoger:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Notitie

    Databricks raadt u aan de notatie 'dot-asterisk' toe te voegen om in plaats van databricks-connect==X.Y.*, op te geven databricks-connect=X.Y dat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.

  6. Update uw Python-code om de spark variabele te initialiseren (die een instantie van de DatabricksSession-klasse vertegenwoordigt, vergelijkbaar met SparkSession in PySpark). Zie de compute-configuratie voor Databricks Connect.

  7. Migreer uw RDD-API's om DataFrame-API's te gebruiken en migreer uw SparkContext alternatieven.

Set Hadoop-configuraties

Op de client kunt u de Hadoop-configuraties set toepassen met behulp van de spark.conf.set-API, die van toepassing is op SQL- en DataFrame-bewerkingen. In de clusterconfiguratie of met een notebook moeten Hadoop-configuraties set op de sparkContextset worden. Dit komt doordat configuraties set op sparkContext niet zijn gekoppeld aan gebruikerssessies, maar wel van toepassing zijn op het hele cluster.