Delen via


Eclipse gebruiken met PyDev en Databricks Connect voor Python

Notitie

Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

In dit artikel wordt beschreven hoe u Databricks Connect voor Scala en Eclipse gebruikt met PyDev. Met Databricks Connect kunt u populaire IDE's, notebookservers en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?

Notitie

Voordat u Databricks Connect gaat gebruiken, moet u de Databricks Connect-client instellen.

Als u Databricks Connect en Eclipse wilt gebruiken met PyDev, volgt u deze instructies.

  1. Start Eclipse.
  2. Maak een project: klik op Bestand nieuw project PyDev PyDev > PyDev Project en klik vervolgens op Volgende.> > >
  3. Geef een projectnaam op.
  4. Geef voor Project-inhoud het pad op naar uw virtuele Python-omgeving.
  5. Klik op Een interpreter configureren voordat u het proces hebt uitgevoerd.
  6. Klik op Handmatige configuratie.
  7. Klik op New > Browse for python/pypy exe.
  8. Blader naar en selecteer het volledige pad naar de Python-interpreter waarnaar wordt verwezen in de virtuele omgeving en klik vervolgens op Openen.
  9. Klik in het dialoogvenster Interpreter selecteren op OK.
  10. Klik in het dialoogvenster Selectie vereist op OK.
  11. Klik in het dialoogvenster Voorkeuren op Toepassen en sluiten.
  12. Klik in het dialoogvenster PyDev-project op Voltooien.
  13. Klik op Perspectief openen.
  14. Voeg een Python-codebestand (.py) toe aan het project dat de voorbeeldcode of uw eigen code bevat. Als u uw eigen code gebruikt, moet u minimaal initialiseren DatabricksSession zoals wordt weergegeven in de voorbeeldcode.
  15. Als het Python-codebestand is geopend, stelt u eventuele onderbrekingspunten in waar u de code wilt onderbreken tijdens het uitvoeren.
  16. Klik op Uitvoeren > om de code uit te voeren. Alle Python-code wordt lokaal uitgevoerd, terwijl alle PySpark-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale beller.
  17. Als u fouten in de code wilt opsporen, klikt u op > Foutopsporing uitvoeren. Alle Python-code wordt lokaal opgespoord, terwijl alle PySpark-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.

Zie Een programma uitvoeren voor specifiekere instructies voor uitvoering en foutopsporing.