Eclipse gebruiken met PyDev en Databricks Connect voor Python
Notitie
Dit artikel bevat informatie over Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
In dit artikel wordt beschreven hoe u Databricks Connect voor Scala en Eclipse gebruikt met PyDev. Met Databricks Connect kunt u populaire IDE's, notebookservers en andere aangepaste toepassingen verbinden met Azure Databricks-clusters. Zie Wat is Databricks Connect?
Notitie
Voordat u Databricks Connect gaat gebruiken, moet u de Databricks Connect-client instellen.
Als u Databricks Connect en Eclipse wilt gebruiken met PyDev, volgt u deze instructies.
- Start Eclipse.
- Maak een project: klik op Bestand nieuw project PyDev PyDev > PyDev Project en klik vervolgens op Volgende.> > >
- Geef een projectnaam op.
- Geef voor Project-inhoud het pad op naar uw virtuele Python-omgeving.
- Klik op Een interpreter configureren voordat u het proces hebt uitgevoerd.
- Klik op Handmatige configuratie.
- Klik op New > Browse for python/pypy exe.
- Blader naar en selecteer het volledige pad naar de Python-interpreter waarnaar wordt verwezen in de virtuele omgeving en klik vervolgens op Openen.
- Klik in het dialoogvenster Interpreter selecteren op OK.
- Klik in het dialoogvenster Selectie vereist op OK.
- Klik in het dialoogvenster Voorkeuren op Toepassen en sluiten.
- Klik in het dialoogvenster PyDev-project op Voltooien.
- Klik op Perspectief openen.
- Voeg een Python-codebestand (
.py
) toe aan het project dat de voorbeeldcode of uw eigen code bevat. Als u uw eigen code gebruikt, moet u minimaal initialiserenDatabricksSession
zoals wordt weergegeven in de voorbeeldcode. - Als het Python-codebestand is geopend, stelt u eventuele onderbrekingspunten in waar u de code wilt onderbreken tijdens het uitvoeren.
- Klik op Uitvoeren > om de code uit te voeren. Alle Python-code wordt lokaal uitgevoerd, terwijl alle PySpark-code met betrekking tot DataFrame-bewerkingen wordt uitgevoerd op het cluster in de externe Azure Databricks-werkruimte en antwoorden worden teruggestuurd naar de lokale beller.
- Als u fouten in de code wilt opsporen, klikt u op > Foutopsporing uitvoeren. Alle Python-code wordt lokaal opgespoord, terwijl alle PySpark-code blijft worden uitgevoerd op het cluster in de externe Azure Databricks-werkruimte. De kerncode van de Spark-engine kan niet rechtstreeks vanuit de client worden opgespoord.
Zie Een programma uitvoeren voor specifiekere instructies voor uitvoering en foutopsporing.