Použití Eclipse s PyDev a Databricks Connect pro Python
Poznámka:
Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak používat Databricks Connect pro Scala a Eclipse s PyDev. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a další vlastní aplikace. Podívejte se, co je Databricks Connect?
Poznámka:
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Pokud chcete používat Databricks Connect a Eclipse s PyDev, postupujte podle těchto pokynů.
- Spusťte Eclipse.
- Vytvořte projekt: klepněte na tlačítko Soubor nový projekt PyDev > PyDev projektu a potom klepněte na tlačítko >.>>
- Zadejte název projektu.
- V případě obsahu Projectu zadejte cestu k vašemu virtuálnímu prostředí Pythonu.
- Před zahájením konfigurace překladače klikněte na Tlačítko Konfigurovat interpret.
- Klepněte na tlačítko Ruční konfigurace.
- Klepněte na tlačítko Nový > vyhledat python/pypy exe.
- Vyhledejte a vyberte úplnou cestu k interpretu Pythonu, na který se odkazuje ve virtuálním prostředí, a klikněte na Otevřít.
- V dialogovém okně Vybrat interpret klepněte na tlačítko OK.
- V dialogovém okně Potřebný výběr klepněte na tlačítko OK.
- V dialogovém okně Předvolby klikněte na Použít a zavřít.
- V dialogovém okně Projekt PyDev klepněte na tlačítko Dokončit.
- Klikněte na Otevřít perspektivu.
- Přidejte do projektu soubor kódu Pythonu (
.py
), který obsahuje ukázkový kód nebo vlastní kód. Pokud používáte vlastní kód, musíte minimálně inicializovatDatabricksSession
, jak je znázorněno v ukázkovém kódu. - Když máte otevřený soubor kódu Pythonu, nastavte všechny zarážky, u kterých chcete, aby se kód při spuštění pozastavil.
- Pokud chcete kód spustit, klikněte na Spustit>. Veškerý kód Pythonu běží místně, zatímco veškerý kód PySpark zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět do místního volajícího.
- Pokud chcete kód ladit, klikněte na Spustit > ladění. Veškerý kód Pythonu je laděný místně, zatímco veškerý kód PySpark se bude dál spouštět v clusteru ve vzdáleném pracovním prostoru Azure Databricks. Základní kód modulu Spark nelze ladit přímo z klienta.
Konkrétnější pokyny ke spuštění a ladění najdete v tématu Spuštění programu.