Używanie środowiska Eclipse z narzędziami PyDev i Databricks Connect dla języka Python
Uwaga
W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.
W tym artykule opisano sposób używania programu Databricks Connect dla języka Scala i środowiska Eclipse za pomocą narzędzia PyDev. Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, serwerów notesów i innych aplikacji niestandardowych z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?.
Uwaga
Przed rozpoczęciem korzystania z usługi Databricks Connect należy skonfigurować klienta Usługi Databricks Connect.
Aby użyć programu Databricks Connect i środowiska Eclipse z rozwiązaniem PyDev, postępuj zgodnie z tymi instrukcjami.
- Uruchom środowisko Eclipse.
- Utwórz projekt: kliknij pozycję Plik > nowy > projekt > PyDev PyDev > PyDev Project, a następnie kliknij przycisk Dalej.
- Określ nazwę projektu.
- W polu Zawartość projektu określ ścieżkę do środowiska wirtualnego języka Python.
- Kliknij przycisk Skonfiguruj interpreter przed wykonaniem procedury.
- Kliknij pozycję Konfiguracja ręczna.
- Kliknij pozycję Nowe > przeglądaj dla pliku exe python/pypy.
- Przejdź do i wybierz pełną ścieżkę do interpretera języka Python, do którego odwołuje się środowisko wirtualne, a następnie kliknij przycisk Otwórz.
- W oknie dialogowym Wybieranie interpretera kliknij przycisk OK.
- W oknie dialogowym Wybór potrzebny kliknij przycisk OK.
- W oknie dialogowym Preferencje kliknij przycisk Zastosuj i zamknij.
- W oknie dialogowym Projekt PyDev kliknij przycisk Zakończ.
- Kliknij pozycję Otwórz perspektywę.
- Dodaj do projektu plik kodu języka Python (
.py
), który zawiera przykładowy kod lub własny kod. Jeśli używasz własnego kodu, musisz co najmniej zainicjowaćDatabricksSession
kod, jak pokazano w przykładowym kodzie. - Po otwarciu pliku kodu języka Python ustaw wszystkie punkty przerwania, w których kod ma zostać wstrzymany podczas działania.
- Aby uruchomić kod, kliknij pozycję Uruchom>. Cały kod w języku Python działa lokalnie, podczas gdy cały kod PySpark obejmujący operacje ramki danych jest uruchamiany w klastrze w zdalnym obszarze roboczym usługi Azure Databricks i uruchamiane odpowiedzi są wysyłane z powrotem do lokalnego obiektu wywołującego.
- Aby debugować kod, kliknij pozycję Uruchom > debugowanie. Cały kod języka Python jest debugowany lokalnie, podczas gdy cały kod PySpark nadal działa w klastrze w zdalnym obszarze roboczym usługi Azure Databricks. Nie można debugować podstawowego kodu aparatu Spark bezpośrednio z klienta.
Aby uzyskać bardziej szczegółowe instrukcje dotyczące uruchamiania i debugowania, zobacz Running a Program (Uruchamianie programu).