Databricks Connect dla języka Python
Uwaga
W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.
W tym artykule pokazano, jak szybko rozpocząć pracę z usługą Databricks Connect przy użyciu języków Python i PyCharm.
- Aby zapoznać się z wersją języka R tego artykułu, zobacz Databricks Connect for R.
- Aby zapoznać się z wersją języka Scala tego artykułu, zobacz Databricks Connect for Scala.
Usługa Databricks Connect umożliwia łączenie popularnych środowisk IDE, takich jak PyCharm, serwery notesów i inne aplikacje niestandardowe z klastrami usługi Azure Databricks. Zobacz Co to jest usługa Databricks Connect?.
Samouczek
Aby pominąć ten samouczek i użyć innego środowiska IDE, zobacz Następne kroki.
Wymagania
Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:
- Docelowy obszar roboczy usługi Azure Databricks musi mieć włączony wykaz aparatu Unity.
- Masz zainstalowany pakiet PyCharm. Ten samouczek został przetestowany z wersją PyCharm Community Edition 2023.3.5. Jeśli używasz innej wersji lub wydania pakietu PyCharm, poniższe instrukcje mogą się różnić.
- Środowisko obliczeniowe spełnia wymagania instalacji programu Databricks Connect dla języka Python.
- Jeśli używasz klasycznych obliczeń, będziesz potrzebować identyfikatora klastra. Aby uzyskać identyfikator klastra, w obszarze roboczym kliknij pozycję Obliczenia na pasku bocznym, a następnie kliknij nazwę klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między
clusters
iconfiguration
w adresie URL.
Krok 1. Konfigurowanie uwierzytelniania usługi Azure Databricks
W tym samouczku używane jest uwierzytelnianie użytkownika do komputera usługi Azure Databricks OAuth (U2M) oraz profil konfiguracji usługi Azure Databricks do uwierzytelniania w obszarze roboczym usługi Azure Databricks. Aby użyć innego typu uwierzytelniania, zobacz Konfigurowanie właściwości połączenia.
Konfigurowanie uwierzytelniania OAuth U2M wymaga interfejsu wiersza polecenia usługi Databricks. Aby uzyskać informacje na temat instalowania interfejsu wiersza polecenia usługi Databricks, zobacz Instalowanie lub aktualizowanie interfejsu wiersza polecenia usługi Databricks.
Zainicjuj uwierzytelnianie OAuth U2M w następujący sposób:
Użyj interfejsu wiersza polecenia usługi Databricks, aby lokalnie zainicjować zarządzanie tokenami OAuth, uruchamiając następujące polecenie dla każdego docelowego obszaru roboczego.
W poniższym poleceniu zastąp ciąg
<workspace-url>
adresem URL usługi Azure Databricks na obszar roboczy, na przykładhttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Napiwek
Aby używać bezserwerowych obliczeń z usługą Databricks Connect, zobacz Konfigurowanie połączenia z bezserwerowymi obliczeniami.
Interfejs wiersza polecenia usługi Databricks monituje o zapisanie informacji wprowadzonych jako profil konfiguracji usługi Azure Databricks. Naciśnij
Enter
, aby zaakceptować sugerowaną nazwę profilu lub wprowadź nazwę nowego lub istniejącego profilu. Każdy istniejący profil o tej samej nazwie zostanie zastąpiony wprowadzonymi informacjami. Profile umożliwiają szybkie przełączanie kontekstu uwierzytelniania między wieloma obszarami roboczymi.Aby uzyskać listę wszystkich istniejących profilów, w osobnym terminalu lub wierszu polecenia użyj interfejsu wiersza polecenia usługi Databricks, aby uruchomić polecenie
databricks auth profiles
. Aby wyświetlić istniejące ustawienia określonego profilu, uruchom poleceniedatabricks auth env --profile <profile-name>
.W przeglądarce internetowej wykonaj instrukcje na ekranie, aby zalogować się do obszaru roboczego usługi Azure Databricks.
Na liście dostępnych klastrów wyświetlanych w terminalu lub wierszu polecenia użyj strzałek w górę i w dół, aby wybrać docelowy klaster usługi Azure Databricks w obszarze roboczym, a następnie naciśnij
Enter
. Możesz również wpisać dowolną część nazwy wyświetlanej klastra, aby filtrować listę dostępnych klastrów.Aby wyświetlić bieżącą wartość tokenu OAuth profilu i zbliżający się znacznik czasu wygaśnięcia tokenu, uruchom jedno z następujących poleceń:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Jeśli masz wiele profilów o tej samej
--host
wartości, może być konieczne określenie--host
opcji i-p
, aby ułatwić interfejsowi wiersza polecenia usługi Databricks znalezienie prawidłowych pasujących informacji o tokenie OAuth.
Krok 2. Tworzenie projektu
- Uruchom plik PyCharm.
- W menu głównym kliknij pozycję Plik > nowy projekt.
- W oknie dialogowym Nowy projekt kliknij pozycję Pure Python.
- W obszarze Lokalizacja kliknij ikonę folderu i ukończ wskazówki na ekranie, aby określić ścieżkę do nowego projektu języka Python.
- Pozostaw wybraną opcję Utwórz skrypt powitalny main.py.
- W polu Typ interpretera kliknij pozycję Projekt venv.
- Rozwiń węzeł Wersja języka Python i użyj ikony folderu lub listy rozwijanej, aby określić ścieżkę do interpretera języka Python z poprzednich wymagań.
- Kliknij pozycję Utwórz.
Krok 3. Dodawanie pakietu Databricks Connect
- W menu głównym narzędzia PyCharm kliknij pozycję Wyświetl narzędzia Windows > Python Packages>.
- W polu wyszukiwania wpisz
databricks-connect
. - Na liście repozytorium PyPI kliknij pozycję databricks-connect.
- Z najnowszej listy rozwijanej okienka wyników wybierz wersję zgodną z wersją środowiska Databricks Runtime klastra. Jeśli na przykład klaster ma zainstalowane środowisko Databricks Runtime 14.3, wybierz pozycję 14.3.1.
- Kliknij pozycję Zainstaluj pakiet.
- Po zainstalowaniu pakietu można zamknąć okno Pakiety języka Python.
Krok 4. Dodawanie kodu
W oknie narzędzia Project kliknij prawym przyciskiem myszy folder główny projektu, a następnie kliknij pozycję Nowy > plik języka Python.
Wprowadź
main.py
i kliknij dwukrotnie plik języka Python.Wprowadź następujący kod w pliku, a następnie zapisz plik w zależności od nazwy profilu konfiguracji.
Jeśli profil konfiguracji z kroku 1 nosi nazwę
DEFAULT
, wprowadź następujący kod w pliku, a następnie zapisz plik:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Jeśli profil konfiguracji z kroku 1 nie ma nazwy
DEFAULT
, zamiast tego wprowadź następujący kod do pliku. Zastąp symbol zastępczy<profile-name>
nazwą profilu konfiguracji z kroku 1, a następnie zapisz plik:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Krok 5. Uruchamianie kodu
- Uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks.
- Po uruchomieniu klastra w menu głównym kliknij pozycję Uruchom > polecenie "main".
- W oknie Uruchom narzędzie (Wyświetl > narzędzie Uruchom w systemie Windows>) w okienku głównym karty Uruchamianie zostanie wyświetlonych pierwszych 5 wierszy
samples.nyctaxi.trips
.
Krok 6. Debugowanie kodu
- Gdy klaster nadal działa, w poprzednim kodzie kliknij gutter obok, aby ustawić
df.show(5)
punkt przerwania. - W menu głównym kliknij pozycję Uruchom > debugowanie "main".
- W oknie Narzędzia debugowania (Wyświetl > narzędzie Debugowanie systemu Windows>) w okienku Zmienne debugera rozwiń węzły zmiennych df i spark, aby przeglądać informacje o kodzie
df
ispark
zmiennych. - Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program).
- W okienku Konsola debugera zostanie wyświetlonych pierwszych 5 wierszy
samples.nyctaxi.trips
.
Następne kroki
Aby dowiedzieć się więcej o programie Databricks Connect, zobacz artykuły, takie jak:
- Aby użyć innego typu uwierzytelniania, zobacz Konfigurowanie właściwości połączenia.
- Aby użyć innych identyfikatorów IDE, serwerów notesów i powłoki Spark, zobacz następujące elementy:
- Aby wyświetlić dodatkowe proste przykłady kodu, zobacz Przykłady kodu dla programu Databricks Connect dla języka Python.
- Aby wyświetlić bardziej złożone przykłady kodu, zobacz przykładowe aplikacje dla repozytorium Databricks Connect w usłudze GitHub, w szczególności:
- Aby użyć narzędzi usługi Databricks z usługą Databricks Connect, zobacz Databricks Utilities with Databricks Connect for Python (Narzędzia usługi Databricks Connect dla języka Python).
- Aby przeprowadzić migrację z usługi Databricks Connect dla środowiska Databricks Runtime 12.2 LTS i poniżej do usługi Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego, zobacz Migrowanie do usługi Databricks Connect dla języka Python.
- Zobacz również informacje o rozwiązywaniu problemów i ograniczeniach.