Udostępnij za pośrednictwem


Databricks Connect dla języka Python

Uwaga

W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

Databricks Connect umożliwia łączenie popularnych środowisk IDE, takich jak PyCharm, serwery notebooków i inne aplikacje niestandardowe z obliczeniami Azure Databricks. Zobacz Co to jest usługa Databricks Connect?.

W tym artykule pokazano, jak szybko rozpocząć pracę z programem Databricks Connect dla języka Python przy użyciu PyCharm.

Samouczek

W poniższym samouczku utworzysz projekt w narzędziu PyCharm, zainstaluj program Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego, a następnie uruchomisz prosty kod dotyczący obliczeń w obszarze roboczym usługi Databricks z poziomu rozwiązania PyCharm. Aby uzyskać dodatkowe informacje i przykłady, zobacz Następne kroki.

Wymagania

Aby ukończyć ten samouczek, musisz spełnić następujące wymagania:

  • Docelowy obszar roboczy usługi Azure Databricks musi mieć włączony Unity Catalog.
  • Masz zainstalowany pakiet PyCharm. Ten samouczek został przetestowany z wersją PyCharm Community Edition 2023.3.5. Jeśli używasz innej wersji lub wydania pakietu PyCharm, poniższe instrukcje mogą się różnić.
  • Środowisko lokalne i obliczenia spełniają wymagania dotyczące wersji instalacji programu Databricks Connect dla języka Python .
  • Jeśli używasz klasycznych obliczeń, będziesz potrzebować identyfikatora klastra. Aby uzyskać identyfikator klastra, w swoim obszarze roboczym kliknij pozycję Obliczenia na pasku bocznym, a następnie kliknij nazwę klastra. Na pasku adresu przeglądarki internetowej skopiuj ciąg znaków między clusters i configuration w adresie URL.

Krok 1. Konfigurowanie uwierzytelniania usługi Azure Databricks

W tym samouczku używane jest uwierzytelnianie użytkownika do komputera usługi Azure Databricks OAuth (U2M) oraz profil konfiguracji usługi Azure Databricks do uwierzytelniania w obszarze roboczym usługi Azure Databricks. Aby użyć innego typu uwierzytelniania, zobacz Konfigurowanie właściwości połączenia.

Konfigurowanie uwierzytelniania OAuth U2M wymaga Databricks CLI. Aby uzyskać informacje na temat instalowania interfejsu wiersza polecenia usługi Databricks, zobacz Instalowanie lub aktualizowanie interfejsu wiersza polecenia usługi Databricks.

Zainicjuj uwierzytelnianie OAuth U2M w następujący sposób:

  1. Użyj Databricks CLI, aby lokalnie zainicjować zarządzanie tokenami OAuth, uruchamiając następujące polecenie dla każdej docelowej przestrzeni roboczej.

    W poniższym poleceniu zastąp <workspace-url> adresem URL dotyczący usługi Azure Databricks przypisanym do konkretnego obszaru roboczego, na przykład https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Napiwek

    Aby używać bezserwerowych obliczeń z usługą Databricks Connect, zobacz Konfigurowanie połączenia z bezserwerowymi obliczeniami.

  2. Interfejs wiersza polecenia Databricks prosi o zapisanie wprowadzonych informacji jako profil konfiguracji Azure Databricks. Naciśnij Enter , aby zaakceptować sugerowaną nazwę profilu lub wprowadź nazwę nowego lub istniejącego profilu. Każdy istniejący profil o tej samej nazwie zostanie zastąpiony wprowadzonymi informacjami. Profile umożliwiają szybkie przełączanie kontekstu uwierzytelniania między wieloma obszarami roboczymi.

    Aby uzyskać listę wszystkich istniejących profilów, w osobnym terminalu lub wierszu polecenia użyj interfejsu wiersza polecenia usługi Databricks, aby uruchomić polecenie databricks auth profiles. Aby wyświetlić istniejące ustawienia określonego profilu, uruchom polecenie databricks auth env --profile <profile-name>.

  3. W przeglądarce internetowej wykonaj instrukcje na ekranie, aby zalogować się do obszaru roboczego usługi Azure Databricks.

  4. Na liście dostępnych klastrów wyświetlanych w terminalu lub wierszu polecenia użyj strzałek w górę i w dół, aby wybrać docelowy klaster usługi Azure Databricks w obszarze roboczym, a następnie naciśnij Enter. Możesz również wpisać dowolną część nazwy wyświetlanej klastra, aby filtrować listę dostępnych klastrów.

  5. Aby wyświetlić bieżącą wartość tokenu OAuth profilu i zbliżający się znacznik czasu wygaśnięcia tokenu, uruchom jedno z następujących poleceń:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Jeśli masz wiele profili z tą samą wartością --host, może być konieczne określenie opcji --host i -p, aby ułatwić CLI usługi Databricks znalezienie poprawnych informacji o pasującym tokenie OAuth.

Krok 2. Tworzenie projektu

  1. Uruchom plik PyCharm.
  2. W menu głównym kliknij pozycję Plik > Nowy Projekt.
  3. W oknie dialogowym Nowy projekt kliknij pozycję Pure Python.
  4. W obszarze Lokalizacja kliknij ikonę folderu i ukończ wskazówki na ekranie, aby określić ścieżkę do nowego projektu języka Python.
  5. Pozostaw zaznaczoną opcję Utwórz skrypt powitalny main.py.
  6. W polu Typ interpretera kliknij pozycję Projekt venv.
  7. Rozwiń opcję Wersja Pythona i użyj ikony folderu lub listy rozwijanej, aby określić ścieżkę do interpretera Pythona z powyższych wymagań.
  8. Kliknij pozycję Utwórz.

Tworzenie projektu PyCharm

Krok 3. Dodawanie pakietu Databricks Connect

  1. W głównym menu PyCharm kliknij Widok > Okna narzędzi > Pakiety Python.
  2. W polu wyszukiwania wpisz databricks-connect.
  3. Na liście repozytorium PyPI kliknij pozycję databricks-connect.
  4. W najnowszej liście rozwijanej okienka wyników wybierz wersję, która odpowiada wersji środowiska Databricks Runtime Twojego klastra. Jeśli na przykład klaster ma zainstalowane środowisko Databricks Runtime 14.3, wybierz pozycję 14.3.1.
  5. Kliknij pozycję Zainstaluj pakiet.
  6. Po zainstalowaniu pakietu można zamknąć okno Pakiety języka Python.

Instalowanie pakietu Databricks Connect

Krok 4. Dodawanie kodu

  1. W oknie narzędzia Project kliknij prawym przyciskiem myszy folder główny projektu, a następnie kliknij pozycję Nowy > plik języka Python.

  2. Wprowadź main.py i kliknij dwukrotnie plik języka Python.

  3. Wprowadź następujący kod w pliku, a następnie zapisz plik w zależności od nazwy profilu konfiguracji.

    Jeśli profil konfiguracji z kroku 1 nosi nazwę DEFAULT, wprowadź następujący kod w pliku, a następnie zapisz plik:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Jeśli profil konfiguracji z kroku 1 nie ma nazwy DEFAULT, zamiast tego wprowadź następujący kod do pliku. Zastąp symbol zastępczy <profile-name> nazwą profilu konfiguracji z kroku 1, a następnie zapisz plik:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Krok 5. Uruchamianie kodu

  1. Uruchom klaster docelowy w zdalnym obszarze roboczym usługi Azure Databricks.
  2. Po uruchomieniu klastra w menu głównym kliknij opcję Uruchom > Uruchom polecenie "main".
  3. W oknie narzędziowym Uruchom (Widok > Okna narzędzi > Uruchom), w głównym okienku zakładki Uruchamianie, pojawi się pierwszych 5 wierszy samples.nyctaxi.trips.

Krok 6. Debugowanie kodu

  1. Gdy klaster nadal działa, kliknij w marginesie obok df.show(5), aby ustawić punkt przerwania.
  2. W głównym menu kliknij Uruchom debugowanie "main".
  3. W oknie narzędzia Debug (Widok > Windows Narzędzi > Debug), na karcie Debugger w panelu Zmienne, rozwiń węzły zmiennych df i spark, aby przeglądać informacje o zmiennych w kodzie.
  4. Na pasku bocznym okna narzędzia debugowania kliknij ikonę zielonej strzałki (wznów program).
  5. W karcie Debugera w okienku Konsola pojawi się 5 pierwszych wierszysamples.nyctaxi.trips.

Debugowanie projektu PyCharm

Następne kroki

Aby dowiedzieć się więcej o programie Databricks Connect, zobacz artykuły, takie jak: