Samouczek: uruchamianie języka Python w klastrze i jako zadanie przy użyciu rozszerzenia usługi Databricks dla programu Visual Studio Code
Ten samouczek przeprowadzi Cię przez proces konfigurowania rozszerzenia usługi Databricks dla programu Visual Studio Code, a następnie uruchamiania języka Python w klastrze usługi Azure Databricks i jako zadania usługi Azure Databricks w zdalnym obszarze roboczym. Zobacz Co to jest rozszerzenie usługi Databricks dla programu Visual Studio Code?.
Wymagania
Ten samouczek wymaga:
- Zainstalowano rozszerzenie usługi Databricks dla programu Visual Studio Code. Zobacz Instalowanie rozszerzenia usługi Databricks dla programu Visual Studio Code.
- Masz zdalny klaster usługi Azure Databricks do użycia. Zanotuj nazwę klastra. Aby wyświetlić dostępne klastry, na pasku bocznym obszaru roboczego usługi Azure Databricks kliknij pozycję Obliczenia. Zobacz Obliczenia.
Krok 1. Tworzenie nowego projektu usługi Databricks
W tym kroku utworzysz nowy projekt usługi Databricks i skonfigurujesz połączenie ze zdalnym obszarem roboczym usługi Azure Databricks.
- Uruchom program Visual Studio Code, a następnie kliknij pozycję Plik > Otwórz folder i otwórz pusty folder na lokalnej maszynie programistycznej.
- Na pasku bocznym kliknij ikonę logo usługi Databricks . Spowoduje to otwarcie rozszerzenia usługi Databricks.
- W widoku Konfiguracja kliknij pozycję Migruj do projektu usługi Databricks.
- Zostanie otwarta paleta poleceń do skonfigurowania obszaru roboczego usługi Databricks. W polu Host usługi Databricks wprowadź lub wybierz adres URL dla poszczególnych obszarów roboczych, na przykład
https://adb-1234567890123456.7.azuredatabricks.net
. - Wybierz profil uwierzytelniania dla projektu. Zobacz Konfigurowanie uwierzytelniania dla rozszerzenia usługi Databricks dla programu Visual Studio Code.
Krok 2. Dodawanie informacji o klastrze do rozszerzenia usługi Databricks i uruchamianie klastra
Po otwarciu widoku Konfiguracja kliknij pozycję Wybierz klaster lub kliknij ikonę koła zębatego (Konfiguruj klaster).
W palecie poleceń wybierz nazwę utworzonego wcześniej klastra.
Kliknij ikonę odtwarzania (Uruchom klaster), jeśli jeszcze nie został uruchomiony.
Krok 3. Tworzenie i uruchamianie kodu w języku Python
Utwórz lokalny plik kodu języka Python: na pasku bocznym kliknij ikonę folderu (Eksploratora).
W menu głównym kliknij pozycję Plik > nowy plik. Nadaj plikowi nazwę demo.py i zapisz go w katalogu głównym projektu.
Dodaj następujący kod do pliku, a następnie zapisz go. Ten kod tworzy i wyświetla zawartość podstawowej ramki danych PySpark:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show() # Output: # # +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+
Kliknij ikonę Uruchom w usłudze Databricks obok listy kart edytora, a następnie kliknij pozycję Przekaż i uruchom plik. Dane wyjściowe są wyświetlane w widoku Konsola debugowania.
Alternatywnie w widoku Eksploratora kliknij prawym przyciskiem myszy
demo.py
plik, a następnie kliknij polecenie Uruchom w obszarze Przekazywanie i uruchamianie pliku usługi Databricks>.
Krok 4. Uruchamianie kodu jako zadania
Aby uruchomić demo.py
zadanie jako zadanie, kliknij ikonę Uruchom w usłudze Databricks obok listy kart edytora, a następnie kliknij pozycję Uruchom plik jako przepływ pracy. Dane wyjściowe są wyświetlane na osobnej karcie edytora obok edytora demo.py
plików.
Alternatywnie kliknij prawym przyciskiem myszy demo.py
plik w panelu Eksplorator, a następnie wybierz polecenie Uruchom w usłudze Databricks>Uruchom plik jako przepływ pracy.
Następne kroki
Teraz, gdy pomyślnie użyto rozszerzenia usługi Databricks dla programu Visual Studio Code do przekazania lokalnego pliku języka Python i uruchomienia go zdalnie, możesz również:
- Zapoznaj się z zasobami i zmiennymi pakietu zasobów usługi Databricks przy użyciu interfejsu użytkownika rozszerzenia. Zobacz Funkcje rozszerzenia pakietu zasobów usługi Databricks.
- Uruchom lub debuguj kod języka Python za pomocą usługi Databricks Connect. Zobacz Debugowanie kodu przy użyciu usługi Databricks Connect dla rozszerzenia usługi Databricks dla programu Visual Studio Code.
- Uruchom plik lub notes jako zadanie usługi Azure Databricks. Zobacz Uruchamianie pliku w klastrze lub pliku lub notesie jako zadania w usłudze Azure Databricks przy użyciu rozszerzenia usługi Databricks dla programu Visual Studio Code.
- Uruchamianie testów za pomocą polecenia
pytest
. Zobacz Run tests with pytest using the Databricks extension for Visual Studio Code (Uruchamianie testów za pomocą narzędzia pytest przy użyciu rozszerzenia usługi Databricks dla programu Visual Studio Code).